Главная > Учебные материалы > Математика: Вариационные ряды
1.Вариационный ряд. 2.Числовые характеристики вариационного ряда.
1.Вариационный ряд.
Многие явления, в том числе и экономические, имеют большой объем числовой информации. Для того, чтобы обработатать и изучить такой большой объем данных, необходимо сначала каким-то образом его сгруппировать. От того как сгруппировать ряд, зависит какую информацию можно получить в конечном итоге и какими свойствами обладают те или иные признаки (варианты). Вариационный ряд представляет собой сгруппированный ряд числовых данных, ранжированный в порядке возрастания или убывания, каждая группа которого имеет определенный вес (или частоту). Например объем продаж магазином товара за определенный промежуток времени (например за день) можно сгруппировать по наименованию товара.
Таб.1
По данным таблицы построим полигон распределения частот (рис.1)
В приведенной выше таблице проданные товары сгруппированы по наименованию бренда товара (например телевизоры разных марок). Т.е. в данном случае признаком является наименование марки (бренда) товара. Во второй колонке дано количество проданного товара, т.е. частота данного признака. Данный ряд является дискретным. Из графика видно, что наибольшей частотой обладают товары С, D и E. Соответственно 21, 22 и 20 шт.
Таб. 2
По данным таблицы построим гистограмму распределения частот (рис.2)
Таблица 2 сгруппирована по ценовым категориям. Каждая группа имеет свой интервал цен. Данный ряд называется интервальный. Из таблицы можно увидеть, что наибольшее значение частоты имеет группа 3 в интервале цен 40-60 соответственно 43шт. Вариационные ряды на порядок меньше всего объема данных и это существенно облегчает их обработку и анализ. Полигон распределения или гистограмма вариационного ряда является аналогом распределения случайной величины. Несмотря на то, что вариационный ряд имеет существенное преимущество перед полными данными, т.к. он меньше по объему и дает полную информацию об изменении признака и свойствах ряда, на практике бывает достаточно знать лишь некоторые его характеристики.
2.Числовые характеристики вариационного ряда.
Одной из основных числовых характеристик вариационных рядов является средняя арифметическая. Данная величина показывает центральное значение признака, вокруг которого сосредоточенны все наблюдения. Средней арифметической вариационного ряда называется сумма произведений признаков (вариантов) ряда на соответствующие им частости.
Средним линейным отклонением вариационного ряда называется средняя арифметическая модуля отклонения признаков от их средней арифметической.
Дисперсией s 2 вариационного ряда называется средняя арифметическая квадратов отклонений признаков от их средней арифметической.
Среднее квадратическое отклонение вариационного ряда равно квадратному корню из дисперсии.
Важным показателем вариационного ряда является также коэффициент вариации, который показывает однородность исследуемого признака.
Пример.
В компании по продаже бытовой техники, случайная величина Х (цена за единицу товара (техники) в ден.ед.) сгруппирована по интервалам цен и общий объем продаж составил 400 шт. Необходимо построить полигон распределения случайной величины Х, кумуляту и эмпирическую функцию ряда. Необходимо также найти: среднюю арифметическую, моду, медиану, дисперсию, среднее квадратическое отклонение, коэффициент вариации, начальный (центральный) моменты k-го порядка, коэффициент асиметрии и эксцесс данной случайной величины.
Решение. Построим таблицу для рассчета средней арифметической и рассчитаем частость для каждого интервала цен.
Как видно из таблицы сумма произведений x i n i = 14610, разделим эту сумму на n и получим среднюю арифметическую вариационного ряда.
По данным таблицы построим гистограмму распределения частот.
Построим и эмпирическую функцию распределения случайной величины (кумуляту).
Из данных таблицы найдем дисперсию, среднее квадратическое отклонение, коэффициент вариации, коэффициент асимметрии и эксцесс по следующим формулам:
Начиная с XVIII века, в общем направлении статистических исследований начинает активно формироваться математическая статистика.
Математическая статистика – раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений.
В зависимости от предмета исследований математическая статистика делится на:
В зависимости от цели и методов исследований математическая статистика делится на: описательную статистику; теорию оценивания; теорию проверки гипотез.
Описательная статистика
Теория оценивания
Теория проверки гипотез
Цель
Обработка и систематизация эмпирических данных
Оценивание ненаблюдаемых данных и сигналов от объектов наблюдения на основе наблюдаемых данных
Обоснование предположений о виде распределения и свойствах случайной величины
Методы
1. Наглядное представление в форме графиков и таблиц.
2. Количественное описание с помощью статистических показателей.
1. Параметрические методы (наименьших квадратов, максимального правдоподобия и др.).
2. Непараметрические методы.
1. Последовательный анализ.
2. Статистические критерии.
Метод выборочных исследований
Статистика получила признание в различных областях человеческой деятельности благодаря заметной экономии времени и прочих ресурсов. Её основная идея: не нужно измерять всё, измерьте только часть всего и сделайте предположение об остальном.
«Всё» в статистике называется генеральной совокупностью.
«Часть всего», которую мы тщательно исследуем, называется выборкой.
Метод выборочных исследований – способ определения свойств группы объектов ( генеральной совокупности ) на основании статистического исследования её части ( выборки ).
Например, чтобы оценить средние размеры апельсина, который продаётся в магазине в декабре, необязательно денно и нощно мерить все апельсины во всех ящиках (сколько же для этого нужно времени и людей?!). Достаточно сделать выборку – мерить по одному апельсину из каждого ящика в течение месяца (тут уже и один человек справится).
Статистика предоставляет методику и оценки для того, чтобы правильно провести выборку и на основании знаний о среднем размере апельсина в выборке (выборочной средней) судить о средних размерах всех декабрьских апельсин (генеральной средней).
Средняя арифметическая, простая и взвешенная
Статистическое исследование опирается на собранные данные о каком-то признаке (рост, вес, возраст, доход и т.п.).
Варианта – полученное эмпирическое значение признака.
Вариационный ряд – совокупность собранных вариант.
Пусть мы сделали выборку, провели N измерений и получили x_1,x_2,…,x_N вариант.
Чтобы найти выборочную среднюю дискретного вариационного ряда, нужно вычислить среднюю арифметическую простую :
На протяжении четверти школьник получил такие оценки по алгебре: 5,4,3,5,4,4,5,4,3,5,5,4,3,5,4,4. Найдите среднюю оценку за четверть.
Считаем среднюю арифметическую простую:
Нетрудно заметить, что оценки повторяются, и вычисления можно упростить, если вместо сложения одинаковых оценок использовать умножение оценок на их количество.
Чтобы найти выборочную среднюю при повторяющихся вариантах, удобно вычислять среднюю арифметическую взвешенную:
Рассматриваем тот же ряд оценок: 5,4,3,5,4,4,5,4,3,5,5,4,3,5,4,4 и составляем таблицу:
Основные показатели среднего уровня вариационного ряда (средняя арифметическая; мода; медиана)
При изучении особенностей статистического распределения, прежде всего, следует найти его центральное значение, т.е. средний уровень. Для характеристики центра распределения применяются показатели, получившие название средних величин.
Самый распространенный вид средних – средняя арифметическая: простая или взвешенная.
Средняя арифметическая простая (невзвешенная) равна сумме отдельных значений признака, деленной на число этих значений.
— средняя арифметическая простая.
Простая средняя арифметическая применяется в случаях, когда имеются отдельные значения признака, т.е. данные не сгруппированы. Если данные представлены в виде рядов распределения или группировок, то средняя исчисляется иначе.
— средняя арифметическая взвешенная.
В формулах средней арифметической взвешенной, рассчитываемой для интервального вариационного ряда, в качестве хiпринято брать середину интервала.
Средняя арифметическая обладает рядом свойств:
1. От уменьшения или увеличения частот каждого значения признака хi в n раз величина средней арифметической не изменится.
Если все частоты разделить или умножить на какое-либо число, то величина средней не изменится.
2. Общий множитель индивидуальных значений признака может быть вынесен за знак средней:
3. Средняя суммы (разности) двух или нескольких величин равна сумме (разности) их средних:
5. Сумма отклонений значений признака хi от средней арифметической х равна нулю.
При изучении вариации применяются такие характеристики вариационного ряда, которые описывают количественно его структуру, строение. Такова, например, медиана— величина варьирующего признака, делящая совокупность на две равные части
со значениями признака меньше медианы и со значениями признака больше медианы.
Медиана не зависит от значений признака на краях ранжированного ряда. Поэтому часто медиану используют как более надежный показатель типичного значения признака, нежели арифметическая средняя, если ряд значений неоднороден, включает резкие отклонения от средней.
В интервальном вариационном ряду для нахождения медианы применяется формула
Значимой является такая величина признака, которая встречается в изучаемом ряду, в совокупности чаще всего. Такую величину принято называть модой и обозначать Мо. В дискретном ряду мода определяется без вычисления как значение признака с наибольшей частотой. Обычно встречаются ряды с одним модальным значением признака. Если два или несколько равных (и даже несколько различных, но больших, чем соседние) значений признака имеются в вариационном ряду, он считается соответственно бимодальным («верблюдообразным») либо мультимодальным. Это говорит о неоднородности совокупности, возможно, представляющей собой агрегат нескольких совокупностей с разными модами.
В интервальном вариационном ряду, тем более при непрерывной вариации признака, строго говоря, каждое значение признака встречается только один раз. Модальным интервалом является интервал с наибольшей частотой. Внутри этого интервала находят условное значение признака, вблизи которого плотность распределения, т.е. число единиц совокупности, приходящееся на единицу измерения варьирующего признака, достигает максимума. Это условное значение и считается точечной модой. Логично предположить, что такая точечная мода располагается ближе к той из границ интервала, за которой частота в соседнем интервале больше частоты в интервале за другой границей модального интервала. Отсюда имеем обычно применяемую формулу
,
— частота модального интервала;
— частота интервала, предшествующего модальному;
— частота интервала, следующего за модальным.
Если распределение по форме близко к нормальному закону, то медиана находится между модой и средней величиной, причем ближе к средней, чем к моде.
Структурные характеристики вариационного ряда распределения
8.1. Мода
8.1.1. Определение моды в дискретных вариационных рядах
В дискретных вариационных рядах для определения моды не требуется специальных вычислений: значение признака, которому соответствует наибольшая частота, и будет значением моды.
Пример 8.1. По представленным ниже результатам проведения контрольной работы по статистике определим моду.
8.1.2. Определение моды в интервальных вариационных рядах с равными интервалами
Для определения моды в интервальных вариационных рядах с равными интервалами сначала находят модальный интервал, которым является интервал с наибольшей частотой, а затем ведут расчет по формуле
Пример 8.2. Имеются данные по группе банков.
Таблица 8.1.
Сумма выданных кредитов, млн ден. ед.
Количество банков
До 40
8
40-60
15
60-80
21
80-100
12
100-120
9
120-140
7
140 и выше
4
Итого
77
Определим модальный размер выданных кредитов:
Подставив в формулу соответствующие величины, получим
Пример 8.3. По результатам проведения контрольной работы по статистике, приведенным в примере 8.1, определим моду графическим способом.
Для этого построим полигон распределения и найдем абсциссу его вершины (рис. 8.1).
Пример 8.4. По данным о распределении банков по сумме выданных кредитов, приведенным в примере 8.2, определим моду графическим способом (рис. 8.2).
Тема 5.2. Показатели вариации и структурные характеристики вариационного ряда распределения
1. Структурные средние величины
2. Показатели вариации
1.Для характеристики структуры вариационных рядов применяются показатели особого рода, которые можно назвать структурными средними.
Мода– значение признака, наиболее часто встречающееся в исследуемой совокупности.
Медиана– значение признака, приходящееся на середину ранжированной (упорядоченной) совокупности.
Для дискретных вариационных рядов модойбудет значение варианта с наибольшей частотой. Вычисление медианыв дискретных рядах распределения имеет специфику. Если такой ряд распределения имеет нечетное число членов, то медианой будет вариант, находящийся в середине ранжированного ряда. Если ранжированный ряд распределения состоит из четного числа членов, то медианой будет средняя арифметическая из двух значений признака, расположенных в середине ряда.
Рассмотрим определение моды и медианы по несгруппированным данным.
Пример 6: Предположим, рабочие бригады, состоящей из 9 человек имеют следующие тарифные разряды: 4 3 4 5 3 3 6 2 6.
Так как в данной бригаде больше всего рабочих 3-го разряда этот тарифный разряд и будет модальным.
Для определения медианы необходимо провести ранжирование:
Центральным в этом ряду является рабочий 4-го разряда, следовательно, данный разряд и будет медианным.
Если мода отражает типичный, наиболее распространенный вариант значения признака, то медиана практически выполняет функции средней для неоднородной, не подчиняющейся нормальному закону распределения совокупности. Проиллюстрируем ее познавательное значение следующим примером.
Пример 7:Допустим, нам необходимо дать характеристику среднего дохода группы людей, насчитывающей 100 человек, из которых 99 имеют доходы в интервале от 100 до 200 долл. в месяц, а месячные доходы последнего составляют 50 000 долл.
№ п/п
1
2
3
4
…
50
51
…
99
100
Доход, долл.
100
104
104
107
…
162
164
…
200
50000
Пример 8. Рассмотрим определение моды и медианы по сгруппированным данным (рядам распределения).
Предположим, распределение рабочих уже не отдельной бригады, а всего предприятия в целом по тарифному разряду имеет следующий вид:
Тарифный разряд
Численность рабочих, человек
Накопленнаячастота
2
12
12
3
48
60
4
56
116
5
60
176
6
14
190
Всего:
190
Для определения медианного значения признака по следующей формуле находят номер медианной единицы ряда (NMe):
, где – объем совокупности.
В нашем случае: .
Полученное дробное значение, всегда имеющее место при четном числе единиц в совокупности, указывает, что точная середина находится между 95-м и 96-м рабочими. Необходимо определить, к какой группе относятся рабочие с этими порядковыми номерами. Это можно сделать, рассчитав накопленные частоты. Медианным является 4-й тарифный разряд.
В отличие от дискретных вариационных рядов определение моды и медианы по интервальным рядам требует проведения определенных расчетов на основе следующих формул:
,
где – нижняя граница значения интервала, содержащего моду;
– величина модального интервала; — частота модального интервала; – частота интервала, предшествующего модальному; – частота интервала, следующего за модальным.
Медиана интервального ряда распределения определяется по формуле:
,
где – нижняя граница значения интервала, содержащего медиану;
Пример 9.Рассчитаем моду и медиану по данным таблицы:
Распределение семей города по размеру среднедушевого дохода в январе 1998г.
Группы семей по размеру дохода, руб.
Число семей
Накопленные частоты
Накопленные частоты, % к итогу
До 500
600
600
6
500-600
700
1 300
13
600-700
1 700
3 000
30
700-800
2 500
5 500
55
800-900
2 200
7 700
77
900-1000
1 500
9 200
92
Свыше 1000
800
10 000
100
Итого:
10 000
–
Следовательно, наибольшее число семей имеют среднедушевой доход 772 руб.
Таким образом, половина семей города имеет среднедушевой доход менее 780 руб., остальные семьи – более 780 руб.
2.Различие индивидуальных значений признака внутри изучаемой совокупности в статистике называется вариацией признака. Она возникает в результате того, что его индивидуальные значения складываются под совокупным влиянием разнообразных факторов (условий), которые по-разному сочетаются в каждом отдельном случае.
Средняя величина, как уже отмечалось, – это абстрактная, обобщающая характеристика признака изучаемой совокупности, но она не показывает строения совокупности, которое весьма существенно для ее познания. Средняя величина не дает представления о том, как отдельные значения изучаемого признака группируются вокруг средней, сосредоточены ли они вблизи или значительно отклоняются от нее. В некоторых случаях отдельные значения признака близко примыкают к средней арифметической и мало от нее отличаются. В таких случаях средняя хорошо представляет всю совокупность. В других, наоборот, отдельные значения совокупности далеко отстают от средней, и средняя плохо представляет всю совокупность.
Колеблемость отдельных значений характеризуют показатели вариации.
Термин «вариация» произошел от латинского variatio – изменение, колеблемость, различие. Однако не всякие различия принято называть вариацией. Под вариацией в статистике понимают такие количественные изменения величины исследуемого признака в пределах однородной совокупности, которые обусловлены перекрещивающимся влиянием действия различных факторов. Различают вариацию признака: случайную и систематическую.
Анализ систематической вариации позволяет оценить степень зависимости изменений в изучаемом признаке от определяющих ее факторов. Например, изучая силу и характер вариации в выделенной совокупности, можно оценить, насколько однородной является данная совокупность в количественном, а иногда и качественном отношении, а, следовательно, насколько характерной является исчисленная средняя величина. Степень близости данных отдельных единиц к средней измеряется рядом абсолютных, средних и относительных показателей.
Абсолютные и средние показатели вариации и способы их расчета
Для характеристики колеблемости признака используется ряд показателей. Наиболее простой из них – размах вариации, определяемый как разность между наибольшим (max) и наименьшим (min) значениями вариант .
Размах вариации улавливает только крайние отклонения и не отражает отклонений всех вариант в ряду. Однако легкость вычислений и простота истолкования обусловили широкое применение этого показателя.
Чтобы дать обобщающую характеристику распределению отклонений, исчисляют среднее линейное отклонение d, которое учитывает различия всех единиц изучаемой совокупности. Среднее линейное отклонение определяется как средняя арифметическая из отклонений индивидуальных значений от средней, без учета знака этих отклонений:
– простое среднее линейное отклонение,
– взвешенное среднее линейное отклонение.
Среднее линейное отклонение как меру вариации признака применяют в статистической практике редко. Во многих случаях этот показатель не устанавливает степень рассеивания.
На практике меру вариации более объективно отражаетпоказатель дисперсии ( – средний квадрат отклонений), определяемый как средняя из отклонений, возведенных в квадрат:
– простая дисперсия,
– взвешенная дисперсия.
Корень квадратный из дисперсии среднего квадрата отклонений представляет собой среднее квадратическое отклонение:
– простое среднее квадратическое отклонение,
– взвешенное среднее квадратическое отклонение.
Среднее квадратическое отклонение является мерилом надежности средней. Чем меньше среднее квадратическое отклонение, тем лучше средняя арифметическая отражает собой всю представляемую совокупность.