Основные характеристики вариационного ряда

Построение вариационного ряда является только первым шагом в изучении статистических данных. Для более глубокого исследования материала необходимы обобщающие количественные показатели, вскрывающие общие свойства статистической совокупности. Эти показатели, во-первых, дают общую картину, показывают тенденцию развития процесса или явления, нивелируя случайные индивидуальные отклонения, во-вторых, позволяют сравнивать вариационные ряды и, наконец, используются во всех разделах математической статистики при более полном и сложном математическом анализе статистической совокупности.

Существуют две группы характеристик вариационного ряда: 1) меры уровня, или средние, 2) меры рассеяния.

Меры уровня, или средние. Наиболее употребительными в статистических исследованиях являются три вида средних: средняя арифметическая, мода и медиана.

Выбор типа средней для характеристики вариационного ряда зависит от цели, для которой исчисляется средняя, от особенностей исходного материала и от возможностей той или иной средней.

Прежде чем перейти к характеристике отдельных видов средней, сформулируем некоторые, самые общие требования к средней.

Средняя, представляет собой количественную характеристику качественно однородной совокупности. Нарушение этого требования приводит к неверным выводам, искажает суть явления.

Приведем пример, рассмотренный В. И. Лениным. Исследуя арендные отношения в крестьянских хозяйствах Таврической губернии, В. И. Ленин установил, что среди бедняцких элементов деревни в среднем на одно хозяйство арендовалось 2,4 дес. земли, а среди кулацких элементов - 48,6 дес. Формальный подход дает математически верную среднюю для всех крестьянских хозяйств- 12,4 дес. Но подобная средняя является совершенно фиктивной. "Не смешно ли брать "средний" размер аренды, складывая вместо крестьян, из которых один берет 2 десятины, за безумную - цену (15 руб.), очевидно, из крайней нужды, на разорительных условиях. А другой берет 48 десятин, сверх достаточного количества своей земли, "покупая" землю оптом несравненно дешевле, по 3,55 руб. за десятину?" (Ленин В. И. Поли. собр. соч., т. 3, с. 73).

Кроме того, необходимо, чтобы средняя не была слишком абстрактной, а имела ясный смысл в решении задачи.

Далее, желательно, чтобы процедура вычисления средней была проста. При прочих равных условиях предпочтение отдается той средней, которая проще вычисляется.

И, наконец, при выборе средней желательно свести к минимуму влияние случайных колебаний выборки. Так, если одной и той же совокупности взять несколько групп элементов, то средние, им соответствующие, будут, как правило, различаться по величине. Рекомендуется использовать вид средней, у которой эти различия минимальны (подробнее о выборке и выборочной средней см. гл. 5 данного раздела).

Наиболее распространенной мерой уровня - является средная арифметическая:

где - знак суммирования от 1 до k; xi-варианты с порядковым номером i; - объем совокупности (число элементов совокупности); ni- частота варианта xi, k - число варианта. Если вместо частоты заданы частости qi, то формула имеет вид

Пример 5. Вычислим среднюю арифметическую для данных табл.

Средняя арифметическая интервального вариационного ряда вычисляется следующим образом: за значение признака принимается середина интервала (центральное значение), которая рассчитывается как арифметическая средняя границ интервала. Часто вычисление средней арифметической для интервального вариационного ряда осложняется тем, что неизвестны или нижняя граница первого интервала, или верхняя граница последнего интервала, или та и другая одновременно. В таких случаях иногда (Впрочем, в таких случаях часто отказываются oт исчисления средней арифметической, заменяя ее модой или медианой) условно предполагают, что интервальная разность неопределенного интервала такая же, что и у рядом стоящего, и на основе этого предположения устанавливают границы крайних интервалов.

Пример 6. Вычислим средние размеры наделов крестьян по данным табл. 5.

Для решения задачи, прежде всего, необходимо найти середины интервалов. Определенная трудность возникает в связи с тем, что первый и последний интервалы являются открытыми. Нижнюю границу первого интервала естественно принять равной нулю. Тогда середина этого интервала равна (0+2)/2=l. Для нахождения центрального значения последнего интервала применим предложенный выше прием. Величина интервала, предшествующего последнему, равна 2. Условно принимаем за величину последнего интервала 2. Тогда верхняя граница того интервала-9 и, следовательно, его середина вычисляется так: (7+9)/2=8.

Пользуясь формулой средней арифметической (4.4а) и принимая за значение признака середину интервала (строка 2 табл. 5), рассчитываем средний дореформенный надел у барщинных крестьян:

Аналогично вычисляется средний дореформенный надел у оброчных крестьян: .

Кроме средней арифметической широкое распространение имеет другой вид мер уровня - медиана.

Медианой (обозначим Mе) называется такое значение варьирующего признака, которое приходится на середину вариационного ряда.

При нахождении медианы дискретного вариационного ряда могут возникнуть два случая: 1) число вариант нечетно (k=2m+1), 2) число вариант четно (k=2m). В первом случае Me=xm+1, т. е. медиана равна центральной (срединной) варианте ряда, во втором случае Me,=(xm+xm+1)/2, т.е. медиана принимается равной полу сумме находящихся в середине ряда вариант.

Пример 7. Пусть дан ряд с нечетным числом вариант:

x1

x2

x3

x4

x4

x4

x4

x4

x4

8

9

11

12

15

16

18

19

19

Тогда число вариант, равное 9, представимо в виде 2m+1=9, откуда 2m=8, m=4, т.е.Me=x4+1=x5=15.

Рассмотрим случай четного числа членов:

Для интервального вариационного ряда медиана вычисляется по формуле

где xMe(min)-нижняя граница медианного интервала; h - величина этого интервала, или интервальная разность; qi- частоты или частости; - накопленная сверху частота (или частость) интервала, предшествующего медианному; частота или частость медианного интервала.

Содержание введенных обозначений и процедуру вычислений рассмотрим на конкретном примере.

Пример 8. Вычислим медиану по данным табл. 6.

Вычисление медианы начинается с нахождения интервала, содержащего медиану. Медианному интервалу соответствует первая из накопленных частот или частостей, превышающая половину всего объема совокупности. В нашем случае объем совокупности равен 100%, первая из накопленных частостей, превышающая половину всего объема совокупности, - 60,1 (см. табл. 6). Следовательно, интервал 8-12 будет медианным. Далее, xme(min)=8, h=4, =41, qMe=19.1. Воспользуемся формулой (4.5):

Таким образом, серединный размер посева равен примерно 9,9 дес.

Медиану можно использовать в тех случаях, когда изучаемая совокупность неоднородна, и в такой ситуации она будет иметь вполне конкретный смысл. Так, в рассмотренном примере значение медианы имеет следующий смысл: у одной половины хозяйств размер посева меньше, у другой половины - больше, чем 9,9 дес.

Особо важное значение медиана приобретает при анализе асимметричных рядов, т. е. рядов, у которых нагружены (имеют большие частоты) крайние или близкие к крайним значения вариант. Например, медиана даст более верное представление о среднем уровне личных доходов группы семей в капиталистических странах, чем средняя арифметическая, так как медиана не столь чувствительна к край ним (нетипичным в плане постановки задачи) значениям (семьи с большим доходом), как средняя арифметическая.

Медиану следует применять, если вычисление средней арифметической неправомерно вследствие неопределенности интервалов (первого или последнего, или того и другого вместе).

К достоинствам медианы следует отнести также то, что она менее подвержена случайностям выборки, чем средняя арифметическая.

Медиану не следует использовать, когда число наблюдений невелико.

Наряду со средней арифметической и медианой важное значение как мера уровня имеет мода.

Модой (обозначим Мо) называется варианта, наиболее часто встречающаяся в данном вариационном ряду.

Для дискретного ряда мода равна варианте с наибольшей частотой или частостью.

Для интервального вариационного ряда модальный интервал, т. е. интервал, содержащий моду, определяется по наибольшей' частоте (частости) в случае равных интервалов и по наибольшей плотности в случае неравных интервалов. Значение варианты, равное моде, отыскивается приближенными методами.

Довольно грубое приближение можно получить, взяв за моду центральное значение модального интервала, т. е. среднее арифметическое границ интервала.

Пример 9. Вычислим моду по данным табл. 6. В последнем столбце табл. 6 вычислены плотности распределения.

Наибольшая плотность соответствует интервалу 4-8. Это и есть модальный интервал.

Рассчитываем моду:

Mo=(4+8)/2=6 (дес.).

Таким образом, получаем, что наиболее типичным по размеру посева хозяйством русских переселенцев, Чимкентского уезда в 1908 г. было хозяйство, засевавшее 6 дес. земли.

Моду можно вычислить также как взвешенную среднюю арифметическую из нижней и верхней границ модального интервала (весами в расчете будут служить частоты или частости интервалов предмодального и послемодального). При этом если ряд построен правильно (см. принципы построения вариационного ряда) и интервалы, соседние с модальными, мало отличаются друг от друга, т. е. распределение близко к симметричному, то этот способ дает хорошие результаты.

Воспользовавшись вторым методом исчисления моды, рассчитаем наиболее типичный размер посева по данным табл. 6:

(дес.)

Мода имеет те же достоинства, что и медиана. Мода и медиана эффективно используются в качестве мер уровня, но сравнительно со средней арифметической реже употребляются как исходный материал для более сложных методов математической статистики.

Меры рассеяния. Рассмотренные выше средние показывают уровень вариационного ряда, другими словами, позволяют ряд чисел охарактеризовать одним числом. Однако средние не содержат в себе информации о том, насколько хорошо они представляют всю совокупность. Одинаковые или близкие по величине средние могут относиться к весьма различным рядам. Для пояснения этого положения рассмотрим условный пример.

Пример 10. В табл. 7 приведены данные о возрасте (для простоты число их невелико).

Рассчитав, получаем, что средний возраст в 1-й и 2-fi группах одинаков и равен 36. Но простейшее сравнение этих двух рядов показывает, что одинаковые средние представляют две совершенно различные по возрастному составу группы, а именно: в 1-ю группу входят люди в зрелом возрасте, тогда как во 2-ю-старики и дети. Иначе говоря, варианты первого ряда довольно тесно группируются вокруг своей средней, т. е. средняя представительна, тогда как во втором ряду обнаруживается сильный разброс (рассеяние) вариант. Чтобы отметить подобные различия, в статистике прибегают к расчету показателей, характеризующих рассеяние признака (мер рассеяния).

Рассмотрим основные меры рассеяния: размах вариации, дисперсию и среднее квадратичное отклонение.

Размах вариации показывает разность между наибольшим и наименьшим значениями признака (R=xmax-xmin). Достоинством этого показателя является простота расчета. Однако возможности его применения ограничены, так как эта характеристика является наиболее грубой из всех мер рассеяния.

Во-первых, при расчете этого показателя рассеяния признака используются только крайние значения признака, остальные же во внимание не принимаются. Во-вторых, размах вариации существенно зависит от случайных колебаний выборка.

Более ценными для характеристики рассеяния признака являются показатели, при расчете которых используются отклонения всех вариант от некоторой средней (например, средней арифметической, медианы). К таким мерам рассеяния, в частности, относятся дисперсия и среднее квадратичное отклонение. Последние меры рассеяния меньше любой другой меры подвержены случайным колебаниям выборки. Среднее квадратичное отклонение и дисперсия нашли широкое применение почти во всех разделах математической статистики.

Дисперсия, или средний квадрат отклонения (обозначим σ2) есть средняя арифметическая из квадратов отклонений вариант от их средней арифметической, т. е. в математической записи

где xi-варианта с порядковым номером i; - средняя арифметическая; k- число вариант; qi-частота или частость с порядковым номером I.

Часто для исследования удобно представлять меру рассеяния в тех же единицах измерения, что и варианты. Тогда вместо дисперсии используют среднее квадратичное отклонение, которое является квадратным корнем из дисперсии, т. е. среднее квадратичное отклонение вычисляется по формуле

Пример 11. Рассмотрим распределение дореформенного надела у крестьян Симбирской губернии отдельно для группы барщинных и группы оброчных крестьян (пример 6). Средние величины дореформенных наделов для обеих групп крестьян оказались практически равными (4,018 дес. у барщинных и 3,976 у оброчных). Выясним, насколько одинаковой была вариация показателей в этих группах. С этой целью вычислим средние квадратичные отклонения по совокупности барщинных и по совокупности оброчных крестьян.

Для вычисления средних квадратичных отклонений удобно составить вспомогательную таблицу (табл. 8). В ней зафиксированы все промежуточные расчеты. Подставляя результаты этих расчетов в формулу (4,7), получим среднее квадратичное отклонение для барщинных крестьян:

и среднее квадратичное отклонение для оброчных крестьян:

т е. колебание признака у оброчных крестьян примерно в полтора раза больше, чем у барщинных.

Таким образом, средняя величина дореформенного надела у барщинных и оброчных крестьян Симбирской губернии почти одинакова, т. е. в среднем эти группы крестьян по обеспеченности землей практически не отличаются. Но в среде оброчных крестьян различия в размере наделов больше, чем среди барщинных крестьян.

Рассмотренные выше меры рассеяния (размах вариации, дисперсия, среднее квадратичное отклонение) являются абсолютными величинами, судить по ним о степени колеблимости признака не всегда можно, в некоторых задачах необходимо использовать относительные показатели рассеяния. Таким показателем является коэффициент вариации.

Коэффициент вариации (обозначим V) представляет собой отношение среднего квадратичного отклонения к средней арифметической, выраженное в процентах, т. е.

Коэффициент вариации позволяет: 1) сравнивать вариацию одного и того же признака у разных групп объектов, 2) выявить степень различия одного и того же признака у одной и той же группы объектов в разное время, 3) сопоставить вариацию разных признаков у одних и тех же групп объектов.

Пример 12. Проведем сравнительный анализ затрат труда и различия в затратах труда в совхозах и колхозах по данным табл. 9 Она содержит исходные данные и промежуточные вычисления

Написать табл. Стр. 96

Используя формулы средней арифметической, среднего квадратичного отклонения и коэффициента вариации, получим: для совхозов-х = 0,6; σ=0,4786; V=79,8%; для колхозов- =1,6; σ=1,489; V =79,8%.

Следовательно, в среднем по РСФСР затраты труда в совхозах примерно в 2,7 раза ниже, чем в колхозах (0,6/1,6), а различия между районами РСФСР в затратах труда в зерновом производстве в колхозах выше, чем в совхозах, т. е. совхозы составляют более однородную совокупность по затратам труда, чем колхозы.

<<< Обратно ] [ Дальше >>>
[к выборочному методу]