Сводка и группировка статистических данных. Интервальный вариационный ряд

Условие:

Имеются данные о возрастном составе рабочих (лет): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28, 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Построить интервальный ряд распределения.
    2. Построить графическое изображение ряда.
    3. Графически определить моду и медиану.

Решение:

1) По формуле Стерджесса совокупность надо разделить на 1 + 3,322 lg 30 = 6 групп.

Максимальный возраст - 38, минимальный - 18.

Ширина интервала Так как концы интервалов должны быть целыми числами, разделим совокупность на 5 групп. Ширина интервала - 4.

Для облегчения подсчетов расположим данные в порядке возрастания: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Распределение возрастного состава рабочих

Графически ряд можно изобразить в виде гистограммы или полигона. Гистограмма - столбиковая диаграмма. Основание столбика - ширина интервала. Высота столбика равна частоте.

Полигон (или многоугольник распределения) - график частот. Чтобы его построить по гистограмме, соединяем середины верхних сторон прямоугольников. Многоугольник замыкаем на оси Ох на расстояниях, равных половине интервала от крайних значений х.

Мода (Мо) - это величина изучаемого признака, которая в данной совокупности встречается наиболее часто.

Чтобы определить моду по гистограмме, надо выбрать самый высокий прямоугольник, провести линию от правой вершины этого прямоугольника к правому верхнему углу предыдущего прямоугольника, и от левой вершины модального прямоугольника провести линию к левой вершине последующего прямоугольника. От точки пересечения этих линий провести перпендикуляр к оси х. Абсцисса и будет модой. Мо ≈ 27,5. Значит, наиболее часто встречаемый возраст в данной совокупности 27-28 лет.

Медиана (Mе) - это величина изучаемого признака, которая находится в середине упорядоченного вариационного ряда.

Медиану находим по кумуляте. Кумулята - график накопленных частот. Абсциссы - варианты ряда. Ординаты - накопленные частоты.

Для определения медианы по кумуляте находим по оси ординат точку, соответствующую 50% накопленных частот (в нашем случае 15), проводим через неё прямую, параллельно оси Ох, и от точки её пересечения с кумулятой проводим перпендикуляр к оси х. Абсцисса является медианой. Ме ≈ 25,9. Это означает, что половина рабочих в данной совокупности имеет возраст менее 26 лет.

Дискретный вариационный ряд строится для дискретный признаков.

Для того, чтобы построить дискретный вариационный ряд нужно выполнить следующие действия: 1) упорядочить единицы наблюдения по возрастанию изучаемого значения признака,

2) определить все возможные значения признака x i , упорядочить их по возрастанию,

значением признака, i .

частота значения признака и обозначают f i . Сумма всех частот ряда равна количеству элементов в изучаемой совокупности.

Пример 1 .

Список оценок полученных студентами на экзаменах: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Здесь число Х – оценка является дискретной случайной величиной, а полученный список оценок - статистические (наблюдаемые) данные .

    упорядочить единицы наблюдения по возрастанию изучаемого значения признака:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) определить все возможные значения признака x i , упорядочить их по возрастанию:

В данном примере все оценки можно разделить на четыре группы со следующими значениями: 2; 3; 4; 5.

Значение случайной величины, соответствующее отдельной группе наблюдаемых данных, называют значением признака, вариантом (вариантой) и обознпчают x i .

Число, которое показывает, сколько раз встречается соответствующее значение признака в ряде наблюдений называют частота значения признака и обозначают f i .

Для нашего примера

оценка 2 встречается - 8 раз,

оценка 3 встречается - 12 раз,

оценка 4 встречается - 23 раза,

оценка 5 встречается - 17 раз.

Всего 60 оценок.

4) записать полученные данные в таблицу из двух строк (столбцов) - x i и f i .

На основании этих данных можно построить дискретный вариационный ряд

Дискретный вариационный ряд – это таблица, в которой указаны встречающиеся значения изучаемого признака как отдельные значения по возрастанию и их частоты

  1. Построение интервального вариационного ряда

Кроме дискретного вариационного ряда часто встречается такой способ группировки данных, как интервальный вариационный ряд.

Интервальный ряд строится если:

    признак имеет непрерывный характер изменения;

    дискретных значений получилось очень много (больше 10)

    частоты дискретных значений очень малы (не превышают 1-3 при относительно большем количестве единиц наблюдения);

    много дискретных значений признака с одинаковыми частотами.

Интервальный вариационный ряд – это способ группировки данных в виде таблицы, которая имеет две графы (значения признака в виде интервала значений и частота каждого интервала).

В отличие от дискретного ряда значения признака интервального ряда представлены не отдельными значениями, а интервалом значений («от - до»).

Число, которое показывает, сколько единиц наблюдения попало в каждый выделенный интервал, называется частота значения признака и обозначают f i . Сумма всех частот ряда равна количеству элементов (единиц наблюдения) в изучаемой совокупности.

Если единица обладает значением признака, равным величине верхней границы интервала, то ее следует относить к следующему интервалу.

Например, ребёнок с ростом 100 см попадёт во 2-ой интервал, а не в первый; а ребёнок с ростом 130 см попадёт в последний интервал, а не в третий.

На основании этих данных можно построить интервальный вариационный ряд.

У каждого интервала есть нижняя граница (х н), верхняя граница (х в) и ширина интервала (i ).

Граница интервала – это значение признака, которое лежит на границе двух интервалов.

рост детей (см)

рост детей (см)

количество детей

больше 130

Если у интервала есть верхняя и нижняя граница, то он называется закрытый интервал . Если у интервала есть только нижняя или только верхняя граница, то это – открытый интервал. Открытым может быть только самый первый или самый последний интервал. В приведённом примере последний интервал – открытый.

Ширина интервала (i ) – разница между верхней и нижней границей.

i = х н - х в

Ширина открытого интервала принимается такой же, как ширина соседнего закрытого интервала.

рост детей (см)

количество детей

Ширина интервала (i)

для расчётов 130+20=150

20 (потому что ширина соседнего закрытого интервала – 20)

Все интервальные ряды делятся на интервальные ряды с равными интервалами и интервальные ряды с неравными интервалами. В интервальных рядах с равными интервалами ширина всех интервалов одинаковая. В интервальных рядах с неравными интервалами ширина интервалов разная.

В рассматриваемом примере - интервальный ряд с неравными интервалами.

Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку.

Назначение сервиса . С помощью онлайн-калькулятора Вы сможете:

  • построить вариационный ряд , построить гистограмму и полигон;
  • найти показатели вариации (среднюю, моду (в т.ч. и графическим способом), медиану, размах вариации, квартили, децили, квартильный коэффициент дифференциации, коэффициент вариации и другие показатели);

Инструкция . Для группировки ряда необходимо выбрать вид получаемого вариационного ряда (дискретный или интервальный) и указать количество данных (количество строк). Полученное решение сохраняется в файле Word (см. пример группировки статистических данных).

Количество исходных данных
",0);">

Если группировка уже осуществлена и заданы дискретный вариационный ряд или интервальный ряд , то необходимо воспользоваться онлайн-калькулятором Показатели вариации . Проверка гипотезы о виде распределения производится с помощью сервиса Изучение формы распределения .

Виды статистических группировок

Вариационный ряд . В случае наблюдений дискретной случайной величины одно и то же значение можно встретить несколько раз. Такие значения x i случайной величины записывают с указанием n i числа раз его появления в n наблюдениях, это и есть частота данного значения.
В случае непрерывной случайной величины на практике применяют группировку.
  1. Типологическая группировка – это разделение исследуемой качественно разнородной совокупности на классы, социально–экономические типы, однородные группы единиц. Для построения данной группировки используйте параметр Дискретный вариационный ряд.
  2. Структурной называется группировка , в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому–либо варьирующему признаку. Для построения данной группировки используйте параметр Интервальный ряд.
  3. Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой (см. аналитическая группировка ряда).

Принципы построения статистических группировок

Ряд наблюдений, упорядоченных по возрастанию, называется вариационным рядом . Группировочным признаком называется признак, по которому производится разбивка совокупности на отдельные группы. Его называют основанием группировки. В основание группировки могут быть положены как количественные, так и качественные признаки.
После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.

При использовании персональных компьютеров для обработки статистических данных группировка единиц объекта производится с помощью стандартных процедур.
Одна из таких процедур основана на использовании формулы Стерджесса для определения оптимального числа групп:

k = 1+3,322*lg(N)

Где k – число групп, N – число единиц совокупности.

Длину частичных интервалов вычисляют как h=(x max -x min)/k

Затем подсчитывают числа попаданий наблюдений в эти интервалы, которые принимают за частоты n i . Малочисленные частоты, значения которых меньше 5 (n i < 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
В качестве новых значений вариант берут середины интервалов x i =(c i-1 +c i)/2.

Важнейшим этапом исследования социально-экономических явлений и процессов является систематизация первичных данных и получение на этой основе сводной характеристики всего объекта при помощи обобщающих показателей, что достигается путем сводки и группировки первичного статистического материала.

Статистическая сводка - это комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность, для выявления типичных черт и закономерностей, присущих изучаемому явлению в целом. Проведение статистической сводки включает следующие этапы :

  • выбор группировочного признака;
  • определение порядка формирования групп;
  • разработка системы статистических показателей для характеристики групп и объекта в целом;
  • разработка макетов статистических таблиц для представления результатов сводки.

Статистической группировкой называется расчленение единиц изучаемой совокупности на однородные группы по определенным существенным для них признакам. Группировки являются важнейшим статистическим методом обобщения статистических данных, основой для правильного исчисления статистических показателей.

Различают следующие виды группировок: типологические, структурные, аналитические. Все эти группировки объединяет то, что единицы объекта разделены на группы по какому-либо признаку.

Группировочным признаком называется признак, по которому проводится разбиение единиц совокупности на отдельные группы. От правильного выбора группировочного признака зависят выводы статистического исследования. В качестве основания группировки необходимо использовать существенные, теоретически обоснованные признаки (количественные или качественные).

Количественные признаки группировки имеют числовое выражение (объем торгов, возраст человека, доход семьи и т. д.), а качественные признаки группировки отражают состояние единицы совокупности (пол, семейное положение, отраслевая принадлежность предприятия, его форма собственности и т. д.).

После того, как определено основание группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность. Число групп зависит от задач исследования и вида показателя, положенного в основание группировки, объема совокупности, степени вариации признака.

Например, группировка предприятий по формам собственности учитывает муниципальную, федеральную и собственность субъектов федерации. Если группировка производится по количественному признаку, то тогда необходимо обратить особое внимание на число единиц исследуемого объекта и степень колеблемости группировочного признака.

Когда определено число групп, то следует определить интервалы группировки. Интервал - это значения варьирующего признака, лежащие в определенных границах. Каждый интервал имеет свою величину, верхнюю и нижнюю границы или хотя бы одну из них.

Нижней границей интервала называется наименьшее значение признака в интервале, а верхней границей - наибольшее значение признака в интервале. Величина интервала представляет собой разность между верхней и нижней границами.

Интервалы группировки в зависимости от их величины бывают: равные и неравные. Если вариация признака проявляется в сравнительно узких границах и распределение носит равномерный характер, то строят группировку с равными интервалами. Величина равного интервала определяется по следующей формуле :

где Хmax, Хmin - максимальное и минимальное значения признака в совокупности; n - число групп.

Простейшая группировка, в которой каждая выделенная группа характеризуется одним показателем представляет собой ряд распределения.

Статистический ряд распределения - это упорядоченное распределение единиц совокупности на группы по определенному признаку. В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные и вариационные ряды распределения.

Атрибутивными называют ряды распределения, построенные по качественным признакам, то есть признакам, не имеющим числового выражения (распределение по видам труда, по полу, по профессии и т.д.). Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам. Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.

Вариационными рядами называют ряды распределения, построенные по количественному признаку. Любой вариационный ряд состоит из двух элементов: вариантов и частот. Вариантами называются отдельные значения признака, которые он принимает в вариационном ряду, то есть конкретное значение варьирующего признака.

Частотами называются численности отдельных вариант или каждой группы вариационного ряда, то есть это числа, которые показывают, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот определяет численность всей совокупности, ее объем. Частостями называются частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частостей равна 1 или 100%.

В зависимости от характера вариации признака различают три формы вариационного ряда: ранжированный ряд, дискретный ряд и интервальный ряд.

Ранжированный вариационный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака. Ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются.

Дискретный вариационный ряд характеризует распределение единиц совокупности по дискретному признаку, принимающему только целые значения. Например, тарифный разряд, количество детей в семье, число работников на предприятии и др.

Если признак имеет непрерывное изменение, которые в определенных границах могут принимать любые значения («от - до»), то для этого признака нужно строить интервальный вариационный ряд . Например, размер дохода, стаж работы, стоимость основных фондов предприятия и др.

Примеры решения задач по теме «Статистическая сводка и группировка»

Задача 1 . Имеется информация о количестве книг, полученных студентами по абонементу за прошедший учебный год.

Построить ранжированный и дискретный вариационные ряды распределения, обозначив элементы ряда.

Решение

Данная совокупность представляет собой множество вариантов количества получаемых студентами книг. Подсчитаем число таких вариантов и упорядочим в виде вариационного ранжированного и вариационного дискретного рядов распределения.

Задача 2 . Имеются данные о стоимости основных фондов у 50 предприятий, тыс. руб.

Построить ряд распределения, выделив 5 групп предприятий (с равными интервалами).

Решение

Для решения выберем наибольшее и наименьшее значения стоимости основных фондов предприятий. Это 30,0 и 10,2 тыс. руб.

Найдем размер интервала: h = (30,0-10,2):5= 3,96 тыс. руб.

Тогда в первую группу будут входить предприятия, размер основных фондов которых составляет от 10,2 тыс. руб. до 10,2+3,96=14,16 тыс. руб. Таких предприятий будет 9. Во вторую группу войдут предприятия, размер основных фондов которых составит от 14,16 тыс. руб. до 14,16+3,96=18,12 тыс. руб. Таких предприятий будет 16. Аналогично найдем число предприятий, входящих в третью, четвертую и пятую группы.

Полученный ряд распределения поместим в таблицу.

Задача 3 . По ряду предприятий легкой промышленности получены следующие данные:

Произведите группировку предприятий по числу рабочих, образуя 6 групп с равными интервалами. Подсчитайте по каждой группе:

1. число предприятий
2. число рабочих
3. объем произведенной продукции за год
4. среднюю фактическую выработку одного рабочего
5. объем основных средств
6. средний размер основных средств одного предприятия
7. среднюю величину произведенной продукции одним предприятием

Результаты расчета оформите в таблицы. Сделайте выводы.

Решение

Для решения выберем наибольшее и наименьшее значения среднесписочного числа рабочих на предприятии. Это 43 и 256.

Найдем размер интервала: h = (256-43):6 = 35,5

Тогда в первую группу будут входить предприятия, среднесписочное число рабочих на которых составляет от 43 до 43+35,5=78,5 человек. Таких предприятий будет 5. Во вторую группу войдут предприятия, среднесписочное число рабочих на которых составит от 78,5 до 78,5+35,5=114 человек. Таких предприятий будет 12. Аналогично найдем число предприятий, входящих в третью, четвертую, пятую и шестую группы.

Полученный ряд распределения поместим в таблицу и вычислим необходимые показатели по каждой группе:

Вывод : Как видно из таблицы, вторая группа предприятий является самой многочисленной. В нее входят 12 предприятий. Самыми малочисленными являются пятая и шестая группы (по два предприятия). Это самые крупные предприятия (по числу рабочих).

Поскольку вторая группа самая многочисленная, объем произведенной продукции за год предприятиями этой группы и объем основных средств значительно выше других. Вместе с тем средняя фактическая выработка одного рабочего на предприятиях этой группы наибольшей не является. Здесь лидируют предприятия четвертой группы. На эту группу приходится и довольно большой объем основных средств.

В заключении отметим, что средний размер основных средств и средняя величина произведенной продукции одного предприятия прямо пропорциональны размерам предприятия (по числу рабочих).

Представляются в виде рядов распределения и оформляются в виде .

Ряд распределния является одним из видов группировок.

Ряд распределения — представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.

В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:

  • Атрибутивными — называют ряды распределения, построенные по качественными признакам.
  • Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными .
Вариационный ряд распределения состоит из двух столбцов:

В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами и обозначаются . Дискретная варианта — выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд.
Во втором столбце содержится количество конкретных вариант , выраженное через частоты или частости:

Частоты — это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.

Частости () — это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Графическое изображение рядов распределения

Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:
  • Полигона
  • Гистограммы
  • Кумуляты
  • Огивы

Полигон

При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) — частоты или частости.

Полигон на рис. 6.1 построен по данным микропереписи населения России в 1994 г.

6.1. Распределение домохозяйств по размеру

Условие : Приводятся данные о распределении 25 работников одного из предприятий по тарифным разрядам:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Задача : Построить дискретный вариационный ряд и изобразить его графически в виде полигона распределения.
Решение :
В данном примере вариантами является тарифный разряд работника. Для определения частот необходимо рассчитать число работников, имеющих соответствующий тарифный разряд.

Полигон используется для дискретных вариационных рядов.

Для построения полигона распределения (рис 1) по оси абсцисс (X) откладываем количественные значения варьирующего признака — варианты, а по оси ординат — частоты или частости.

Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.
Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.

Статистическая таблица

Условие : Приведены данные о размерах вкладов 20 физических лиц в одном банке (тыс.руб) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Задача : Построить интервальный вариационный ряд с равными интервалами.
Решение :

  1. Исходная совокупность состоит из 20 единиц (N = 20).
  2. По формуле Стерджесса определим необходимое количество используемых групп: n=1+3,322*lg20=5
  3. Вычислим величину равного интервала: i=(152 — 2) /5 = 30 тыс.руб
  4. Расчленим исходную совокупность на 5 групп с величиной интервала в 30 тыс.руб.
  5. Результаты группировки представим в таблице:

При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.

Гистограмма

Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

На рис. 6.2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.

Рис. 6.2. Распределение населения России по возрастным группам

Условие : Приводится распределение 30 работников фирмы по размеру месячной заработной платы

Задача : Изобразить интервальный вариационный ряд графически в виде гистограммы и кумуляты.
Решение :

  1. Неизвестная граница открытого (первого) интервала определяется по величине второго интервала: 7000 — 5000 = 2000 руб. С той же величиной находим нижнюю границу первого интервала: 5000 — 2000 = 3000 руб.
  2. Для построения гистограммы в прямоугольной системе координат по оси абсцисс откладываем отрезки, величины которых соответствуют интервалам варицонного ряда.
    Эти отрезки служат нижним основанием, а соответствующая частота (частость) — высотой образуемых прямоугольников.
  3. Построим гистограмму:

Для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.

Кумулята

Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости (рис. 6.3).

Рис. 6.3. Кумулята распределения домохозяйств по размеру

4. Рассчитаем накопленные частоты:
Наколенная частота первого интервала рассчитывается следующим образом: 0 + 4 = 4, для второго: 4 + 12 = 16; для третьего: 4 + 12 + 8 = 24 и т.д.

При построении кумуляты накопленная частота (частость) соответствующего интервала присваивается его верхней границе:

Огива

Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака — на оси ординат.

Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат — накопленные значения доли (в процентах) по объему признака.

Равномерному распределению признака соответствует на графике диагональ квадрата (рис. 6.4). При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.

6.4. Кривая концентрации