Формула моды и медианы в статистике. Вычисление медианы набора чисел

КОНТРОЛЬНАЯ РАБОТА

На тему: "Мода. Медиана. Способы их расчета"


Введение

Средние величины и связанные с ними показатели вариации играют в статистике очень большую роль, что обусловлено предметом ее изучения. Поэтому данная тема является одной из центральных в курсе.

Средняя является очень распространенным обобщающим показателям в статистике. Это объясняется тем, что только с помощью средней можно охарактеризовать совокупность по количественно варьирующему признаку. Средней величиной в статистике называется обобщающая характеристика совокупности однотипных явлений по какому-либо количественно варьирующему признаку. Средняя показывает уровень этого признака, отнесенный к единице совокупности.

Изучая общественные явления и стремясь выявить их характерные, типичные черты в конкретных условиях места и времени, статистики широко используют средние величины. С помощью средних можно сравнивать между собой различные совокупности по варьирующим признакам.

Средние, которые применяются в статистике, относятся к классу степенных средних. Из степенных средних наиболее часто применяется средняя арифметическая, реже – средняя гармоническая; средняя гармоническая применяется только при исчислении средних темпов динамики, а средняя квадратическая – только при исчислении показателей вариации.

Средняя арифметическая есть частное от деления суммы вариант на их число. Она применяется в тех случаях, когда объем варьирующего признака для всей совокупности образуется как сумма значений признака у отдельных ее единиц. Средняя арифметическая – наиболее распространенный вид средних, так как она соответствует природе общественных явлений, где объем варьирующих признаков в совокупности чаще всего образуется именно как сумма значений признака у отдельных единиц совокупности.

По своему определяющему свойству средняя гармоническая должна применяться тогда, когда общий объем признака образуется как сумма обратных значений вариант. Ее применяют тогда, когда в зависимости от имеющего материала веса приходиться не умножать, а делить на варианты или, что то же самое, умножать на обратное их значение. Средняя гармоническая в этих случаях – это величина обратная средней арифметической из обратных значений признака.

К средней гармонической следует прибегать в тех случаях, когда в качестве весов применяются не единицы совокупности – носители признака, а произведения этих единиц на значение признака.


1. Определение моды и медианы в статистике

Средние арифметическая и гармоническая являются обобщающими характеристиками совокупности по тому или иному варьирующему признаку. Вспомогательными описательными характеристиками распределения варьирующего признака являются мода и медиана.

Модой в статистике называется величина признака (варианта), которая чаще всего встречается в данной совокупности. В вариационном ряду это будет варианта, имеющая наибольшую частоту.

Медианной в статистике называется варианта, которая находится в середине вариационного ряда. Медиана делит ряд пополам, по обе стороны от нее (вверх и вниз) находится одинаковое количество единиц совокупности.

Мода и медиана в отличии от степенных средних являются конкретными характеристиками, их значение имеет какая-либо конкретная варианта в вариационном ряду.

Мода применяется в тех случаях, когда нужно охарактеризовать наиболее часто встречающуюся величину признака. Если надо, например, узнать наиболее распространенный размер заработной платы на предприятии, цену на рынке, по которой было продано наибольшее количество товаров, размер ботинок, пользующийся наибольшим спросом у потребителей, и т.д., в этих случаях прибегают к моде.

Медиана интересна тем, что показывает количественную границу значение варьирующего признака, которую достигла половина членов совокупности. Пусть средняя заработная плата работников банка составила 650000 руб. в месяц. Эта характеристика может быть дополнена, если мы скажем, что половина работников получила заработную плату 700000 руб. и выше, т.е. приведем медиану. Мода и медиана являются типичными характеристиками в тех случаях, когда взяты совокупности однородные и большой численности.


2. Нахождение моды и медианы в дискретном вариационном ряду

Найти моду и медиану в вариационном ряду, где значения признака заданы определенными числами, не представляет большой трудности. Рассмотрим таблицу 1. с распределение семей по числу детей.

Таблица 1. Распределение семей по числу детей

Очевидно, в этом примере модой будет семья, имеющая двоих детей, так как этому значению варианты соответствует наибольшее число семей. Могут быть распределения, где все варианты встречаются одинаково часто, в этом случае моды нет или, иначе, можно сказать, что все варианты одинаково модальны. В других случаях не одна, а две варианты могут быть наибольшей частоты. Тогда будет две моды, распределение будет бимодальным. Бимодальные распределения могут указывать на качественную неоднородность совокупности по исследуемому признаку.

Чтобы найти медиану в дискретном вариационном ряд, нужно сумму частот разделить пополам и к полученному результату добавить ½. Так, в распределении 185 семьи по числу детей медианой будет: 185/2 + ½ = 93, т.е. 93-я варианта, которая делит упорядоченный ряд пополам. Каково же значение 93-ей варианты? Для того чтобы это выяснить, нужно накапливать частоты, начиная, от наименьшей варианты. Сумма частот 1-й и 2-й вариант равна 40. Ясно, что здесь 93 варианты нет. Если прибавить к 40 частоту 3-й варианты, то получим сумму, равную 40 + 75 = 115. Следовательно, 93-я варианта соответствует третьему значению варьирующего признака, и медианой будет семья, имеющая двоих детей.

Мода и медиана в данном примере совпали. Если бы у нас была четная сумма частот (например, 184), то, применяя указанную выше формулу, получим номер медианной варианты, 184/2 + ½ =92,5. Поскольку варианты с дробным номером не существует, полученный результат указывает, что медиана находится посередине между 92 и 93 вариантами.

3. Расчет моды и медианы в интервальном вариационном ряду

Описательный характер моды и медианы связан с тем, что в них не погашаются индивидуальные отклонения. Они всегда соответствуют определенной варианте. Поэтому мода и медиана не требуют для своего нахождения расчетов, если известны все значения признака. Однако в интервальном вариационном ряду для нахождения приближенного значения моды и медианы в пределах определенного интервала прибегают к расчетам.

Для расчета определенного значения модальной величины признака, заключенного в интервале, применяют формулу:

М о = Х Мо + i Мо *(f Мо – f Мо-1)/((f Мо – f Мо-1) + (f Мо – f Мо+1)),

Где Х Мо – минимальная граница модального интервала;

i Мо – величина модального интервала;

f Мо – частота модального интервала;

f Мо-1 – частота интервала, предшествующего модальному;

f Мо+1 – частота интервала, следующего за модальным.

Покажем расчет моды на примере, приведенном в таблице 2.


Таблица 2. Распределение рабочих предприятия по выполнению норм выработки

Чтобы найти моду, первоначально определим модальный интервал данного ряда. Из примера видно, что наибольшая частота соответствует интервалу, где варианта лежит в пределах от 100 до 105. Это и есть модальный интервал. Величина модального интервала равна 5.

Подставляя числовые значения из таблицы 2. в указанную выше формулу, получим:

М о = 100 + 5 * (104 -12)/((104 – 12) + (104 – 98)) = 108,8

Смысл этой формулы заключается в следующем: величину той части модального интервала, которую нужно добавить к его минимальной границе, определяют в зависимости от величины частот предшествующего и последующего интервалов. В данном случае к 100 прибавляем 8,8, т.е. больше половины интервала, потому что частота предшествующего интервала меньше частоты последующего интервала.

Исчислим теперь медиану. Для нахождения медианы в интервальном вариационном ряду определяем сначала интервал, в котором она находится (медианный интервал). Таким интервалом будет такой, комулятивная частота которого равна или превышает половину суммы частот. Комулятивные частоты образуются путем постепенного суммирования частот, начиная от интервала с наименьшим значением признака. Половина суммы частот у нас равна 250 (500:2). Следовательно, согласно таблицы 3. медианным интервалом будет интервал со значением заработной платы от 350000 руб. до 400000 руб.

Таблица 3. Расчет медианы в интервальном вариационном ряду

До этого интервала сумма накопленных частот составила 160. Следовательно, чтобы получить значение медианы, необходимо прибавить еще 90 единиц (250 – 160).

Предположим, что нужно определить средний уровень в распределении оценок учащихся или в выборке данных проверки качества. Для этого потребуется вычислить медиану набора чисел с помощью функции МЕДИАНА.

Эта функция - один из способов измерения центральной тенденции, то есть расположения центра набора чисел в статистическом распределении. Существует три наиболее распространенных способа определения центральной тенденции.

    Среднее значение - это значение, которое является средним арифметическим, т. е. вычисляется сложением набора чисел с последующим делением полученной суммы на их количество. Например, средним значением для чисел 2, 3, 3, 5, 7 и 10 будет 5 (результат деления суммы этих чисел, равной 30, на их количество, равное 6).

    Медиана - число, которое является серединой множества чисел: половина чисел имеют значения большие, чем медиана, а половина чисел - меньшие. Например, медианой для чисел 2, 3, 3, 5, 7 и 10 будет 4.

    Мода - число, наиболее часто встречающееся в данном множестве чисел. Например, модой для чисел 2, 3, 3, 5, 7 и 10 будет 3.

При симметричном распределении множества чисел все три значения центральной тенденции будут совпадать. При смещенном распределении множества чисел значения могут быть разными.

Снимки экрана в этой статье получены в Excel 2016. Если вы используете другую версию, интерфейс может немного отличаться, но функции будут такими же.

Пример

Чтобы этот пример проще было понять, скопируйте его на пустой лист.

Совет: Чтобы переключиться между просмотром результатов и просмотром формул, возвращающих эти результаты, нажмите клавиши CTRL+` (апостроф) или на вкладке Формулы в группе Зависимости формул нажмите кнопку Показать формулы .

Медианой Ме называют такое значение признака, которое приходится на середину ранжированного ряда и делит его на две равные по числу единиц части. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака, превышающие медиану, другая – меньше медианы.

Медиану используют вместо средней арифметической, когда крайние варианты ранжированного ряда (наименьшая и наибольшая) по сравнению с остальными оказываются чрезмерно большими или чрезмерно малыми.

В дискретном вариационном ряду, содержащем нечетное число единиц, медиана равна варианте признака, имеющей номер :
,
где N – число единиц совокупности.
В дискретном ряду, состоящем из четного числа единиц совокупности, медиана определяется как средняя из вариант, имеющих номера и :
.
В распределении рабочих по стажу работы медиана равна средней из вариант, имеющих в ранжированном ряду номера 10: 2 = 5 и 10: 2 + 1 = 6. Варианты пятого и шестого признака равны 4 годам, таким образом
года
При вычислении медианы в интервальном ряду сначала находят медианный интервал , (т. е. содержащий медиану), для чего используют накопленные частоты или частости. Медианным является интервал, накопленная частота которого равна или превышает половину всего объема совокупности. Затем значение медианы рассчитывается по формуле:
,
где – нижняя граница медианного интервала;
– ширина медианного интервала;
– накопленная частота интервала, предшествующего медианному;
– частота медианного интервала.
Рассчитаем медиану ряда распределения рабочих по размеру зарплаты (см. лекцию «Сводка и группировка статистических данных»).
Медианным является интервал заработной платы 800-900 грн., поскольку его кумулятивная частота равна 17, что превышает половину суммы всех частот (). Тогда
Ме=800+100грн.
Полученное значение говорит о том, половина рабочих имеют заработную плату ниже 875 грн., но это выше среднего ее размера.
Для определения медианы можно вместо кумулятивных частот использовать кумулятивные частости .
Медиана, как и мода, не зависит от крайних значений вариант, поэтому также применяется для характеристики центра в рядах распределения с неопределенными границами.
Свойство медианы :сумма абсолютных величин отклонений вариант от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической):

Это свойство медианы используется на транспорте при проектировании расположения трамвайных и троллейбусных остановок, бензоколонок, сборочных пунктов и т..д.
Пример. На шоссе длиной 100 км расположено 10 гаражей. Для проектирования строительства бензоколонки были собраны данные о числе предполагаемых ездок на заправку по каждому гаражу.
Таблица 2 – Данные о количестве ездок на заправку по каждому гаражу.

Нужно поставить бензоколонку так, чтобы общий пробег автомашин на заправку был наименьшим.
Вариант 1. Если бензоколонку поставить в середине шоссе, т. е. на 50-ом километре (центр диапазона изменения признака), то пробеги с учетом числа ездок составят:
а) в одном направлении:
;
б) в противоположном:
;
в) общий пробег в оба направления: .

Вариант 2. Если бензоколонку поставить на среднем участке шоссе, определенном по формуле средней арифметической с учетом числа ездок:

Медиану можно определить графически, по кумуляте (см. лекцию «Сводка и группировка статистических данных»). Для этого последнюю ординату, равную сумме всех частот или частостей, делят пополам. Из полученной точки восстанавливают перпендикуляр до пересечения с кумулятой. Абсцисса точки пересечения и дает значение медианы.

Мода и медиана – особого рода средние, которые используются для изучения структуры вариационного ряда. Их иногда называют структурными средними, в отличие от рассмотренных ранее степенных средних.

Мода – это величина признака (варианта), которая чаще всего встречается в данной совокупности, т.е. имеет наибольшую частоту.

Мода имеет большое практическое применение и в ряде случаев только мода может дать характеристику общественных явлений.

Медиана – это варианта, которая находится в середине упорядоченного вариационного ряда.

Медиана показывает количественную границу значения варьирующего признака, которой достигла половина единиц совокупности. Применение медианы наряду со средней или вместо нее целесообразно при наличии в вариационном ряду открытых интервалов, т.к. для вычисления медианы не требуется условное установление границ отрытых интервалов, и поэтому отсутствие сведений о них не влияет на точность вычисления медианы.

Медиану применяют также тогда, когда показатели, которые нужно использовать в качестве весов, неизвестны. Медиану применяют вместо средней арифметической при статистических методах контроля качества продукции. Сумма абсолютных отклонений варианты от медианы меньше, чем от любого другого числа.

Рассмотрим расчет моды и медианы в дискретном вариационном ряду:

Определить моду и медиану.

Мода Мо = 4 года, так как этому значению соответствует наибольшая частота f = 5.

Т.е. наибольшее число рабочих имеют стаж 4 года.

Для того, чтобы вычислить медиану, найдем предварительно половину суммы частот. Если сумма частот является числом нечетным, то мы сначала прибавляем к этой сумме единицу, а затем делим пополам:

Медианой будет восьмая по счету варианта.

Для того, чтобы найти, какая варианта будет восьмой по номеру, будем накапливать частоты до тех пор, пока не получим сумму частот, равную или превышающую половину суммы всех частот. Соответствующая варианта и будет медианой.

Ме = 4 года.

Т.е. половина рабочих имеет стаж меньше четырех лет, половина больше.

Если сумма накопленных частот против одной варианты равна половине сумме частот, то медиана определяется как средняя арифметическая этой варианты и последующей.

Вычисление моды и медианы в интервальном вариационном ряду

Мода в интервальном вариационном ряду вычисляется по формуле

где Х М0 - начальная граница модального интервала,

h м 0 – величина модального интервала,

f м 0 , f м 0-1 , f м 0+1 – частота соответственно модального интервала, предшествующего модальному и последующего.

Модальным называется такой интервал, которому соответствует наибольшая частота.

Пример 1

Группы по стажу

Число рабочих, чел

Накопленные частоты

Определить моду и медиану.

Модальный интервал , т.к. ему соответствует наибольшая частота f = 35. Тогда:

Хм 0 =6, 0 =35

Центральную тенденцию данных можно рассматривать не только, как значение с нулевым суммарным отклонением (средняя арифметическая) или максимальную частоту (мода), но и как некоторую отметку (определенный уровень анализируемого показателя), делящую ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. То есть половина исходных данных по своему значению меньше этой отметки, а половина – больше. Это и есть медиана . Мода и медиана — важные показатели, они отражают структуру данных и иногда используются вместо средней арифметической.

Итак, медианна – это уровень показателя, который делит некоторый набор данных на две равные половины. В качестве демонстрационного примера вновь обратимся к набору случайных чисел. Такое распределение при большом количестве значений в литературе описывается, как обыденное явление. Вот данные в виде рисунка.

Очевидно, что при симметричном распределении середина, делящая совокупность пополам, будет находиться в самом центре – там же, где средняя арифметическая (и мода). Это, так сказать, идеальная ситуация, когда мода, медиана и средняя арифметическая совпадают и все их свойства приходятся на одну точку – максимальная частота, деление пополам, нулевая сумма отклонений – все в одном месте. Однако, жизнь не так симметрична, как нормальное распределение. Поэтому посмотрим на ассиметричное распределение, и что там происходит с центральными нашими тенденциями.

Допустим, мы имеем дело с техническими замерами отклонений от ожидаемой величины чего-нибудь (содержания элементов, расстояния, уровня, массы и т.д. и т.п.). Если все ОК, то отклонения, скорее всего, будут распределены по закону, близкому к нормальному, примерно, как на рисунке выше (практика подобное предположение опровергает, ну да ладно). Но если в анализируемом процессе присутствует какой-то существенный и неконтролируемый фактор, то в наблюдениях могут появиться аномальные значения, которые в значительной мере повлияют на среднюю арифметическую, но при этом почти не затронут медиану, что отчетливо видно на следующей гистограмме.

Медиана – это основная альтернатива средней арифметической, т.к. она устойчива к аномальным отклонениям (выбросам). В этой статье рассказывается о том, как ведет себя средняя арифметическая при аномальных значениях и как с этим бороться, то есть как сделать ее менее зависимой от выбросов. Основные варианты – это увеличение числа наблюдений и/или устранение аномалий из аналитической выборки. Так вот, переход от средней арифметической к медиане – еще один способ получить устойчивую (робастную) оценку математичечского ожидания. Другое дело, что свойства средней арифметической будут навсегда потеряны, но тут надо смотреть, что важней.

Теперь примеры реального использования медианы в статистике. При анализе средней заплаты по стране вместо средней арифметической могут задействовать медиану. Народу не нравится, когда их собственная з/п оказывается ниже средней (арифметической) по стране. Это вызывает бурю эмоций и разоблачений в неправильных подсчетах. Мол, у меня зарплата 100 рублей, а у директора 1000 рублей, вот и получается в среднем по 550 рублей. Что такое , недовольным гражданам неведомо и не интересно. А вот если использовать медиану, то будет понятно, что половина населения получает доход меньше медианного значения, а половина – больше.

Этот показатель также применяется в демографической статистике, при анализе различных количественных и качественных характеристик (прочность материала, содержание элементов, время работы, количество отказов и проч.). Даже трейдеры на forex используют медиану, как некоторый секретный сигнал к началу действий. Хотя большинство из них это не спасает.

Математическим свойством медианы является то, что сумма абсолютных (по модулю) отклонений от медианного значения дает минимально возможное значение, если сравнивать с отклонениями от любой другой величины. Даже меньше, чем от средней арифметической, о как! Данный факт находит свое применение, например, при решении транспортных задач, когда нужно рассчитать место строительства объекта около дороги таким образом, чтобы суммарная длина рейсов до него из разных мест была минимальной (остановки, заправки, склады и т.д. и т.п.). Логистам и на заметку.

{module 111}

Формула медианы для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.

Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медианна будет соответствовать центральному значению ряда, номер которого можно определить по формуле:

№ Me – номер значения, соответствующего медиане,

N – количество значений в совокупности данных.

Тогда медиана будет обозначаться, как

Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:

Так происходит поиск или расчет в дискретных данных. Однако данные могут быть еще и интервальными , где выбрать конкретное значение не представляется возможным, так как конкретных значений просто нет. Как и в моде, медиану в таком случае рассчитывают по некоторому общепринятому правилу, исходя из определенного предположения, то есть на глазок. И нормально получается, я вам скажу!

Для начала (после ранжирования данных) находят медианный интервал . Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.

Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.

Не мудрствуя лукаво, лучше обратимся к наглядной схеме – понятней будет.

Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:

где x Me - нижняя граница медианного интервала;

i Me - ширина медианного интервала;

∑f/2 - количество всех значений, деленное на 2 (два);

S (Me-1) - суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;

f Me - число наблюдений в медианном интервале.

Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%. Чем-то даже похоже на формулу моды. Отличие заключается в поиске точки внутри интервала.

Для примера рассчитаем медиану по следующим данным.

Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров. Теперь еще раз посмотрим, что у нас имеется.

По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.

То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.

Расчет медианы в Excel

Статистика без автоматических расчетов – прошлый век. Медиану чисел легко найти, используя функцию Excel, которая так и называется — МЕДИАНА. Используется архипросто. Активируется ячейка для расчета, вызывается функция, выбирается диапазон данных и «ОК». Больше и обсуждать нечего. Годится и для четного, и для нечетного количества данных.

Другое дело интервальные данные. Соответствующей функции в Excel нет. Поэтому нужно задействовать приведенную выше формулу. Что поделаешь? Но это не очень трагично, так как расчет медианы по интервальным данным – редкий случай. Можно и на калькуляторе разок посчитать.

Кстати, тот факт, что медиана делит данные на две равные части, напоминает о некоторых методах группировки. Действительно, после нахождения медианы, мы также получаем две группы с равным количеством значений. Развивая эту идею, деление на группы можно производить не только по принципу 50/50, но и по другим долям. Например, 20% наибольших значений есть не что иное, как группа А в ABC-анализе . О других долях как-нибудь в другой статье. Видите, как пересекаются, казалось бы, не связанные методы?

Подходит к концу мой рассказ о статистическом показателе медиана. Надеюсь, он был неутомительным. Напоследок предлагаю задачку в стиле телевикторины «Кто хочет стать миллионером?». Имеется набор данных. 15, 5, 20, 5, 10. Каково среднее значение? Четыре варианта:

Предлагаю также посмотреть видеролик на тему расчета медианы в Excel.