Вычисление медианы набора чисел. Функция медиана в excel для выполнения статистического анализа

Центральную тенденцию данных можно рассматривать не только, как значение с нулевым суммарным отклонением (средняя арифметическая) или максимальную частоту (мода), но и как некоторую отметку (определенный уровень анализируемого показателя), делящую ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. То есть половина исходных данных по своему значению меньше этой отметки, а половина – больше. Это и есть медиана . Мода и медиана — важные показатели, они отражают структуру данных и иногда используются вместо средней арифметической.

Итак, медианна – это уровень показателя, который делит некоторый набор данных на две равные половины. В качестве демонстрационного примера вновь обратимся к набору случайных чисел. Такое распределение при большом количестве значений в литературе описывается, как обыденное явление. Вот данные в виде рисунка.

Очевидно, что при симметричном распределении середина, делящая совокупность пополам, будет находиться в самом центре – там же, где средняя арифметическая (и мода). Это, так сказать, идеальная ситуация, когда мода, медиана и средняя арифметическая совпадают и все их свойства приходятся на одну точку – максимальная частота, деление пополам, нулевая сумма отклонений – все в одном месте. Однако, жизнь не так симметрична, как нормальное распределение. Поэтому посмотрим на ассиметричное распределение, и что там происходит с центральными нашими тенденциями.

Допустим, мы имеем дело с техническими замерами отклонений от ожидаемой величины чего-нибудь (содержания элементов, расстояния, уровня, массы и т.д. и т.п.). Если все ОК, то отклонения, скорее всего, будут распределены по закону, близкому к нормальному, примерно, как на рисунке выше (практика подобное предположение опровергает, ну да ладно). Но если в анализируемом процессе присутствует какой-то существенный и неконтролируемый фактор, то в наблюдениях могут появиться аномальные значения, которые в значительной мере повлияют на среднюю арифметическую, но при этом почти не затронут медиану, что отчетливо видно на следующей гистограмме.

Медиана – это основная альтернатива средней арифметической, т.к. она устойчива к аномальным отклонениям (выбросам). В этой статье рассказывается о том, как ведет себя средняя арифметическая при аномальных значениях и как с этим бороться, то есть как сделать ее менее зависимой от выбросов. Основные варианты – это увеличение числа наблюдений и/или устранение аномалий из аналитической выборки. Так вот, переход от средней арифметической к медиане – еще один способ получить устойчивую (робастную) оценку математичечского ожидания. Другое дело, что свойства средней арифметической будут навсегда потеряны, но тут надо смотреть, что важней.

Теперь примеры реального использования медианы в статистике. При анализе средней заплаты по стране вместо средней арифметической могут задействовать медиану. Народу не нравится, когда их собственная з/п оказывается ниже средней (арифметической) по стране. Это вызывает бурю эмоций и разоблачений в неправильных подсчетах. Мол, у меня зарплата 100 рублей, а у директора 1000 рублей, вот и получается в среднем по 550 рублей. Что такое , недовольным гражданам неведомо и не интересно. А вот если использовать медиану, то будет понятно, что половина населения получает доход меньше медианного значения, а половина – больше.

Этот показатель также применяется в демографической статистике, при анализе различных количественных и качественных характеристик (прочность материала, содержание элементов, время работы, количество отказов и проч.). Даже трейдеры на forex используют медиану, как некоторый секретный сигнал к началу действий. Хотя большинство из них это не спасает.

Математическим свойством медианы является то, что сумма абсолютных (по модулю) отклонений от медианного значения дает минимально возможное значение, если сравнивать с отклонениями от любой другой величины. Даже меньше, чем от средней арифметической, о как! Данный факт находит свое применение, например, при решении транспортных задач, когда нужно рассчитать место строительства объекта около дороги таким образом, чтобы суммарная длина рейсов до него из разных мест была минимальной (остановки, заправки, склады и т.д. и т.п.). Логистам и на заметку.

{module 111}

Формула медианы для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.

Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медианна будет соответствовать центральному значению ряда, номер которого можно определить по формуле:

№ Me – номер значения, соответствующего медиане,

N – количество значений в совокупности данных.

Тогда медиана будет обозначаться, как

Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:

Так происходит поиск или расчет в дискретных данных. Однако данные могут быть еще и интервальными , где выбрать конкретное значение не представляется возможным, так как конкретных значений просто нет. Как и в моде, медиану в таком случае рассчитывают по некоторому общепринятому правилу, исходя из определенного предположения, то есть на глазок. И нормально получается, я вам скажу!

Для начала (после ранжирования данных) находят медианный интервал . Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.

Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.

Не мудрствуя лукаво, лучше обратимся к наглядной схеме – понятней будет.

Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:

где x Me - нижняя граница медианного интервала;

i Me - ширина медианного интервала;

∑f/2 - количество всех значений, деленное на 2 (два);

S (Me-1) - суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;

f Me - число наблюдений в медианном интервале.

Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%. Чем-то даже похоже на формулу моды. Отличие заключается в поиске точки внутри интервала.

Для примера рассчитаем медиану по следующим данным.

Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров. Теперь еще раз посмотрим, что у нас имеется.

По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.

То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.

Расчет медианы в Excel

Статистика без автоматических расчетов – прошлый век. Медиану чисел легко найти, используя функцию Excel, которая так и называется — МЕДИАНА. Используется архипросто. Активируется ячейка для расчета, вызывается функция, выбирается диапазон данных и «ОК». Больше и обсуждать нечего. Годится и для четного, и для нечетного количества данных.

Другое дело интервальные данные. Соответствующей функции в Excel нет. Поэтому нужно задействовать приведенную выше формулу. Что поделаешь? Но это не очень трагично, так как расчет медианы по интервальным данным – редкий случай. Можно и на калькуляторе разок посчитать.

Кстати, тот факт, что медиана делит данные на две равные части, напоминает о некоторых методах группировки. Действительно, после нахождения медианы, мы также получаем две группы с равным количеством значений. Развивая эту идею, деление на группы можно производить не только по принципу 50/50, но и по другим долям. Например, 20% наибольших значений есть не что иное, как группа А в ABC-анализе . О других долях как-нибудь в другой статье. Видите, как пересекаются, казалось бы, не связанные методы?

Подходит к концу мой рассказ о статистическом показателе медиана. Надеюсь, он был неутомительным. Напоследок предлагаю задачку в стиле телевикторины «Кто хочет стать миллионером?». Имеется набор данных. 15, 5, 20, 5, 10. Каково среднее значение? Четыре варианта:

Предлагаю также посмотреть видеролик на тему расчета медианы в Excel.

Медиана - это такое значение признака, которое разделяет ранжированный ряд распределения на две равные части - со значениями признака меньше медианы и со значениями признака больше медианы. Для нахождения медианы, нужно отыскать значение признака, которое находится на середине упорядоченного ряда.

Посмотреть решение задачи на нахождение моды и медианы Вы можете

В ранжированных рядах несгруппированные данные для нахождения медианы сводятся к поиску порядкового номера медианы. Медиана может быть вычислена по следующей формуле:

где Хm - нижняя граница медианного интервала;
im - медианный интервал;
Sme- сумма наблюдений, которая была накоплена до начала медианного интервала;
fme - число наблюдений в медианном интервале.

Свойства медианы

  1. Медиана не зависит от тех значений признака, которые расположены по обе стороны от нее.
  2. Аналитические операции с медианой весьма ограничены, поэтому при объединении двух распределений с известными медианами невозможно заранее предсказать величину медианы нового распределения.
  3. Медиана обладает свойством минимальности. Его суть заключается в том, что сумма абсолютных отклонений значений х, от медианы представляет собой минимальную величину по сравнению с отклонением X от любой другой величины

Графическое определение медианы

Для определения медианы графическим методом используют накопленные частоты, по которым строится кумулятивная кривая. Вершины ординат, соответствующих накопленным частотам, соединяют отрезками прямой. Разделив поп олам последнюю ординату, которая соответствует общей сумме частот и проведя к ней перпендикуляр пересечения с кумулятивной кривой, находят ординату искомого значения медианы.

Определение моды в статистике

Мода - значение признака , имеющее наибольшую частоту в статистическом ряду распределения.

Определение моды производится разными способами, и это зависит от того, представлен ли варьирующий признак в виде дискретного или интервального ряда.

Нахождение моды и медианы происходит путем обычного просматривания столбца частот. В этом столбце находят наибольшее число, характеризующее наибольшую частоту. Ей соответствует определенное значение признака, которое и является модой. В интервальном вариационном ряду модой приблизительно считают центральный вариант интервала с наибольшей частотой. В таком ряду распределения мода вычисляется по формуле :

где ХМо - нижняя граница модального интервала;
imo - модальный интервал;
fм0, fм0-1, fм0+1 — частоты в модальном, предыдущем и следующем за модальным интервалах.

Модальный интервал определяется по наибольшей частоте.

Мода широко используется в статистической практике при анализе покупательного спроса, регистрации цен и т. д.

Соотношения между средней арифметической, медианой и модой

Для одномодального симметричного ряда распределения , медиана и мода совпадают. Для асимметричных распределений они не совпадают.

К. Пирсон на основе выравнивания различных типов кривых определил, что для умеренно асимметричных распределений справедливы такие приближенные соотношения между средней арифметической, медианой и модой:

Для вычисления медианы в MS EXCEL существует специальная функция МЕДИАНА() . В этой статье дадим определение медианы и научимся вычислять ее для выборки и для заданного закона распределения случайной величины.

Начнем с медианы для выборок (т.е. для фиксированного набора значений).

Медиана выборки

Медиана (median) – это число, которое является серединой множества чисел: половина чисел множества больше, чем медиана , а половина чисел меньше, чем медиана .

Для вычисления медианы необходимо сначала (значения в выборке ). Например, медианой для выборки (2; 3; 3; 4 ; 5; 7; 10) будет 4. Т.к. всего в выборке 7 значений, три из них меньше, чем 4 (т.е. 2; 3; 3), а три значения больше (т.е. 5; 7; 10).

Если множество содержит четное количество чисел, то вычисляется для двух чисел, находящихся в середине множества. Например, медианой для выборки (2; 3; 3 ; 6 ; 7; 10) будет 4,5, т.к. (3+6)/2=4,5.

Для определения медианы в MS EXCEL существует одноименная функция МЕДИАНА() , английский вариант MEDIAN().

Медиана не обязательно совпадает со . Совпадение имеет место только в том случае, если значения в выборке распределены симметрично относительно среднего . Например, для выборки (1; 2; 3 ; 4 ; 5; 6) медиана и среднее равны 3,5.

Если известна Функция распределения F(х) или функция плотности вероятности p (х) , то медиану можно найти из уравнения:

Например, решив аналитическим способом это уравнение для Логнормального распределения lnN(μ; σ 2), получим, что медиана вычисляется по формуле =EXP(μ). При μ=0, медиана равна 1.

Обратите внимание на точку Функции распределения , для которой F (х)=0,5 (см. картинку выше). Абсцисса этой точкиравна1. Это и есть значение медианы, что естественно совпадает с ранее вычисленным значением по формуле em.

В MS EXCEL медиану для логнормального распределения LnN(0;1) можно вычислить по формуле =ЛОГНОРМ.ОБР(0,5;0;1) .

Примечание : Напомним, что интеграл от по всей области задания случайной величины равен единице.

Поэтому, линия медианы (х=Медиана) делит площадь под графиком функции плотности вероятности на две равные части.

Структурные (позиционные) средние – это средние величины, которые занимают определенное место (позицию) в ранжированном вариационном ряду.

Мода (Mo ) — это значение признака, наиболее часто встречающееся в исследуемой совокупности.

Для дискретных вариационных рядов модой будет значение варианты с наибольшей частотой

Пример . Определить моду по имеющимся данным (табл. 7.5).

Таблица 7.5 – Распределение женской обуви, проданной в обувном магазине N , февраль 2013 г.

По данным табл. 5 видно, что наибольшая частота f max = 28, ей соответствует значение признака x = 37 размер. Следовательно, Mo = 37 размер обуви, т.е. именно этот размер обуви пользовался наибольшим спросом, наиболее часто покупали обувь 37-го размера.

В сначала определяется модальный интервал , т.е. содержащий моду – интервал с наибольшей частотой (в случае интервального распределения с равными интервалами, в случае с неравными интервалами – по наибольшей плотности).

Модой приближенно считается середина модального интервала. Конкретное значение моды для интервального ряда определяется по формуле:

где x Mo – нижняя граница модального интервала;

i Mo – величина модального интервала;

f Mo – частота модального интервала;

f Mo -1 – частота интервала, предшествующего модальному;

f Mo +1 – частота интервала, следующего за модальным.

Пример . Определить моду по имеющимся данным (табл. 7.6).

Таблица 7.6 – Распределение работников по стажу

По данным табл. 6 видно, что наибольшая частота f max = 35, ей соответствует интервал: 6-8 лет (модальный интервал). Определим моду по формуле:

лет.

Следовательно, Mo = 6,8 лет, т.е. большинство работников имеют стаж 6,8 лет.

Название медианы взято из геометрии, где им именуется отрезок, соединяющий одну из вершин треугольника с серединой противоположной стороны и разделяющий, таким образом, сторону треугольника на две равные части.

Медиана () это значение признака, приходящееся на середину ранжированной совокупности. Иначе медиана – это величина, которая делит численность упорядоченного вариационного ряда на две равные части – одна часть имеет значения варьирующего признака меньшие, чем средний вариант, а другая – большие.

Для ранжированного ряда (т.е.упорядоченного — построенного в порядке возрастания или убывания индивидуальных значений признака) с нечетным числом членов (n= нечет) медианой является варианта, расположенная в центре ряда. Порядковый номер медианы (N Me ) определяется следующим образом:

N Me =(n +1)/ 2.

Пример. В ряду из 51 члена номер медианы (51+1)/2 = 26, т.е. медианой является вариант, стоящий в ряду 26-ым по порядку.

Дляранжированного ряда с четным числом членов (n= чет) – медианой будет средняя арифметическая из двух значений признака, расположенных в середине ряда. Порядковые номера двух центральных вариант определяются следующим образом:

N Me 1 =n/ 2; N Me 2 =(n/ 2)+ 1.

Пример. При n=50; N Me1 = 50/2 = 25; N Me2 = (50/2)+1 = 26, т.е. медианой является средняя из вариант, стоящих в ряду 25-ой и 26-ой по порядку.

В дискретных вариационных рядах медиана находится по накопленной частоте, соответствующей порядковому номеру медианы или впервые его превышающей. Иначе по накопленной частоте равной или впервые превышающей половину суммы всех частот ряда.

Пример . Определить медиану по имеющимся данным (табл. 7.7).

Таблица 7.7 – Распределение женской обуви, проданной в обувном магазине N , февраль 2013 г.

По данным табл. 7 определим порядковый номер медианы: N Me =(67+1)/2=34.

Мода. Медиана. Способы их расчета (стр. 1 из 2)

Накопленная частота, впервые превышающая это значение, S = 41, ей соответствует значение признака x = 37 размер. Следовательно, Me = 37 размер обуви, т.е. половина пар покупается меньше 37-го размера, а другая половина – больше.

В этом примере мода и медиана совпадают, но они могут и не совпадать.

В интервальном вариационном ряду определяются накопленные частоты, по данным о накопленных частотах находят медианный интервал – интервал, в котором накопленная частота составляет половину или впервые превышает половину всей суммы частот. Формула для определения медианы в интервальном ряду распределения имеет следующий вид:

.

где x Me – нижняя граница медианного интервала;

i Me – величина медианного интервала;

f i – сумма частот ряда;

S Me -1 – сумма накопленных частот интервала, предшествующего медианному;

f Me – частота медианного интервала.

Пример . Определить медиану по имеющимся данным (табл. 7.8).

Таблица 7.8 – Распределение работников по стажу

По данным табл. 8 определим порядковый номер медианы: N Me =100 /2=50. Накопленная частота, впервые превышающая это значение, S = 82, ей соответствует интервал 6-8 лет (медианный интервал). В этом примере модальный и медианный интервал совпадают, но они могут и не совпадать. Определим медиану по формуле:

лет

Следовательно, Me = 6,2 года, т.е. половина работников имеют стаж менее 6,2 года, а другая половина – более.

Мода и медиана находят широкое применение в разных областях экономики. Так, исчисление модальной производительности труда, модальной себестоимости и т.д. дает возможность экономисту судить о преобладающем в данный момент их уровне. Эта характеристика должна быть использована для выявления резервов нашей экономики. Мода имеет значение для решения практических задач. Так, при планировании массового выпуска одежды и обуви устанавливается размер продукции, который пользуется наибольшим спросом (модальный размер). Мода может быть использована в качестве приближенной характеристики уровня изучаемого признака вместо средней арифметической, если распределения частот близко к симметричному и имеет одну неплоскую вершину.

Медиану следует применять в качестве средней величины в тех случаях, где нет достаточной уверенности в однородности изучаемой совокупности. На медиану влияют не столько сами значения, сколько число случаев на том или ином уровне. Следует также отметить, что медиана всегда конкретна (при большом числе наблюдений или в случае нечетного числа членов совокупности), т.к. под Ме подразумевается некоторый действительный реальный элемент совокупности, тогда как арифметическая средняя часто принимает такое значение, которое не может принимать ни одна из единиц совокупности.

Главное свойство Ме в том, что сумма абсолютных отклонений значений признака от медианы меньше, чем от любой другой величины: . Это свойство Ме может быть использовано, например, при определении места строительства общественных зданий, т.к. Ме определяет точку, дающую наименьшее расстояние, допустим, детских садов от местожительства родителей, жителей населенного пункта от кинотеатра, при проектировке трамвайных, троллейбусных остановок и т.д.

В системе структурных показателей в качестве показателей особенностей формы распределения выступают варианты, занимающие определенное место в ранжированном вариационном ряду (каждое четвертое, пятое, десятое, двадцать пятое и т.д.). Аналогично с нахождением медианы в вариационных рядах можно отыскать значение признака у любой по порядку единицы ранжированного ряда.

Квартили – значения признака, делящие ранжированную совокупность на четыре равные части. Различают квартиль нижний (Q 1 ), средний (Q 2 ) и верхний (Q 3 ). Нижний квартиль отделяет 1/4 часть совокупности с наименьшими значениями признака, верхний — 1/4 часть с наибольшими значениями признака. Это означает, что 25% единиц совокупности будут меньше по величине Q 1 ; 25% единиц будут заключены между Q 1 и Q 2 ; 25% – между Q 2 и Q 3 ; остальные 25% превосходят Q 3 . Средним квартилем (Q 2 ) является медиана.

Для расчета квартилей по интервальному ряду используют формулы:

;

.

где x Q1 – нижняя граница интервала, содержащего нижний квартиль (интервал определяется по накопленной частоте, первой превышающей 25%);

x Q3 – нижняя граница интервала, содержащего верхний квартиль (интервал определяется по накопленной частоте, первой превышающей 75%);

S Q 1-1 – накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль;

S Q 3-1 – накопленная частота интервала, предшествующего интервалу, содержащему верхний квартиль;

f Q1 – частота интервала, содержащего нижний квартиль;

f Q3 – частота интервала, содержащего верхний квартиль.

Децили – это значения вариант, которые делят ранжированный ряд на десять равных частей: 1-ый дециль (d 1 ) делит совокупность в соотношении 1/10 к 9/10, 2-ой дециль (d 2 ) — в соотношении 2/10 к 8/10 и т.д. Вычисляются децили по той же схеме, что и медиана, и квартили:

;

.

Использование в анализе вариационных рядов распределения рассмотренных выше характеристик позволяет глубоко и детально охарактеризовать изучаемую совокупность.

ПОСМОТРЕТЬ ЕЩЕ:

Структурные средние величины

Наряду со степенными средними широкое распространение получили структурные средние.

Структура статистических совокупностей бывает разной. При этом чем симметричнее распределение единиц совокупности, чем качественно однороднее ее состав по изучаемому признаку, тем лучше, надежнее средняя величина признака характеризует изучаемое явление. Но для случаев резкой скошенности (асимметрия) ряда распределения средняя арифметическая уже не так типична. Например, средний размер вклада в сбербанках не представляет особого интереса, так как основная масса вкладов находится ниже этого уровня, а на среднюю оказывают существенное влияние крупные вклады, которых мало и которые не характерны для массы вкладов.

Мода (статистика)

В таких случаях статистика применяет другую систему – систему вспомогательных структурных средних. К их числу относятся мода, медиана, а также квартели, квинтели, децели, перцентели.

Мода (Мо) – наиболее часто встречающаяся величина признака, а в дискретном вариационном ряду – это варианта с наибольшей частотой.

В статистической практике мода используется при изучении доходов населения, покупательского спроса, регистрации цен и при анализе некоторых технико-экономических показателей работы предприятий.

В отдельных случаях именно мода представляет интерес, а не средняя арифметическая. Иногда она применяется вместо арифметической средней, например, для характеристики структуры рядов распределения.

Порядок определения моды зависит от вида ряда распределения. Если варьирующий признак представлен в виде дискретного ряда, то для определения моды не требуется никаких вычислений. В таком ряду модой будет то значение признака, которое обладает наибольшей частотой.

Если значение признака представлены в виде интервального вариационного ряда с равными интервалами, то моду определяют расчетным путем по формуле:

где х Мо – нижняя граница модального интервала,

i Мо – величина модального интервала,

f Мо , f Мо-1 , f Мо+1 – соответственно частоты модального, предмодального (предыдущего) и послемодального (следующего за модальным) интервалов.

Медиана (Ме) – это величина признака, которая находится в середине ранжированного вариационного ряда, где отдельные значения признака (варианты) расположены в порядке их возрастания или убывания (по рангу).

Медиану следует применять в качестве средней величины в тех случаях, где нет достаточной уверенности в однородности изучаемой совокупности. Медиана находит применение в маркетинговой деятельности. Например, размещение элеваторов, заводов первичного виноделия, консервных заводов, сумма расстояний до которых от поставщиков сырья должна быть наименьшей.

Медиана, как и мода, определяется по-разному. Это зависит от строения ряда распределения.
Для определения медианы в дискретных вариационных рядах:

1) находят ее порядковый номер по формуле

N Me =
2) строят ряд накопленных частот

3) находят накопленную частоту, которая равна порядковому номеру медианы или его превышает

4) варианта, соответствующая данной накопленной частоте, является медианой.

Если число членов дискретного ряда нечетное, то медиана находится в середине ряда и делит этот ряд пополам на две равные части по числу членов ряда. Порядковый номер медианы в этом случае вычисляется по формуле:

N Me =(f + 1)2,

где f число членов ряда.

В интервальных рядах сначала определяют медианный интервал. Для этого так же, как и в дискретных рядах, рассчитывают порядковый номер медианы . Накопленной частоте, которая равна номеру медианы или первая его превышает, в интервальном вариационном ряду соответствует медианный интервал. Обозначим эту накопленную частоту S Me . Непосредственно расчет медианы проводят по формуле:

,
где — нижняя граница медианного интервала

— величина медианного интервала

— накопленная частота интервала, предшествующего медианному

— частота медианного интервала

Графическое определение моды и медианы
Моду и медиану в интервальном ряду можно определить графически.

Мода определяется по гистограмме распределения. Для этого выбирается самый высокий прямоугольник, который является в данном случае модальным. Затем правую вершину модального прямоугольника соединяем с правым верхним углом предыдущего прямоугольника. А левую вершину модального прямоугольника – с левым верхним углом последующего прямоугольника. Далее из точки их пересечения опускают перпендикуляр на ось абсцисс. Абсцисса точки пересечения этих прямых и будет модой распределения (рис. 1). Медиана рассчитывается по кумуляте (рис. 2). Для ее определения из точки на шкале накопленных частот (частостей), соответствующей 50%, проводится прямая, параллельная оси абсцисс, до пересечения с кумулятой. Затем из точки пересечения указанной прямой с кумулятой опускается перпендикуляр на ось абсцисс. Абсцисса точки пересечения является медианой.

Показатели вариации в статистике.

В процессе статистического анализа может сложиться ситуация, когда значения средних величин совпадают, а совокупности, на основе которых они рассчитаны, состоят из единиц, значения признака у которых достаточно резко различают между собой. В этом случае рассчитывают показатели вариации.

Каталог: downloads -> Sotrudniki
downloads -> Н. Л. Иванова М. Ф. Луканина
downloads -> Лекция для специалистов доу и родителей «Профилактика агрессивного поведения дошкольников»
downloads -> Психологическая профессиональная адаптация личности
downloads -> Департамент образования и науки кемеровской области кемеровский областной психолого-валеологический центр
downloads -> Федеральная служба РФ по контролю за оборотом наркотиков управление по кемеровской области
Sotrudniki -> Боу чувашской Республики спо «чэтк» Минобразования Чувашии
downloads -> Особенности психолого-педагогического сопровождения развития детей дошкольного возраста
downloads -> Мишина М. М. Развитие мышления в зависимости от включенности в семейно-родовые отношения
Sotrudniki -> Формирование профессионально-значимых качеств у обучающихся с нарушениями интеллекта по профессии

КОНТРОЛЬНАЯ РАБОТА

На тему: "Мода. Медиана. Способы их расчета"

Введение

Средние величины и связанные с ними показатели вариации играют в статистике очень большую роль, что обусловлено предметом ее изучения. Поэтому данная тема является одной из центральных в курсе.

Средняя является очень распространенным обобщающим показателям в статистике. Это объясняется тем, что только с помощью средней можно охарактеризовать совокупность по количественно варьирующему признаку. Средней величиной в статистике называется обобщающая характеристика совокупности однотипных явлений по какому-либо количественно варьирующему признаку. Средняя показывает уровень этого признака, отнесенный к единице совокупности.

Изучая общественные явления и стремясь выявить их характерные, типичные черты в конкретных условиях места и времени, статистики широко используют средние величины. С помощью средних можно сравнивать между собой различные совокупности по варьирующим признакам.

Средние, которые применяются в статистике, относятся к классу степенных средних. Из степенных средних наиболее часто применяется средняя арифметическая, реже – средняя гармоническая; средняя гармоническая применяется только при исчислении средних темпов динамики, а средняя квадратическая – только при исчислении показателей вариации.

Средняя арифметическая есть частное от деления суммы вариант на их число. Она применяется в тех случаях, когда объем варьирующего признака для всей совокупности образуется как сумма значений признака у отдельных ее единиц. Средняя арифметическая – наиболее распространенный вид средних, так как она соответствует природе общественных явлений, где объем варьирующих признаков в совокупности чаще всего образуется именно как сумма значений признака у отдельных единиц совокупности.

По своему определяющему свойству средняя гармоническая должна применяться тогда, когда общий объем признака образуется как сумма обратных значений вариант. Ее применяют тогда, когда в зависимости от имеющего материала веса приходиться не умножать, а делить на варианты или, что то же самое, умножать на обратное их значение. Средняя гармоническая в этих случаях – это величина обратная средней арифметической из обратных значений признака.

К средней гармонической следует прибегать в тех случаях, когда в качестве весов применяются не единицы совокупности – носители признака, а произведения этих единиц на значение признака.

1. Определение моды и медианы в статистике

Средние арифметическая и гармоническая являются обобщающими характеристиками совокупности по тому или иному варьирующему признаку. Вспомогательными описательными характеристиками распределения варьирующего признака являются мода и медиана.

Модой в статистике называется величина признака (варианта), которая чаще всего встречается в данной совокупности. В вариационном ряду это будет варианта, имеющая наибольшую частоту.

Медианной в статистике называется варианта, которая находится в середине вариационного ряда. Медиана делит ряд пополам, по обе стороны от нее (вверх и вниз) находится одинаковое количество единиц совокупности.

Мода и медиана в отличии от степенных средних являются конкретными характеристиками, их значение имеет какая-либо конкретная варианта в вариационном ряду.

Мода применяется в тех случаях, когда нужно охарактеризовать наиболее часто встречающуюся величину признака.

5.5 Мода и медиана. Их вычисление в дискретных и интервальных вариационных рядах

Если надо, например, узнать наиболее распространенный размер заработной платы на предприятии, цену на рынке, по которой было продано наибольшее количество товаров, размер ботинок, пользующийся наибольшим спросом у потребителей, и т.д., в этих случаях прибегают к моде.

Медиана интересна тем, что показывает количественную границу значение варьирующего признака, которую достигла половина членов совокупности. Пусть средняя заработная плата работников банка составила 650000 руб. в месяц. Эта характеристика может быть дополнена, если мы скажем, что половина работников получила заработную плату 700000 руб. и выше, т.е. приведем медиану. Мода и медиана являются типичными характеристиками в тех случаях, когда взяты совокупности однородные и большой численности.

Нахождение моды и медианы в дискретном вариационном ряду

Найти моду и медиану в вариационном ряду, где значения признака заданы определенными числами, не представляет большой трудности. Рассмотрим таблицу 1. с распределение семей по числу детей.

Таблица 1. Распределение семей по числу детей

Очевидно, в этом примере модой будет семья, имеющая двоих детей, так как этому значению варианты соответствует наибольшее число семей. Могут быть распределения, где все варианты встречаются одинаково часто, в этом случае моды нет или, иначе, можно сказать, что все варианты одинаково модальны. В других случаях не одна, а две варианты могут быть наибольшей частоты. Тогда будет две моды, распределение будет бимодальным. Бимодальные распределения могут указывать на качественную неоднородность совокупности по исследуемому признаку.

Чтобы найти медиану в дискретном вариационном ряд, нужно сумму частот разделить пополам и к полученному результату добавить ½. Так, в распределении 185 семьи по числу детей медианой будет: 185/2 + ½ = 93, т.е. 93-я варианта, которая делит упорядоченный ряд пополам. Каково же значение 93-ей варианты? Для того чтобы это выяснить, нужно накапливать частоты, начиная, от наименьшей варианты. Сумма частот 1-й и 2-й вариант равна 40. Ясно, что здесь 93 варианты нет. Если прибавить к 40 частоту 3-й варианты, то получим сумму, равную 40 + 75 = 115. Следовательно, 93-я варианта соответствует третьему значению варьирующего признака, и медианой будет семья, имеющая двоих детей.

Мода и медиана в данном примере совпали. Если бы у нас была четная сумма частот (например, 184), то, применяя указанную выше формулу, получим номер медианной варианты, 184/2 + ½ =92,5. Поскольку варианты с дробным номером не существует, полученный результат указывает, что медиана находится посередине между 92 и 93 вариантами.

3. Расчет моды и медианы в интервальном вариационном ряду

Описательный характер моды и медианы связан с тем, что в них не погашаются индивидуальные отклонения. Они всегда соответствуют определенной варианте. Поэтому мода и медиана не требуют для своего нахождения расчетов, если известны все значения признака. Однако в интервальном вариационном ряду для нахождения приближенного значения моды и медианы в пределах определенного интервала прибегают к расчетам.

Для расчета определенного значения модальной величины признака, заключенного в интервале, применяют формулу:

М о = Х Мо + i Мо *(f Мо – f Мо-1)/((f Мо – f Мо-1) + (f Мо – f Мо+1)),

Где Х Мо – минимальная граница модального интервала;

i Мо – величина модального интервала;

f Мо – частота модального интервала;

f Мо-1 – частота интервала, предшествующего модальному;

f Мо+1 – частота интервала, следующего за модальным.

Покажем расчет моды на примере, приведенном в таблице 2.

Таблица 2. Распределение рабочих предприятия по выполнению норм выработки

Чтобы найти моду, первоначально определим модальный интервал данного ряда. Из примера видно, что наибольшая частота соответствует интервалу, где варианта лежит в пределах от 100 до 105. Это и есть модальный интервал. Величина модального интервала равна 5.

Подставляя числовые значения из таблицы 2. в указанную выше формулу, получим:

М о = 100 + 5 * (104 -12)/((104 – 12) + (104 – 98)) = 108,8

Смысл этой формулы заключается в следующем: величину той части модального интервала, которую нужно добавить к его минимальной границе, определяют в зависимости от величины частот предшествующего и последующего интервалов. В данном случае к 100 прибавляем 8,8, т.е. больше половины интервала, потому что частота предшествующего интервала меньше частоты последующего интервала.

Исчислим теперь медиану. Для нахождения медианы в интервальном вариационном ряду определяем сначала интервал, в котором она находится (медианный интервал). Таким интервалом будет такой, комулятивная частота которого равна или превышает половину суммы частот. Комулятивные частоты образуются путем постепенного суммирования частот, начиная от интервала с наименьшим значением признака. Половина суммы частот у нас равна 250 (500:2). Следовательно, согласно таблицы 3. медианным интервалом будет интервал со значением заработной платы от 350000 руб. до 400000 руб.

Таблица 3. Расчет медианы в интервальном вариационном ряду

До этого интервала сумма накопленных частот составила 160. Следовательно, чтобы получить значение медианы, необходимо прибавить еще 90 единиц (250 – 160).

При определении значения медианы предполагают, что значение единиц в границах интервала распределяется равномерно. Следовательно, если 115 единиц, находящихся в этом интервале, распределяются равномерно в интервале, равном 50, то 90 единицам будет соответствовать следующая его величина:

Мода в статистике

Медиана (статистика)

Медиана (статистика) , в математической статистике — число, характеризующее выборку (например, набор чисел). Если все элементы выборки различны, то медиана — это такое число выборки, что ровно половина из элементов выборки больше него, а другая половина меньше него.

В более общем случае медиану можно найти, упорядочив элементы выборки по возрастанию или убыванию и взяв средний элемент. Например, выборка {11, 9, 3, 5, 5} после упорядочивания превращается в {3, 5, 5, 9, 11} и её медианой является число 5. Если в выборке чётное число элементов, медиана может быть не определена однозначно: для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора {1, 3, 5, 7} принимают равной 4).

Другими словами, медианой в статистике называется значение, которое делит ряд пополам таким образом, что по обе стороны от нее (вниз или вверх) расположено одинаковое число единиц данной совокупности. Из-за этого свойства данный показатель имеет еще несколько названий: 50-й перцентиль или квантиль 0,5.

Медиану используют вместо средней арифметической, когда крайние варианты ранжированного ряда (наименьшая и наибольшая) по сравнению с остальными оказываются чрезмерно большими или чрезмерно малыми.

Функция МЕДИАНА измеряет центральную тенденцию, которая является центром множества чисел в статистическом распределении. Существует три наиболее распространенных способа определения центральной тенденции:

  • Среднее значение — среднее арифметическое, которое вычисляется сложением множества чисел с последующим делением полученной суммы на их количество.
    Например , средним значением для чисел 2, 3, 3, 5, 7 и 10 будет 5, которое является результатом деления их суммы, равной 30, на их количество, равное 6.
  • Медиана — число, которое является серединой множества чисел: половина чисел имеют значения большие, чем медиана, а половина чисел — меньшие.
    Например , медианой для чисел 2, 3, 3, 5, 7 и 10 будет 4.
  • Мода — число, наиболее часто встречающееся в данном множестве чисел.

    Например , модой для чисел 2, 3, 3, 5, 7 и 10 будет 3.

Мода и медиана – особого рода средние, которые используются для изучения структуры вариационного ряда. Их иногда называют структурными средними, в отличие от рассмотренных ранее степенных средних.

Мода – это величина признака (варианта), которая чаще всего встречается в данной совокупности, т.е. имеет наибольшую частоту.

Мода имеет большое практическое применение и в ряде случаев только мода может дать характеристику общественных явлений.

Медиана – это варианта, которая находится в середине упорядоченного вариационного ряда.

Медиана показывает количественную границу значения варьирующего признака, которой достигла половина единиц совокупности. Применение медианы наряду со средней или вместо нее целесообразно при наличии в вариационном ряду открытых интервалов, т.к. для вычисления медианы не требуется условное установление границ отрытых интервалов, и поэтому отсутствие сведений о них не влияет на точность вычисления медианы.

Медиану применяют также тогда, когда показатели, которые нужно использовать в качестве весов, неизвестны. Медиану применяют вместо средней арифметической при статистических методах контроля качества продукции. Сумма абсолютных отклонений варианты от медианы меньше, чем от любого другого числа.

Рассмотрим расчет моды и медианы в дискретном вариационном ряду:

Определить моду и медиану.

Мода Мо = 4 года, так как этому значению соответствует наибольшая частота f = 5.

Т.е. наибольшее число рабочих имеют стаж 4 года.

Для того, чтобы вычислить медиану, найдем предварительно половину суммы частот. Если сумма частот является числом нечетным, то мы сначала прибавляем к этой сумме единицу, а затем делим пополам:

Медианой будет восьмая по счету варианта.

Для того, чтобы найти, какая варианта будет восьмой по номеру, будем накапливать частоты до тех пор, пока не получим сумму частот, равную или превышающую половину суммы всех частот. Соответствующая варианта и будет медианой.

Ме = 4 года.

Т.е. половина рабочих имеет стаж меньше четырех лет, половина больше.

Если сумма накопленных частот против одной варианты равна половине сумме частот, то медиана определяется как средняя арифметическая этой варианты и последующей.

Вычисление моды и медианы в интервальном вариационном ряду

Мода в интервальном вариационном ряду вычисляется по формуле

где Х М0 - начальная граница модального интервала,

h м 0 – величина модального интервала,

f м 0 , f м 0-1 , f м 0+1 – частота соответственно модального интервала, предшествующего модальному и последующего.

Модальным называется такой интервал, которому соответствует наибольшая частота.

Пример 1

Группы по стажу

Число рабочих, чел

Накопленные частоты

Определить моду и медиану.

Модальный интервал , т.к. ему соответствует наибольшая частота f = 35. Тогда:

Хм 0 =6, 0 =35