Дорогие участники и читатели сообщества!
Поп-математика продолжает свою работу.
Как некоторые из вас уже знают, в этом году я преподаю (кроме всего прочего) статистику, правда, не математическую.
Этот предмет я знаю очень плохо, поэтому очень многое приходится не вспоминать, а узнавать.
И я ищу в ней симпатичные вещи и, к своему великому удовольствию, нахожу!
Ну, во-первых, это куча шуток, бородатых и не очень. Про среднюю температуру по больнице рассказывать не надо, а вот, другое изречение подобного же плана произвело на меня большое впечатление:
Сидеть на горячей плите, надев на голову холодильник в среднем неплохо.
Но сейчас я хочу рассказать о вещи хоть и занимательной, но серьезной и полезной.
Называется она "ящик с усами".
Представьте себе, что мы собираем данные о том, кто сколько прочитывает книг за год. Спрашиваем людей на улице. Они приврут, конечно, но это нам неважно.
Пусть мы опросили 1000 человек.
Всё, что нам ответили, мы записали на бумажке. По числу книг на каждого отвечающего. Итого у нас получился список из тысячи чисел.
Ранжируем его по возрастанию. Если некоторые числа совпадают (некоторые люди ответили одинаково), повторим число столько раз, сколько оно нам встретится.
Такой упорядоченный список называется вариационным рядом.
Как же нам его исследовать?
Мы можем быстро и легко узнать минимальное и максимальное значение: это самый первый и самый последний элементы нашего ряда.
Обозначим их через xmin и xmах.
Разность между ними называется размахом.
Теперь давайте посмотрим, что у нас в самом центре. Посерединке стоят два члена ряда с номерами 500 и 501: x500 и x501 (потому что всего количество членов выборки четно. Если бы было нечетно, был бы один центральный элемент).
Медианой ряда будем считать полусумму этих двух значений:
med = (x500+x501)/2
Если объем выборки нечетен, то в качестве медианы берем просто средний элемент.
Далее определим еще два показателя ряда:
Элементы вариационного ряда, на четверть отстоящие от краев, называются соответственно нижней и верхней квартилями и обозначаются z1/4 и z3/4. Если четверть от величины объема выборки n — нецелое число, то возьмем от него целую часть: i. Затем отсчитаем от начала и от конца по i элементов. Итые по счету от начала и конца и будут квартилями.
И вот теперь у нас уже готово всё, чтобы построить ящик.
Вот, собственно, и он:
ящик с усами
Сам "ящик" — это средние (и "по идее" наиболее типичные результаты). Я говорю "по идее", если речь идет о нормальном распределении. Но мы его как бы еще не проходили )))
Так вот, ящик — это "серднячковая норма". А дальше растут маргинальные усы книгочеев (вверх) и невежд (вниз).
Есть еще так называемые выбросы. Показатели, которые "портят статистику". Их значения явно много больше или много меньше всех остальных членов ряда. Про методы определения, является ли данное значение выбросом, сейчас я говорить не буду. Просто такие очень большие и очень малые значения (намного отличающиеся от основной массы) мы не учитываем. Выбросы мы отсекаем сразу после построения вариационного ряда, т.е. еще ДО того, как ищем его минимальный и максимальный элементы. Для данного примера это значит, что есть такие уникумы, которые читают всё подряд, как только видят буквы, причем, используют для этого методы скорочтения, а есть просто неграмотные. Для статистики одинаково не годятся ни те ни другие!
Что мы еще видим, глядя на ящик?
Ну, во-первых, слово "квартиль" говорит само за себя: сверху и снизу отступлено по четверти отрезка (размаха выборки). Именно такова длина усов. А длина ящика — половина размаха. Медиана делит сам ящик пополам. То есть легко просматриваются четыре четверти выборки.
Как только мы укажем на этом отрезке любую точку (соответствующую какому-либо значению), мы тут же узнаем, сколько людей читает меньше (не больше) этого человека: это весь отрезок ниже, и больше этого человека: это весь отрезок выше.
Таким образом, если кто-то решит сверить свои показатели со "среднестатистичекими", ему не надо будет руководствоваться одним средним показателем. Вот такая нехитрая штука сразу укажет нам наше место в любом распределении!