Простыми словами
Дорогие участники и читатели сообщества!
Поп-математика продолжает свою работу.

Как некоторые из вас уже знают, в этом году я преподаю (кроме всего прочего) статистику, правда, не математическую.

Этот предмет я знаю очень плохо, поэтому очень многое приходится не вспоминать, а узнавать.
И я ищу в ней симпатичные вещи и, к своему великому удовольствию, нахожу!
Ну, во-первых, это куча шуток, бородатых и не очень. Про среднюю температуру по больнице рассказывать не надо, а вот, другое изречение подобного же плана произвело на меня большое впечатление:

Сидеть на горячей плите, надев на голову холодильник в среднем неплохо.

Но сейчас я хочу рассказать о вещи хоть и занимательной, но серьезной и полезной.
Называется она "ящик с усами".

Представьте себе, что мы собираем данные о том, кто сколько прочитывает книг за год. Спрашиваем людей на улице. Они приврут, конечно, но это нам неважно.
Пусть мы опросили 1000 человек.
Всё, что нам ответили, мы записали на бумажке. По числу книг на каждого отвечающего. Итого у нас получился список из тысячи чисел.
Ранжируем его по возрастанию. Если некоторые числа совпадают (некоторые люди ответили одинаково), повторим число столько раз, сколько оно нам встретится.
Такой упорядоченный список называется вариационным рядом.
Как же нам его исследовать?
Мы можем быстро и легко узнать минимальное и максимальное значение: это самый первый и самый последний элементы нашего ряда.
Обозначим их через xmin и xmах.
Разность между ними называется размахом.
Теперь давайте посмотрим, что у нас в самом центре. Посерединке стоят два члена ряда с номерами 500 и 501: x500 и x501 (потому что всего количество членов выборки четно. Если бы было нечетно, был бы один центральный элемент).
Медианой ряда будем считать полусумму этих двух значений:
med = (x500+x501)/2
Если объем выборки нечетен, то в качестве медианы берем просто средний элемент.
Далее определим еще два показателя ряда:
Элементы вариационного ряда, на четверть отстоящие от краев, называются соответственно нижней и верхней квартилями и обозначаются z1/4 и z3/4. Если четверть от величины объема выборки n — нецелое число, то возьмем от него целую часть: i. Затем отсчитаем от начала и от конца по i элементов. Итые по счету от начала и конца и будут квартилями.
И вот теперь у нас уже готово всё, чтобы построить ящик.
Вот, собственно, и он:

ящик с усами

Сам "ящик" — это средние (и "по идее" наиболее типичные результаты). Я говорю "по идее", если речь идет о нормальном распределении. Но мы его как бы еще не проходили )))
Так вот, ящик — это "серднячковая норма". А дальше растут маргинальные усы книгочеев (вверх) и невежд (вниз).
Есть еще так называемые выбросы. Показатели, которые "портят статистику". Их значения явно много больше или много меньше всех остальных членов ряда. Про методы определения, является ли данное значение выбросом, сейчас я говорить не буду. Просто такие очень большие и очень малые значения (намного отличающиеся от основной массы) мы не учитываем. Выбросы мы отсекаем сразу после построения вариационного ряда, т.е. еще ДО того, как ищем его минимальный и максимальный элементы. Для данного примера это значит, что есть такие уникумы, которые читают всё подряд, как только видят буквы, причем, используют для этого методы скорочтения, а есть просто неграмотные. Для статистики одинаково не годятся ни те ни другие!
Что мы еще видим, глядя на ящик?
Ну, во-первых, слово "квартиль" говорит само за себя: сверху и снизу отступлено по четверти отрезка (размаха выборки). Именно такова длина усов. А длина ящика — половина размаха. Медиана делит сам ящик пополам. То есть легко просматриваются четыре четверти выборки.

Как только мы укажем на этом отрезке любую точку (соответствующую какому-либо значению), мы тут же узнаем, сколько людей читает меньше (не больше) этого человека: это весь отрезок ниже, и больше этого человека: это весь отрезок выше.
Таким образом, если кто-то решит сверить свои показатели со "среднестатистичекими", ему не надо будет руководствоваться одним средним показателем. Вот такая нехитрая штука сразу укажет нам наше место в любом распределении!

@темы: увлекательная статистика)))

Комментарии
10.09.2008 в 23:31

ಠ-ಠ
Я статистику тоже не любил, поэтому, наверное, не помню ничего, но что-то тут не так с логикой нахождения квартилей и определением выбросов. Потому что получается, что
1. для определения позиций квартилей используется вся выборка, включая выбросы. Мы же не можем выбросить лишние элементы до того, как определим квартили - мы выбросы определяем по квартилям, умножая или деля на полтора.
2. после того, как мы определили квартили, у нас получается, что либо выбросов нет (если xmax <= z3/4 * 1.5 или xmin >= z1/4 / 1.5), либо xmax и xmin сами попадают в выбросы, а значит, квартили надо расчитывать снова, исходя из новой выборки, в которой выбросы не учитываются, а новые xmax = z3/4 * 1.5, xmin = z1/4 / 1.5 (точнее, ближайшие "изнутри" элементы к этим числам).
3. После получения новых квартилей шаги 1-2 вполне могут повториться по той же причине.

Или я люто торможу?
11.09.2008 в 00:19

Таар-лайх!
Amicus Plato
"Есть три вида лжи: ложь, наглая ложь и статистика" (c) Бенджамин Дизраэли
11.09.2008 в 00:34

Таар-лайх!
Посерединке у нас стоят числа с номерами 500 и 501 (потому что всего количество членов выборки четно. Если бы было нечетно, был бы один центральный элемент). Медианой ряда будем считать полусумму этих двух значений: med = (x500+x501)/2
не согласен. Только если значения 500 и 501 присутствуют в вариационном ряде, при этом ряд равномерен, такое определение будет верным.
Медиана - это такое значение признака, что половина значений меньше его, а другая половина - больше.
С 500 и 501 больше похоже на среднее арифметическое
11.09.2008 в 12:09

Парау Парау
статистика потрясающая наука. математика - форева.
и, между прочим, очень помогает по жизни. хорошо мозг развивает
11.09.2008 в 21:21

Простыми словами
Значится, тут сразу такая оговорка.
К сожалению, судьба распорядилась так, что лекции я пеку как пирожки в вечер перед прочтением. Иначе просто не успеваю. Материал сырой, и иногда в полной мере я это оцениваю только (и именно) посреди лекции )))
Благо студенты такие, что можно всегда им зубы заговорить.
Так вот, насчет того, что написал Black_Diver.
Про выбросы я прочитала в какой-то статье в тырнете и, не глядя, воткнула. Это неправильно! Сначала мы, конечно, должны избавиться от выбросов, а затем производить все остальные манипуляции с вариационным рядом. Для этого есть множество способов (я их даже сама использовала в своих программах для расчетов рыбных запасов в море) :)
Так что тут какая-то лажа вышла. Надо почитать в серьезной литературе, правда ли там нужно делать итерации, потому что иначе не получится!

Хранитель печати
"Есть три вида лжи: ложь, наглая ложь и статистика" (c) Бенджамин Дизраэли :-D

Только если значения 500 и 501 присутствуют в вариационном ряде, при этом ряд равномерен, такое определение будет верным. Медиана - это такое значение признака, что половина значений меньше его, а другая половина - больше. С 500 и 501 больше похоже на среднее арифметическое
Не, ни фига!
Здесь всё четко!
Мы перечисляем всю тысячу значений по порядку. Например с количеством читанных за год книг:
бойтесь! Вар. ряд из тысячи значений)))
И вот предположим, что на пятисотом месте стоит 50, а на 501-м — 51. Тогда медианой для этого ряда будет 50,5.
И как раз ровно 500 значений будет меньше ее (или точнее, "не будет ее превосходить"); и 500 значений больше.
Это же еще не статистический ряд, где уже одинаковые значения переменной представлены частотами!
Или я не туда?

Tri-Devici и, между прочим, очень помогает по жизни. хорошо мозг развивает
Это правильно))))
Добро пожаловать! ))
11.09.2008 в 21:31

Таар-лайх!
Amicus Plato
вариационный ряд здесь будет формироваться не из порядкового номера опрошенного человека, а из числа книг, названного людьми. По-моему, так.

Я понял, я неправильно воспринял формулировку
Посерединке у нас стоят числа с номерами 500 и 501 .
На мой взгляд, слово "индекс" было уместнее. Число с номером немножко страшно.
11.09.2008 в 21:34

Простыми словами
Хранитель печати
:))))
Говорю же, всё сырое)))
Прошу прощения.
"Значения переменной Х с индексами 500 и 501", т.е. значения "количеств книг", стоящие на 500-м и 501-м местах )))

вариационный ряд здесь будет формироваться не из порядкового номера опрошенного человека, а из числа книг, названного людьми. По-моему, так.
Да, конечно, у меня ведь так и есть....

))
Спасибо за критику )))
Буду исправлять)) :red:
13.09.2008 в 17:07

Простыми словами
Кое-чего исправила ))) Но немного. К перепрочтению не обязательно))))
13.02.2009 в 23:29

Black_Diver Amicus Plato
Так что тут какая-то лажа вышла.
Насколько я понимаю, идеальных нормальных распределений не существует. Просто, ИМХО, предполагая, что некий параметр подчиняется оному закону, мы, тем самым, принимаем нулевую гипотезу. А при принятии гипотезы учитывается p — коэффициент значимости, устанавливаемый самим исследователем в зависимости от желаемой точности результатов. Могу сказать, что в медицине он равен 0,05, или 5%. Таким образом, устанавливая данный интервал, мыы, тем самым, устанавливаем верхним предел допустимой ошибки. Т.е., при p=0,05, если мы примем нулевую гипотезу, то вероятность нашей ошибки (α) должна быть не больше 5%. Вероятность ошибки так же вычисляется с помощью неизвестных мне алгоритмов, и если она больше p, то гипотеза отклоняется.
Думаю, таким образом выросы заранее и отсекаются соответствующими алгоритмами.
Если p<α, то для медицины это много, а потому нуль-гипотеза отклоняется. Если же нет, то отклонениями пренебрегают, довольствуясь тем, что вероятность ошибки меньше 5%.
13.02.2009 в 23:42

Мне, вообще, нравится теория вероятности и я очень рад введённому у нас курсу биостатистики. Правда, чем больше я узнаю, тем больше понимаю, что с этой наукой нужно быть настороже. Ибо формул мало: требуется интуитивный компонент, дабы всё правильно в эти формулы подставить....
Например, как-то в Сети я наткнулся на парадокс Парадокс Монти Холла, который моз мозг наотрез отказывался понимать до тех пор, пока я лично не провёл соответствующии эксперименты и не потратил n времени на мысленное упорядочивание....
P.S.
Amicus Plato
Раз уж ты открыла эту тему, полагаю, что сей парадокс будет весьма показательной вехой и перевернёт представление многих о возможностях собственного мозга и мира вокруг... Может, стоит осветить его как-нибудь..?
P.P.S. То есть, звучит, конечно, несколько пафосно, но моё немножечко перевернул) Теперь я не доверяю "очевидным" вещам в статистике.
13.02.2009 в 23:52

Эммм. Только заметил, что посту уже почти полгода....)
Но по теме статистика - толкьо он один!(
14.02.2009 в 15:21

Простыми словами
Фабий
Парадокс Монти-Холла уже был в сообществе))))))))
www.diary.ru/~Organon/p28189339.htm

А за комментарии огромное спасибо! )) :red:
14.02.2009 в 15:22

Простыми словами
Начало вот здесь: www.diary.ru/~Organon/p28049139.htm
14.02.2009 в 16:10

Спсибо, посмотрю))

А за комментарии огромное спасибо! ))
:)
20.05.2014 в 23:47

Таар-лайх!
Amicus Plato,
понадобилось мне давеча построить оный ящик с усами. Никак не соображу, в какой программке проще сделать...
Данные в виде частотного распределения по категориям. Общее число значений 152 800.
Golden Software Grapher и Instat+ хотят исходный ряд, а не частотное распределение :-( И мне страшно подумать, сколько они будут его обрабатывать...

Данные выглядят примерно так:
Кат. Число попаданий
0 0
1 240
2 480
3 480
4 960
5 480
6 3960
7 240
8 960
9 480
10 5700
11 460
12 4200
13 0
14 240
15 480
16 720
17 0
18 3720
19 0
20 5940
21 240
22 460
23 0
24 3960
25 240
26 0
27 240
28 480
29 0
30 8700
31 0
32 480
33 460
34 0
35 240
36 3720
37 0
38 0
39 0
40 10680
41 0
42 3240
43 0
44 920
45 240
46 0
47 0
48 3240
49 0
50 5220
51 0
52 0
53 0
54 3240
55 460
56 0
57 0
58 0
59 0
60 70470
61 0
62 0
63 0
64 0
65 0
66 6210
21.05.2014 в 01:09

Таар-лайх!
а , нет, нашел руководство "для чайников" :-)
www.dummies.com/how-to/content/boxandwhisker-ch...
13.06.2014 в 13:57

Простыми словами
Хранитель печати,
только что увидела коммент (((
:bricks:
Прошу прощения (((

И огромное спасибо за ссылку!
:white: