Главная Статистика. Базовый курс в комиксах

Статистика. Базовый курс в комиксах

,
5.0 / 5.0
Насколько вам понравилась эта книга?
Какого качества скаченный файл?
Скачайте книгу, чтобы оценить ее качество
Какого качества скаченные файлы?
Не только полезный, но и веселый курс базовой статистики. Автор и иллюстратор объясняют сложные понятия на простых и забавных примерах, доказывая, что статистика — вокруг нас. Прочитав эту книгу, вы научитесь собирать данные, делать выборки и проверять гипотезы по любой проблеме — будь то решение о покупке новой машины или подсчет степени взаимной ненависти жителей враждующих планет. Теперь вас не введут в заблуждение показатели средних зарплат по галактике и предвыборные рейтинги, составленные на основе смещенного распределения. Вы узнаете, почему идеальная форма в статистике не менее важна, чем содержание. И в конце
концов, получите ответ на важный вопрос, кого огры кидают дальше — эльфов или гномов.
Если же вы захотите мыслить и говорить как статистик, в конце книги вас ждет «Математическая пещера», богатая на формулы и детали.
Книга будет полезна всем, кто хочет познакомиться со статистикой и научиться анализировать данные.
Год:
2017
Издательство:
Манн, Иванов и Фербер
Язык:
russian
Страницы:
235
ISBN 13:
9785001002604
Серия:
МИФ. Научпоп
Файл:
PDF, 39,69 MB

Возможно Вас заинтересует Powered by Rec2Me

 
0 comments
 

Чтобы оставить отзыв, пожалуйста, войдите или зарегистрируйтесь
Вы можете оставить отзыв о книге и поделиться своим опытом. Другим читателям будет интересно узнать ваше мнение о прочитанных книгах. Независимо от того, пришлась ли вам книга по душе или нет, если вы честно и подробно расскажете об этом, люди смогут найти для себя новые книги, которые их заинтересуют.
1

The Art of Cardboard: Big Ideas for Creativity, Collaboration, Storytelling, and Reuse

Год:
2015
Язык:
english
Файл:
EPUB, 63,10 MB
0 / 0
2

Partner Workouts: Work Out with a Partner for Double the Motivation and Twice the Impact

Год:
2017
Язык:
english
Файл:
EPUB, 39,54 MB
0 / 0


Перевод с английского Ольги Терентьевой

ГрейдИ Клейн И АлАн деБнИ

Москва
«Манн, Иванов и Фербер»

2017

СТАТИСТИКА
Базовый курс 

в комиксах



Клейн, Грейди
К48  Статистика. Базовый курс в комиксах / Грейди Клейн, Алан Дебни ; пер. с  англ. 

О.  Терентьевой ; [науч. ред. И.  Николаева].  — М. : Манн, Иванов и  Фербер, 
2017. — 240 с.

ISBN 978-5-00100-260-4

Не только полезный, но и веселый курс базовой статистики. Автор и иллюстратор объясняют 
сложные понятия на простых и забавных примерах, доказывая, что статистика  — вокруг нас. 

Прочитав эту книгу, вы научитесь собирать данные, делать выборки и проверять гипотезы 
по любой проблеме — будь то решение о покупке новой машины или подсчет степени взаимной 
ненависти жителей враждующих планет. Теперь вас не введут в заблуждение показатели средних 
зарплат по галактике и предвыборные рейтинги, составленные на основе смещенного распределе-
ния. Вы узнаете, почему идеальная форма в статистике не менее важна, чем содержание. И в конце 
концов, получите ответ на важный вопрос, кого огры кидают дальше — эльфов или гномов.

Если же вы захотите мыслить и говорить как статистик, в конце книги вас ждет «Математическая 
пещера», богатая на формулы и детали.  

Книга будет полезна всем, кто хочет познакомиться со статистикой и научиться анализировать 
данные.

ISBN 978-5-00100-260-4 © THE CARTOON INTRODUCTION TO STATISTICS 
by Alan Dabney, illustrated by Grady Klein
Text Copyright © 2013 by Grady Klein and Alan Dabney
Artwork Copyright © 2013 by Grady Klein
Published by arrangement with Hill and Wang, 
a division of Farrar, Straus and Giroux, LLC, New York

© Перевод на русский язык, издание на русском языке
ООО «Манн, Иванов и Фербер», 2017

УДК 311.1
ББК 65.051

К48

Все права защищены. Никакая часть данной книги
не может быть воспроизведена в какой бы то ни было 
форме без письменного разрешения владельцев 
авторских прав.

Правовую поддержку издательства обеспечивает 
юридическая фирма «Вегас-Лекс».

УДК 311.1
ББК 65.051

Н а у ч н ы й  р е д а к т о р  Ирин; а Николаева

Издано с разрешения
Synopsis Literary Agency c/o THE SYNOPSIS NOA LLP

На русском языке публикуется впервые



Посвящается Анне, Лиаму и Бенджамину.
Г. К.

Посвящается Эллиотту, Луизе и Нику.
А. Д.



СОдержАнИе

Вступление. Она повсюду …1

Часть 1. Сбор статистических данных …15

1. Числа …17

2. Случайные сырые данные …25

3. ранжирование …39

4. детективная работа …51

5. Страшные ошибки …67

6. От выборки к генеральной
совокупности …81

Часть 2. Поиск параметров …89

7. Центральная предельная теорема …91

8. Вероятности …105

9. Статистический вывод …121

10. достоверность …131

11. Они нас ненавидят …143

12. Проверка гипотез …161

13. Противостояние …175

14. летающие свиньи,
плюющиеся пришельцы и петарды …191

Заключение. Мыслить как статистик …205

Приложение. Математическая пещера …213



Статистика 
окружает 

нас!

Вступление 

Она повсюду



2

78%  scourade!

Большинство из нас так или иначе имеют 
дело со статистикой каждый день…

…даже если мы не жонглируем цифрами, 
зарабатывая себе на жизнь.

Статистику «излучают» 
наши телевизоры…

…она 
просачивается 
из телефонов…

…и оставляет 
информационный мусор 

на нашем пути.

От нее не скрыться.

…льется 
из радиоприемников…

Согласно опросам, сенатор 
Нирдорф лидирует 

с отрывом в 40 пунктов.

Среднее
 вознагр

аждение
 $150 мл

н и даже
 больше

!

Итон
 Кейк

, адво
кат

78%  
стоматологов рекомендуют!

Это шоу смотрят 
4,8 млн человек! В этом месяце 

вы отправили 
больше сообщений, 
чем все население 
республики Чад.

должно быть, 
оно того 
стоит.

Одна миска шоколадных 
шариков содержит 1200% 

моей суточной нормы 
потребления сахара.

Потрясающе!

Убит или
 ранен?

800 вы
игранн

ых дел

scourade!



3

в торговом центре 
в школе 

на кухне в спальне

Статистика повсюду:

…стоит только 
ввести мой рост и вес.

На этом сайте 
я смогу найти 

вторую 
половинку…

Печально.
Но, по крайней мере,

она жила дольше,
чем среднестатистическая 

собака.

Почему я должен мыть 
посуду в 75% случаев? 

Потому что 
я готовлю

в 99% случаев.

Эта музыка играет 
у нас фоном…
…потому что 
исследования 
показывают, 

что благодаря ей 
вы покупаете
 на 10% вещей

 больше!

95% детей 
рождается на сроке 

между 38-й и 42-й 
неделей…

…так что ваши роды 
планируем

на это же время.

Да, при выставлении 
отметок я пользуюсь 

графиком нормального 
распределения!

Статистика с нами 
с самого рождения…

…и нравится нам это или нет,
но мы и сами пополним статистику, когда умрем.

К счастью, всему этому 
есть хорошее объяснение.



* Уильям Шетнер — канадский актер, известный 
по роли капитана звездолета Джеймса Тиберия 
Кирка в сериалах и фильмах «Звездный путь». 
Прим. ред.

4

Статистика повсюду,  
потому что она очень полезна.

Статистика помогает 
предсказывать погоду…

…и систематизировать 
информацию в интернете…

…и развивать медицину…

…и формировать модные 
тенденции…

И это еще не все.

Существует 
вероятность 95% что 

завтра будет солнечно.

И как они 
только узнали, 
что я хотела 

фигурку Уильяма 
Шетнера*?

Наши исследования показали, 
что при лечении рака 

этот препарат на 2,5% 
эффективнее плацебо, 

но погрешность в расчетах 
составляет 12%…

Но есть и шанс в 3%, 
что прольется 

дождь
из лягушек.

Основываясь на истории 
ваших покупок, я могу 

составить рекомендации  
для вас.

Прекрасно!
Как бы нам

его назвать?

При этом препарат 
оказался отличным 

слабительным!

 Благодаря 
статистическим данным 
я понял, что джинсовые 

куртки, возможно, 
вернутся в моду

в этом году.

О, да ты одет 
в стиле 1987 года, 

мне нравится!
Только давай 

обойдемся 
без клеша.



5

Статистика помогает 
побеждать на выборах…

…и возводить 
электростанции…

…и зарабатывать 
деньги…

…и доказывать 
свое 

превосходство…

Всего 23% моих 
избирателей 

считают меня 
абсолютным 

болваном!

Спровоцирует ли наша 
ядерная установка 
мутации у местных 

жителей?

При сохранении 
нынешнего 

состояния рынка…

Ха, на моем счету больше 
хоум-ранов, чем у тебя.

Да ты использовал 
стероиды, и у меня есть 
статистические данные, 
подтверждающие это.

…уже завтра я буду 
на 12–15% богаче!



6

Самое простое объяснение заключается в том, что статистика 
помогает контролировать огромное количество важных вещей…

94% всех людей,
когда-либо живших 

на свете,  
уже умерли…

…и 200 млн из них 
умерли от чумы…

…а на дорогах 
миллионы и миллионы 

гибнут ежедневно…

…а вероятность того, 
что в вас попадет 

молния, еще выше, когда 
вы играете в гольф!

Поэтому, если мы 
начнем раздавать 

их бесплатно 
на собраниях 

адептов нашего 
культа смерти…

…мы сможем 
привлечь 

новых членов!

Исследования доказали, 
что 78% людей 

обожают пончики.

…что, в свою очередь, помогает лучше 
понять наш сложно устроенный мир…

…и управлять им.

Тут и вилка, и нож, 
и ложка, и расческа, 

и соломинка…

Эта штука 
просто класс!

…и отвертка, 
и кусачки для ногтей, 

и карандаш, 
и…

Но настоящая сила статистики все же в другом.

Так что же делает 
статистику такой 

невероятно полезной?



7

…когда мы 
располагаем неполной 

информацией.

Позвольте 
объяснить, 

что это 
значит…

Статистика помогает 
принимать уверенные 

решения…

Вот в чем кроется истинная 
причина того, почему всем нужна 

статистика.



8

Представьте себе, что мы 
хотим узнать средний вес…

…всей рыбы в озере.

Если бы мы осушили озеро 
и взвесили каждую рыбку…

Ловись, ловись, 
рыбка…

Если мы узнаем, 
сколько в среднем 

весит одна рыбка…

…мы сможем понять, 
сколько рыбешек нам 

нужно ловить каждый 
день, чтобы спасти 

наших питомцев 
от голодной смерти!

Но по очевидным причинам мы не можем этого сделать.

По-моему, это была 
не лучшая идея.

…то получили бы всю необходимую информацию
и высчитали средний вес.



9

С другой стороны, если мы поймаем 
100 рыбешек и взвесим их…

…мы получим неполную информацию о всей рыбе в озере.

прибегнув к инструментарию 
статистики, мы можем использовать эту 

неполную информацию…

Но вот что 
интересно:

…чтобы сделать 
доверительное суждение 

относительно всей рыбы в этом озере.

Эти 100 рыбок 
весят 112 кг.

Следовательно, 
в среднем одна рыбешка 

весит 1,12 кг!

Итак, теперь нам 
известен средний 
вес рыбы в этой 

выборке.

Правда?
Как же это 
работает? 

Статистика 
предполагает 
использование 

той рыбы, которую 
мы поймали…

…чтобы судить 
о той, которая 

осталась в озере.

…но мы по-прежнему 
не знаем средний вес 

остальной рыбы 
в озере.

Наша книга 
как раз об этом!



10

КАК НАМ ИСПОЛЬЗОВАТЬ 
ВЫБОрКУ…

Эта книга отвечает 
на фундаментальный вопрос 

статистики: 



  Игра слов. Генеральная совокупность в англ. терминологии — population («популяция»), совокупность всех 
объектов, относительно которых делаются выводы при изучении конкретной проблемы. Прим. ред.

* Игра слов. Генеральная совокупность в англ. терминологии — population («популяция»), совокупность всех 
объектов, относительно которых делаются выводы при изучении конкретной проблемы. Прим. ред.

11

Все проблемы 
статистики 

проистекают 
именно отсюда!

…ЧТОБЫ СДЕЛАТЬ ДОВЕРИТЕЛЬНОЕ 
СУЖДЕНИЕ ОБО ВСЕЙ ПОПУЛЯЦИИ 
О ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ?*



12

В первой части мы научимся
делать выборку…

…и изучать ее.

А затем, во второй части, мы научимся использовать выборку, чтобы
 получить качественные результаты 

для генеральной совокупности…

…используя процесс, который носит название 
«статистическое заключение».

Хм, как много 
рыбы.

Что же могут 
эти рыбешки…

…сказать нам 
о тех?



13

Черт!
У нас перекос!

Это 
ненормально!

Я на 95% уверен, 
что мы примерно 

так же сильно 
вас ненавидим.

А я на 3% уверена, 
что моя установка 
по производству 
ядов работает!

Таким образом 
мы сможем обработать 

большие объемы 
данных…

И в более общем смысле мы получим 
представление о том, что можно…

…высчитать 
доверительные 

интервалы…

…и проверить 
гипотезы.

…и что нельзя…
…делать с помощью 

статистики.Мы можем использовать 
статистику, чтобы 

делать доверительные 
предположения…

…но их никогда 
нельзя использовать 

как неоспоримый 
факт.

Если мы не поймаем 
всю рыбу…

…мы никогда не сможем узнать 
со всей определенностью, 

что же там творится внизу.



14

Например, что, черт возьми, 
означают все эти

формулы и символы?

Если же вам интересно узнать 
о деталях…

…то вы найдете их в приложении, 
которое называется 

«Математическая пещера».

В этой книге мы сфокусируемся 
на основных понятиях.

…и распределение 
выборки…

Таких, как стандартные 
отклонения…

…И дОСТОВернОСТЬ!

…и вероятности…



Часть первая  
СБОр  

СТАТИСТИЧеСКИх  
дАннЫх

Не подглядывать!



Глава 1  
ЧИСлА

А в этом углу боксер, 
который весит 

 0,193 тонны…

В этом углу ринга боксер,
который весит 

50,8 триллиона 
нанограммов…

…КАрлИК!
…ГИГАнТ!



18

Статистика нужна, чтобы измерить 
нашу уверенность в чем-либо.

Как мы узнали из предисловия, 
статистика — это не только 

цифры.

Как бы то ни было, статистика в действительности — 
это упорная борьба с цифрами…

….а это не всегда легко.

Эм…
Что-то я сейчас 
не очень уверен 

в себе.

На моем счету 
147 побед 

и всего 
17 поражений.

А я побеждаю 
в 89,6% 
случаев!

С кем бы вы 
хотели 

сразиться?

Доброе утро,
это оператор 3810448,  
чем я могу вам помочь? 



19

Некоторые числа говорят о чем-то 
хорошем… ..а некоторые — о плохом.

Некоторые числа большие…
…а некоторые маленькие.

Но некоторые большие числа 
описывают совсем маленькие вещи…

Но бывает и так, что какие-то 
положительные числа описывают  

 отрицательные вещи…

…и наоборот.

…и наоборот.

Но и это еще не все…

Мы выиграли, 
забив на два гола 

больше,
чем соперники!

Индекс Доу-Джонса 
упал на 423 пункта! 

Ужас! 

Безработица 
в прошлом месяце 

увеличилась на 4%.

Количество 
убийств в городе 

снизилось.

Каждый атом в 10-17 раз 
меньше глазного яблока.

В Солнечной системе  
всего одна

звезда.

В Техасе обитает 
более 500 млрд 

насекомых.

В вашем мозгу 1014 нервных
соединений!

То есть 100 000 000 000 000 
соединений!

То есть в 100 000 000 000 000 000 
раз!



20

Некоторые цифры выглядят 
пугающе…

…другие кажутся обнадеживающими.

…другие не о столь серьезных…

…и иногда сложно заметить разницу.

Некоторые говорят о серьезных 
достижениях…

Я слышал, 12,4% 
любителей газировки 
умирают ежедневно! 

Вирус оспы во всем 
мире уничтожен 

на 99,99%.

В вашем организме 
живет почти 

килограмм бактерий!

Если было продано 
более миллиарда 

гамбургеров…

И что это 
означает?

Наши вычисления 
доказали, 

что конец света 
наступит 

29 февраля 
2024 года!

…должно быть, 
они действительно 

вкусные!



21

Все эти факты позволяют 
с легкостью использовать числа…

…чтобы кого-нибудь обмануть.

Если вы 
наденете 

этот галстук…

А если я приведу
какие-нибудь цифры…

Но без них не было бы 
видеоигр…

К сожалению, это может 
вынудить людей относиться 

к цифрам с недоверием… …и не ценить их истинную 
силу.

Мне все равно, если 
выброс CO2 составит 

5,5 млрд тонн…

…и нельзя было бы 
ничего купить.

…это всего лишь 
цифры.

…все решат, 
что я умный.

…все будут думать, 
что вы человек 
влиятельный.



22

Решение 
проблемы в том…

Это первый урок нашей книги.

Как же тогда понять, 
что правда,
а что ложь? 

…чтобы относиться 
ко всем числам…

…с долей здорового скептицизма.

Пожалуй, возьму 
печеньку, 
но с долей 
здорового 

скептицизма.

Это печенье органическое на 100% 
и на 98,3% подходит веганам…

В статистике 
это верный подход!

Пусть это ощущение 
будет в радость!

И хорошо!

Что-то 
я сомневаюсь 

в этих цифрах.

Помогите! 

Некоторые цифры 
действительно 

отображают 
положение дел. Но нужно помнить, 

что бывает 
и неверная 

информация!

…независимо 
от того, большие 

они…

…а лактоово-показатель 
находится в пределах 

рекомендованной нормы.

…или и вовсе 
вгоняют в сон…

…или маленькие…

Хррр...



23

Эти цифры 
доказывают, 
что я прав!

А вот эти — что ты 
ошибаешься! 

Дальше мы узнаем, как инструменты 
статистического наблюдения помогают нам 

делать с помощью цифр прогнозы на будущее.

Скажу пока так:
у людей всегда есть причины 

жонглировать цифрами…

…и будет нелишним подумать, что это за причины.

Во Вселенной по меньшей 
мере 100 млрд черных дыр! 

…как же вы можете 
быть уверены

в этом? 

Я знаю, что вы не все 
из них видели своими 

глазами…

В 98% случаев 
это лекарство 

эффективно для людей 
с вашим заболеванием…

…которое 
в 14,8% случаев 
заканчивается 

летальным 
исходом. 

Зачем 
они говорят мне 

все это?



24

Не имеет значения,
уютно вам в мире цифр…

…или нет…

Цифра семь 
приводит меня 
в бешенство, 

доктор! 

…сталкиваясь с ними, вы должны
задать себе несколько вопросов.

Откуда они 
взялись? 

Кто приводит 
эти данные? 

И зачем? 

Я за 
интеграцию

!

Я заинтеграцию!



И сколько пива
нам придется

им поставить, 
чтобы они принялись 

за работу? 

Сколько рабочих 
потребуется, 

чтобы построить 
мой храм?

Глава 2  
СлУЧАйнЫе  

СЫрЫе дАннЫе



С момента сотворения мира…
…у людей есть потребность 

считать все, что их окружает.

Я ваш новый 
господин! 

И правда, самые ранние формы письменности были придуманы, 
чтобы вести математические подсчеты.

По мере развития 
цивилизации…

...появлялось множество вещей, 
которые нужно было считать.По моим подсчетам, 

твоя империя 
простирается 

до самого края Земли.
Отлично, тогда сколько 

бычьих хвостов
нам потребуется

приготовить
для вечеринки
в честь моего
дня рождения
на следующей

неделе? 

Откуда мне 
знать, хватит ли 
рогатого скота 
и зерна, чтобы 

прокормить моих 
людей?

...И достаточно ли 
у меня воинов, 

чтобы сражаться 
с недругами?

...с помощью 
вот таких 
небольших 
зарисовок.

Нужно вести учет 
всего этого...

Потому что он 
собственноручно 

задушил 
764 человека!

Утро доброе!

Но 
почему? 

Придумал!

26



Я поговорю 
с отдельными 

воинами…

Я знаю,
что делать! 

...и использую 
это знание, 

чтобы сделать 
предположения…

...обо всех 
остальных! 

Иногда невозможно подсчитать все, что мы хотим.

Но тут возникла новая проблема.

Назови мне точное 
число врагов, 

уничтоженных 
каждым из моих 

воинов? 

...и я не могу 
поговорить 

с ними со всеми! 

Ну, воинов у вас 
тьма тьмущая… 

Ну, это уже 
твоя проблема, 

не его! 

Вот поэтому когда-то давным-давно кому-то в голову пришла мысль о том, чтобы...

...исследовать выборку… ...и, изучив ее, сделать выводы 
о генеральной совокупности.

27



Использование выборки 
для описания генеральной 

совокупности — это умно... ...но есть несколько нюансов, 
о которых следует помнить, 
прежде чем браться за дело.Тот факт,

что мне известно 
не все...

...не означает, 
что я не знаю 

ничего! 

Именно поэтому статистика нужна 
для того, чтобы делать максимально 

точные предположения… ...а не быть абсолютно 
уверенным.

Во-первых, руководствуясь данными выборки, 
невозможно судить с абсолютной точностью 

обо всей совокупности.

Если вы хотите 
знать всю правду 
обо всех комарах…

Давайте-ка отсчитаем 
100 комаров…

Ничего нельзя
узнать наверняка, 

но, по крайней мере, 
вас не сожрут заживо! 

Отличный план.

...вам нужно 
посчитать 

и изучить всех 
комаров.

...и посмотрим, 
что мы узнаем 
благодаря им 

об остальных.

28



Во-вторых, если мы застопорились 
на единственной выборке...

...лучше убедиться, 
что мы собрали ее аккуратно!

Э-э-э...
А ты вымыл руки,

прежде чем 
трогать их? 

Я могу сделать 
выводы

обо всех кальмарах, 
живущих в океане…

...изучив 
только эти 
35 особей!

Вы оставили
свой кофе на весах.

А это вообще 
осьминог.

Чей это 
тут волос?

Допускается 
использовать
либо дюймы,

либо сантиметры,
но не то и другое вместе.

Потому что любая ошибка, 
допущенная нами при определении 

выборки… ...может кардинально 
исказить наши 

выводы о генеральной 
совокупности.

29



В наши дни данные получают
самыми разными способами...

...и это далеко не простая 
работа.

Это помогает 
сфокусироваться 

на деталях.

Добиваться точности измерений 
бывает особенно сложно, если речь 

идет о крупном… ...или мелком 
масштабе...

...или когда в процессе участвует
слишком много наблюдателей.

Длина этой дороги
1,64 метра.

Опрашивая

Подсчитывая
Взвешивая 
и замеряя

Пробуя 
на зуб

...чтобы
измерить тех 

драконов...

...и вот этих 
стрекоз.

Возьмите-ка 
линейку...

Совсем не так,
ее длина

107,9 метра!

30



Определение выборки также 
затруднительно в тех случаях, 

когда мы пытаемся понять,
о чем думают люди...

...или что они чувствуют…

...или выспросить у них то, 
о чем они, возможно, даже 

не хотят говорить...

...или когда люди преувеличивают.

Какой цвет более 
выигрышный: 
красный или 

зеленый? 

Я дальтоник.

Как сильно вы 
любите своих 

ближних? Да я их 
ненавижу! 

Сколько 
банков вы 
ограбили?

Зависит 
от того,

кто 
интересуется.

И ты ему 
поверил?

Этот воин
рассказывал мне, 

что своими руками 
прикончил 765 человек!

31



Возможно, основная сложность 
в формировании выборки...

...это понимание того, что именно следует в нее 
включить.

Мне предстоит 
опросить 

100 воинов! 
Но кого именно

я должен
выбрать?

Следите за тем, чтобы ваше 
мнение не было предвзятым… ...это может привести к искажению данных 

о генеральной 
совокупности.

Кому отдать предпочтение? 
Может, этим вежливым 

парням, которые постоянно 
сидят в кофейне...

Если вы опросите 
слишком много 

вежливых
воинов...

Если же вы 
опросите слишком 

много вояк 
грозного вида...

...вам может 
показаться, что 

армия — гораздо более 
приятное место, чем 

на самом деле! 

...вы решите, что 
в армии страшнее, 
чем на самом деле! 

...или тем 
устрашающего вида 

громилам
в спортзале? 

32



И положитесь 
на волю случая! 

Просто 
закройте глаза!

Не переживайте! 

В идеале хотелось бы собрать такие данные,
которые бы точно отражали генеральную совокупность.

Мне бы не хотелось 
выбрать 100 воинов, 
которые введут меня 

в заблуждение!

Это задание кажется мне просто 
невыполнимым...

Твоя проблема, 
не его! 

...на такой случай у статистиков припасен надежный способ.

Чтобы избежать предвзятого суждения, 
мы всегда делаем случайную выборку.

Но как же мне понять, 
насколько точно моя выборка 

отражает генеральную 
совокупность…

...если я даже не знаю, 
как эта генеральная 

совокупность 
выглядит?

33



Я не хочу включать в опрос 
воинов, спящих беспробудным 

сном в канаве...

ЗАБИрАйТеСЬ,
ПАрнИ! 

...или тех, 
от которых

плохо пахнет...

...или живущих 
в этом городе...

...и обойти 
всю империю…

...зажать 
нос…

Итак, мне нужно 
закрыть глаза...

...опрашивая воинов, 
с которыми меня 
сведет случай.

На практике нам нужно перебрать в уме все факторы, 
которые могут оказать влияние на нашу выборку…

...и проследить за тем,
чтобы это нам не помешало.

Давайте поместим 
всю армию целиком 

в этот шлем...

...и будем наугад 
вытаскивать 

по одному воину.

Это же 
как игра 

в «Бинго»!

делать случайную выборку — 
это простая идея…

...которая может на деле 
оказаться сложной.

34



ВСеМ 
нАдеТЬ 

ПОВЯЗКИ 
нА ГлАЗА!

Конечно, когда мы делаем случайную выборку...

...то по-прежнему не гарантируем, что она даст 
нам представление о генеральной совокупности 

с зеркальной точностью.

На самом деле любая 
случайная выборка… ...будет наверняка 

отличаться от генеральной 
совокупности в целом...

...равно как 
и от любой другой 
случайной выборки.

Я отобрал 
этих блох 

совершенно 
произвольно.

Вот вам 100 
случайно выбранных 

дикобразов. 

У этих ребят 
иголки длиннее...

...и это случайность.

А вот еще 
100 случайно 
выбранных 
дикобразов.

А вот и еще 
100 случайно 
выбранных 

блох.

Почему же случайная выборка так хорошо работает? 
Потому что мы можем взять для рассмотрения

как эту выборку…

...так и любую 
другую...

…и если уж они разные…

...это ТОлЬКО по воле случая.

Да эта собака 
вся покрыта 

блохами

35



Я провожу 
исследование всей 

рыбы, живущей 
в море…

...и мне нужно 
наугад выбрать 

экземпляры 
для исследования.

Остановлюсь, пожалуй, 
вот на этой рыбешке, 

оказавшейся здесь 
в этот момент.

Иногда стоит 
дойти до края 

Земли...
...или нырнуть 
на морское дно!

Если эти рыбешки 
окажутся выбранными 

не случайно...
...мы ничего 

не сможем сказать 
про остальных.

...но очень важно делать 
это правильно...

Делать случайную выборку 
довольно сложно...

...потому что случайная выборка* — ключ 
к любому статистическому наблюдению.

* См. стр. 214.36



Все инструменты, 
о которых мы узнаем 

из второй части, 
предполагают работу 

со случайной выборкой. Кладете свою 
случайную 

выборку сюда...

Но если ваша 
выборка 

не случайна…

...единственное, 
что вы получите 

на выходе, 
будет 

тарабарщина 
с кучей умных 

слов!

...и получаете 
доверительный 

интервал!

...разравниваете 
все 

шероховатости...

У меня сложилось бы 
неверное представление 

об армии...

Но случайные выборки представляют собой 
существенную часть статистической системы, 

о которой мы узнаем позже.

В этой главе мы узнали, как случайная выборка 
способна помочь нам избежать необъективности.

...если бы я опрашивал 
только тех воинов, 

которые не собирались 
меня убить.

37



Собранные наблюдения 
называются

сырыми данными.

Со времен сотворения мира количество сырых 
данных все увеличивается...

...и увеличивается...

...и увеличивается...

Теперь все, 
что от нас 
требуется,

это 
приготовить 

их!

Извините, 
но Александрийская 

библиотека уже 
переполнена...

Как думаете, 
может, у нас есть 
что-нибудь еще, 

на чем можно 
писать? 

У нас есть
Google!

...и увеличивается...

Теперь
у нас есть
не просто 
Google...

...но цель, которую ставит
себе статистика, остается прежней.

Взглянув 
на случайную 

выборку...

...мы сможем выдвинуть
предположения

о генеральной совокупности,
которую

она представляет.

...у нас есть 
Google 

в квадрате! 

...так давайте 
сожжем 

ее и начнем 
все заново! 

38



Вот тут у нас 
50 случайно 
отобранных 
носорогов…

Глава 3  
рАнжИрОВАнИе



Где вы 
родились?

Вы пользуетесь 
дезодорантом?

Что вы 
любите 
есть?

Сколько 
вы спите?

Как часто вы 
принимаете 

ванну?

Что же 
вы хотите 

узнать о нас?

Итак…

Иногда нам интересно узнать 
что-нибудь об особенностях 

опрашиваемых или составить 
классификацию…

…и иногда хочется скорее 
сформулировать вопросы, 

на которые мы можем 
ответить с помощью 

полученных цифр.

Какова толщина 
вашей шкуры?

Мы готовы потратить время и силы 
на случайную выборку…

…только когда нам любопытно узнать что-нибудь 
о генеральной совокупности, которую она представляет.

40



Нам важно различать типы вопросов, 
потому что от этого зависит…

…получим ли мы 
категорийные данные… …или числовые данные…

Какую обувь
вы предпочитаете? Обувь какого 

размера
вы носите?

У вас 
37 размер.

Ох, милый, я люблю 
туфли-лодочки 

на каблуках,
и только их.

Я предпочитаю 
сапоги. А мне 

по душе 
шлепанцы.

А у меня 38,5!

40.

…и эти два вида данных нельзя смешивать.

Они как
вода и масло.

41



Независимую.Либертарианскую. Коммунистическую.
Республиканскую.

…когда изучаем то, что можно описать только словами…

…или когда можно получить 
утвердительный/отрицательный ответ.

…или разделить 
на кусочки…

Мы собираем категорийные данные…

За какую 
партию 

вы голосовали?

Какого 
цвета ваша 

кожа?

Я полосатый.
Я в крапинку. Цвета охры. Персикового.

Вы считаете себя 
красивым?

Да.
Да. Да, я 

полагаю.
Да вы что, 
смеетесь 

надо мной?

Большинство 
опрошенных 

носорогов настроены 
оптимистично!

Большинство 
опрошенных носорогов 
предпочитают камням 

чертополох!

Хорошо бы 
добавить 
кетчупа.

К
о

ли
ч
е
ст

в
о

 н
о

со
р

о
го

в

Вкусовые предпочтения

Собрав категорийные данные, 
мы можем сложить их стопочкой…

…чтобы можно было получить представление 
о соотношении в нашей выборке.

42



10,3

43,3 53,5

2,9 829,1 

6,4

16,9 

37,2

Сколько вам 
лет в годах?

насколько 
село ваше 
зрение?

20/80 20/400
20/900 20/2,400

Мы собираем числовые данные…

Какова длина 
вашего рога 

в сантиметрах?

Как мы увидим во второй части книги, благодаря всем
этим показателям числовые данные оказываются

в целом гораздо более полезными.

…когда изучаем параметры, которые можно сравнить,
используя числа.

Положите свои 
случайные числа 

сюда… …и получите 
р-значение!

…осторожно 
закройте этой 

штучкой…

43



Главное различие между двумя 
этими видами данных…

Какой цвет 
в среднем самый 

популярный в твоей 
выборке?

Какова
средняя длина 

в твоей выборке?

…заключается в том, 
что мы не можем подсчитать 

категорийные данные…

…но можем подсчитать 
числовые!

Ну, я бы сказал, 
серо-буро-
малиновый 
в крапинку.

0,004 метра!

Не все 
данные 

создаются 
одинаково.

Обожаю, когда ты 
говоришь со мной 

сухим языком 
чисел.

КАрАУл!

Стандартное 
отклонение равно 
сигме, поделенной 
на квадратный 

корень из n!

Стандартное 
отклонение равно 
сигме, поделенной 
на квадратный 

корень из n!

Этот факт превращает в глазах статистиков числовые 
данные в нечто захватывающее…

…и кажется чем-то страшным обычным людям.

44



Хорошо это или плохо, 
но большинство из нас 

не так уж хорошо способны 
обрабатывать большое 

количество сырых данных.

…мы рисуем картинку, 
где отображаем их все.

Поэтому первое, что мы делаем, собрав большое 
количество числовых данных…

После того,
как вы введете

примерно семь цифр…

…обрушивается 
вся система и требуется 

перезагрузка.

Даже не переживайте, 
если единственное, что 

у вас хорошо получается, 
это приклеивать рисунки.

Вот 50 случайно 
отобранных 
носорогов…

…измерим обхват 
талии каждого.

У меня
талия 290 см.

Эй, может,
хватит

налегать 
на чертополох?

У меня
333.

314

313

328

319

319

314
329

318

308

292

311
323

305

308

309

312

306

306

309309

301

324

301

312

308

317

303

325

324

295
293

297

297

291

298
291

265

294

364

343

313

301 291 288

324

309

341

341

45



280270 290 310 320 330 350 360 370340300Обхват талии 
(в см)

Самое простое отображение 
числовых данных называется 

гистограмма.

Это те числа,
которые расположены 

на горизонтальной 
оси между самыми 

маленькими…
…и самыми 
большими 
объемами, 
которые 

мы замерили.

Каждый носорог 
соответствует 
одному ящику.

Гистограмма 
похожа 

на огромную 
башню 

из ящиков.

Талия у этой
дамы-носорога 343 

см…

Значит, 
ей место

вот здесь…

Чтобы получить 
гистограмму нашей 

выборки… …нарисуем числовую ось.

265 364

Сверху указываем наши данные…

…показатель 
за показателем.

5
6

7
9

1
0

8
4
 

К
о
ли

ч
е
ст

в
о
 н

о
со

р
о
го

в

280270 290 310 320 330 350 360 370340300Обхват талии 
(в см)

46



Чтобы создать 
боксплот для нашей 

выборки… …сначала снова рисуем числовую ось…

265

265

364

364312

И с помощью этих 
планок определяем 

минимальные… …средние…
…и максимальные 

индивидуальные значения.

Другой вариант визуализации 
числовых данных 

представляет собой
коробчатый график/

боксплот.

Я самый 
миниатюрный 

во всей 
выборке.

У меня самые 
внушительные 

размеры 
во всей 

выборке.

Это я! Это я! Это я!

Благодаря этому ящику 
мы можем понять, 
где сосредоточена 
основная часть 

данных.

…но на этот раз помещаем 
промежуточные 50%
нашей выборки в один 

большой ящик.

280270 290 310 320 330 350 360 370340300Обхват талии 
(в см)

280270 290 310 320 330 350 360 370340300Обхват талии 
(в см)

47



Как правило, гистограммы составляют,
когда нужно увидеть полную картину

на основе всех наших данных…

Это напоминает 
горный хребет.

Мы можем 
использовать его, 

чтобы исследовать 
вершины…

…и 
долины.

…и выверенных 
деталей.

…показывает, что один из носорогов 
намного носорожистей остальных.

Вот, например, гистограмма, отображающая 
длину рога…

К
о
ли

ч
е
ст

в
о
 н

о
со

р
о
го

в

100 20 40 50 60 80 90 1007030длина рога 
(в см)

У 49 из нас длина 
рога колеблется 
от 5 до 55 см.

…а у меня 97 см!

48



…и понимаем, к каким выводам они нас приведут.

...или если мы хотим сравнить 
разные выборки или группы.

Это все равно что 
смотреть на наши 
данные из космоса.

Сравнивая
эту выборку…

…с той…

…мы видим,
что у нижней 
в целом более 

крупные величины.

…чем в этой

Странно, 
большая часть 

этих данных 
сдвинута влево… …а этот 

огромный кусок — 
вправо.

В этой выборке 
данные 

группируются 
гораздо плотнее…

С другой стороны, боксплоты могут быть 
особенно полезны, если необходимо сделать 

поверхностный обзор данных…

Благодаря боксплотам — «ящикам с усами» — мы быстро получаем 
представление о том, как данные собираются воедино…

Боксплот — это 
компактная версия 

гистограммы.

49



Все дело в том, что первое, что мы 
всегда должны делать с собранными 

данными, это просматривать их.

Вас может удивить тот факт, 
что статистики рисуют какие-то 

картинки.

Потому что, хотя нас могут 
привлекать более изощренные 

математические инструменты…

Вы удивитесь,
как часто люди 

об этом забывают.

Прежде чем ты выдашь 
на-гора солидно 

звучащие цифры…

Всему, что вам 
действительно 
нужно знать, 
вы научились 

в детском саду.
По-вашему, я могу 

сделать доверительное 
суждение о генеральной 

совокупности…

Эй, приятель, не интересует 
непараметрический 

иерархический алгоритм 
Байеса?

…именно простые картинки будут фокусировать 
наше внимание на той информации, которую 

на самом деле несут собранные данные.

…опираясь 
только 

вот на эту 
мазню?

Одна гистограмма 
стоит тысячи 

Р-значений.
…нарисуй 
картинку!

50



Мило, конечно, 
но что это 
означает?

Глава 4  
деТеКТИВнАЯ рАБОТА



Но первым делом нам придется
научиться выполнять самую

простую детективную работу.

...и я смогу
со всей уверенностью 

рассказать
обо всех суперзлодеях…

...всех-всех 
суперзлодеях 

в мире!

Дайте-ка мне 
группу случайно 

выбранных 
суперзлодеев...

Анализировать данные все равно что 
разгадывать тайну.

Это был
профессор Плам...

...с канделябром...

...в гостиной…

...где с ним 
случился приступ 

гнева, когда он 
пытался изучить 

статистику!

...и восстановление на их основе 
истории генеральной совокупности.

Наша главная цель — сбор улик
по одной случайной выборке...

52



В этой гистограмме 
представлены 64 случайно 
отобранных суперзлодея, 

отсортированных 
по возрасту.

Какие тайны скрывает 
этот холмик?

Давай-ка поищем 
какие-нибудь 

подсказки.

...и мы посвятим эту главу их изучению.

0

К
о
ли

ч
е
ст

в
о
 с

у
п
е
р
зл

о
д
е
е
в

Возраст 10 20 30 40 50 60 70 80 90 100

Когда мы только приступаем к анализу 
любых данных...

...мы всегда обращаем внимание
на четыре основные характеристики…

Как они 
выглядят?

Итак, сколько 
у нас тут 
данных?

Где именно 
это находится? Насколько он велик?

рАСПОлОженИе рАЗМАх ВАрИАЦИйФОрМАОБЪеМ ВЫБОрКИ

53



ОБЪеМ ВЫБОрКИ

Сколько же 
здесь данных?

ОБЪеМ ВЫБОрКИ* — первое, что нужно установить, 
когда приступаешь к анализу данных...

...и довольно просто понять, почему это так важно.

Если бы ваша 
выборка состояла 

из совсем небольшого 
количества злодеев…

Вот нас, 
например, 

всего пять!
Извините, но эта ваша 

картинка с данными 
не очень-то мне 

помогает.

...вы бы не смогли 
сделать никаких 

выводов о генеральной 
совокупности.

Итак, сколько 
суперзлодеев 
мы отобрали 
случайным 
образом?

64

* См. стр. 214.54



И смотрите за тем, 
чтобы случайно 

отобранных злодеев 
было не слишком много, 

Ватсон!

...но если мы 
соберем больше 

случайных 
данных...

Имея на руках всего 
несколько объектов 

исследования, 
мы не сможем 

увидеть многое…

Как мы узнаем чуть позже, размер выборки напрямую связан 
с уровнем достоверности, с которой мы можем судить 

о генеральной совокупности.

...но у нас больше 
не осталось 
наручников.

К сожалению, на практике объем выборки всегда чем-нибудь ограничен.

Как правило, выборка большего размера 
оказывается полезнее!

Я был бы рад найти 
еще кого-нибудь, 

Холмс...

размер имеет 
значение!

Если мы добавим 
еще немного 

случайно 
отобранных 
объектов...

...мы получим 
бо́льшую 

достоверность!

...наша 
гистограмма 

станет 
гораздо более 

информативной!

55



Извините, миссис 
Джонс, но ваши данные 

не совсем обычны.

Ваша гистограмма 
похожа 

на верблюда...
...должно быть, 

на это есть 
свои скрытые 

причины.

Осторожно!

Форма каждой 
выборки 

уникальна...
...как 

отпечаток 
пальца!

ФОрМА

Момент, когда кто-то понимает, какая форма 
у выборки, может быть весьма захватывающим...

...потому что какой бы ни была ваша гистограмма,
 она всегда имеет такую форму по какой-то причине.

56



...либо и правда 
попадут в цель.

Пытаюсь 
запустить в жену 

ящерицей...

...и целюсь я 
гораздо лучше, 

чем он...

...поэтому есть 
вероятность,

что его ящерки
либо не долетят... ...либо просвистят 

надо мной...

расстояние, которое пролетела каждая ящерица

Например, мы называем распределение равномерным,
если все исходы одинаково вероятны.

...но я неважно 
целюсь...

Мы называем распределение данных нормальным,
когда есть нечто превалирующее, что заставляет факты 

группироваться вокруг одного конкретного значения.

...и только 
некоторые, 
возможно, 

не долетят...  

...или перелетят.

...поэтому вероятность того, 
что ее ящерки попадут 
в цель, гораздо выше…Я пытаюсь 

запустить 
ящерицей в мужа...

К
о
ли

ч
е
ст

в
о
 я

щ
е
р
и
ц

К
о
ли

ч
е
ст

в
о
 я

щ
е
р
и
ц

расстояние, которое пролетела каждая ящерица

Мы называем распределение смещенным,
когда по какой-либо причине в одной части
находится больше данных, чем в другой.

У меня хороший глазомер, 
но когда я бросаю 

протухшую рыбу…

...она, бывает, 
выскальзывает 

из руки при замахе.

Из-за этого 
многие 

рыбешки чаще 
не долетают 

до цели...
...чем перелетают.

К
о
ли

ч
е
ст

в
о
 р

ы
б
е
ш

е
к

расстояние, которое пролетела каждая рыбешка

57



Где же находится 
вся информация?

Под расположением понимают место скопления
наибольшего количества данных на оси.

У каждого 
пирата от нуля 

до двух глаз.

...превратит вас 
в коротышку!

Регулярное 
употребление 

моего волшебного 
запатентованного 

тоника...

К бою!

Ого, а звезды-то 
в нашей галактике 

старые!

Эльфов мы, огры, 
кидаем...

эльфы

гномы

рАСПОлОженИе

Изменение роста
(в см)

Количество глаз

Возраст в годах

расстояние 
в метрах

-20

2 x 109 4 x 109 6 x 109 8 x 109

5

0

-10

10

0

15

21

20

Данные могут группироваться вокруг отрицательных значений...

...или маленьких 
значений...

...или по-настоящему 
больших значений.

На практике статистиков часто интересует сравнение расположения 
разных множеств данных.

...дальше, 
чем гномов.

58



Дать слову «расположение» словесное определение 
может оказаться делом нетривиальным...

...поэтому часто для описания информации мы используем 
одно значение — среднее*.

Чтобы подсчитать среднее значение, 
мы просто складываем все данные...

Но даже притом, что среднее значение информативно и точно 
как средство измерения расположения, оно не идеально.

...и потом делим их на количество данных 
в совокупности.

Это место, 
где скапливается

вся
информация!

Что-то вроде 
кляксы?

Все равно 
как-то 

размыто...

…можно 
немного 

подробнее?

Это среднее 
значение.

Ах, вот оно что!

Получив это значение, 
остановитесь: 

вы у цели!

Ух ты!
В среднем 

каждый из нас 
очень богат!

Тогда как же так 
получается, что одноглазый 
Джек не может позволить 
себе искусственный глаз?

Таким образом, 
средний доход 

пиратов на этом 
корабле составляет 
120 дублонов в год!

Общее количество 
дублонов составляет 

6000…

Эй, пираты, ну-ка
сложите все заработанное 

вами за год в это ведро!

...а пиратов 
у нас 50.

Черт!

* Оно еще называется 
«среднее арифметическое».
Чтобы узнать, как оно 
высчитывается, откройте 
стр. 214.

59



Среднее значение 
получилось таким 

большим только потому, 
что у нас на борту 

Зеленая Борода.

К сожалению, среднее значение 
может быть обманчиво.

...то среднее значение может
сильно вводить в заблуждение.

Но тот факт, 
что наш средний 
доход составляет 
120 дублонов...

...не означает, 
что большинство 
из нас настоящие 

богачи!

В случае смещенного распределения наиболее показательной будет медиана…

Медиана — 
это значение, 

находящееся ровно 
посередине!

То есть по обе стороны
от этого числа 

расположено
одинаковое количество

показателей.

Это хорошо 
видно на примере 

боксплота.

А я представляю собой 
среднее значение.Я — медиана.

Я зарабатываю 
72 дублона в год.

Я зарабатываю 
120!

Я зарабатываю 500… 
Йо-хо-хо!

Именно из-за меня 
показатели этих 
двоих так сильно 

разнятся.

Большинство 
пиратов 

на корабле...

...зарабатывают 
намного меньше, 

чем каждый пират 
в среднем.

доход

доход

К
о
ли

ч
е
ст

в
о
 п

и
р
а
т

о
в

0

0

100

100

200

200

300

300

400

400

500

500

Например, если распределение смещено...
м
е
д
и
а
н
а
 =

 7
2

...потому что благодаря этому мы лучше понимаем 
«типичное» значение.

Средн.

60



...и размах вариаций,
о чем мы поговорим дальше.

Сумма всех 
измерений…

И все!

Поэтому, когда некоторые с важным видом бросаются 
средними значениями...

...важно помнить, что эти показатели отображают 
всего лишь один факт из всего множества данных.

...пират 
зарабатывает 
120 дублонов...

...и выпивает 
82,9 литра грога 

каждый год.

Приму эту информацию 
с долей здорового 

скептицизма.

В среднем 
у пирата 
1,28 глаза.

Но, Ватсон, 
из-за того, что 

эта группа злодеев 
ничего не понимает 

в математике...

Поглядите-ка, Холмс, 
средний злодей из нашей 

выборки получил 
510 баллов на экзамене 

по математике!

...никто из них не оказался 
на гистограмме рядом 

со средним показателем.

...а эта решает 
задачки 

с легкостью...

...поделенная 
на количество 

измерений.

6,000

50

Балл по математике

К
о
ли

ч
е
ст

в
о
 с

у
п
е
р
зл

о
д
е
е
в

400 600 800

Это одна из причин, по которой 
никогда нельзя рассматривать 

расположение множества данных…

...не принимая во внимание 
еще и форму...

Сред.

61



Какова 
ширина?

Эта выборка 
соленых огурцов 

шире…

В этой выборке 
больше вариантов…

...чем эта.

...чем в этой.

рАЗМАх ВАрИАЦИй

длина длина

К
о
ли

ч
е
ст

в
о
 о

гу
р
ц
о
в

50 см 50 см100 см 100 см

Размах вариаций — это показатель распространенности данных...

...но это также и мера разнообразия вариантов.

62



Шире размах 
вариаций — больше 

вариантов!

Каждый нос длиной 
0,23 см.

Скукотища!

Например, если мы возьмем выборку из 10 носов, копированных на компьютере…

...а значит, и размаха 
вариаций.

Но если мы рассмотрим выборку из 10 носов, нарисованных от руки...

...а следовательно, и размах вариаций. Эти носы, нарисованные от руки, представляют 
собой линейку от 0,1 см…

...до 16,98 см.

длина

длина 
(в см)

К
о
ли

ч
е
ст

в
о
 н

о
со

в
К
о
ли

ч
е
ст

в
о
 н

о
со

в

0 cm

0

1 cm

1

10 cm

10

20 cm

20

...мы не увидим никакого разнообразия...

...то увидим большое разнообразие...

63



...над медианой 
они имеют 

больший размах.

Эти два «куска» 
в середине 

называются 
«межквартильным 

размахом».

В каждой 
части будет 
одинаковое 

число данных.

В этом 
случае 

16.

...вот интересно, 
как будет 

выглядеть общая 
картина, если 
джимми Чудак 

сыграет в ящик?

0

...и это особенно важно, когда мы исследуем смещенные 
данные.

Под медианой числа 
идут довольно 

плотно...

Похоже, перевес 
в нашей выборке 

злодеев на стороне 
стариков, Ватсон...

И
т

о
го

в
о
е
 к

о
ли

ч
е
ст

в
о
 з

ло
д
е
е
в

Возраст 10 20 30 40 50 60 70 80 90

Надежный способ измерить размах вариаций — взять весь диапазон...

размах вариаций

Я не жилец.

...и поделить его на четыре части.

...который представляет собой разницу между 
максимальным и минимальным показателями…

Это дает нам представление о разнообразии в рамках каждой отдельной 
части общей выборки…

64



«Стандартное» 
означает 

«типичное»…

Если мы примем 
за среднее значение 

центральный 
показатель...

СО видно лучше 
всего, когда 
множество 

данных довольно 
симметрично.

Например это, 
которое описывает 

наш рост.

...в основе стандартного 
отклонения будет лежать 

среднее расстояние 
от этого показателя.

К сожалению, высчитать 
стандартное отклонение 

довольно непросто.

Берем квадратный корень 
из всех квадратов разностей 
между элементами выборки 
и средним арифметическим 

значением!

...отклонение 
означает 
«разницу»!

ААААААА!

Пока запомните, что у большего 
множества и стандартное 
отклонение будет больше.

А чем больше 
стандартное 
отклонение...

...тем больше 
вариантов!

К
о
ли

ч
е
ст

в
о
 с

у
п
е
р
зл

о
д
е
е
в

рост (в см) 140 160 180 200

Наиболее распространенная мера размаха 
вариаций — стандартное отклонение (СО)*.

* Чтобы научиться высчитывать его, загляните на стр. 215.

стандартное 
отклонение

Среднее 
значение

СО

Среднее 
значение

65



В этой главе мы узнали о четырех важных характеристиках, 
которые изучаются в любой выборке...

...форма…

Отлично, и каковы же 
ее объем...

Ну хорошо, 
вот у нас есть 
произвольная 

выборка рыбы!

У генеральной 
совокупности тоже 
есть объем, форма, 

расположение 
и размах вариаций...

...просто 
вы никогда 

не определите 
их со всей 

точностью!

...расположение...
...и размах вариаций?

...вскоре мы начнем охоту за этими 
самыми характеристиками 

в генеральной совокупности.

Но сначала давайте применим на деле то, чему мы уже научились, 
чтобы разрешить спор!

66



Осторожно!никомуне известные переменные!

Глава 5  
СТрАШнЫе ОШИБКИ



Чаще всего, когда 
мы отправляемся 

собирать данные…

...мы хотим узнать что-нибудь важное об устройстве этого мира.

Давайте осмотрим 
100 случайно 
выбранных 

жителей и сделаем 
предположение.

Давайте осмотрим 
100 случайно 
отобранных 

вампиров и сделаем 
предположение.

Некоторые вопросы довольно просты...

У скольких людей 
в этой стране 

диагностирован 
диабет?

У вампиров 
плохо пахнет 

изо рта?

Когда они 
кусают 
больных 

диабетом...

...у них 
по-прежнему 
плохо пахнет 

изо рта?

Когда эти горы 
выступили 
из моря?

Сколько 
людей было 
обезглавлено 

за время 
правления короля 

Генриха VIII?

Я буду нравиться 
девчонкам, 
если начну 
носить эти 

штаны?

...и ответить на них можно, просто посмотрев  
на один набор выборочных данных.

Но другие вопросы кажутся неоднозначными...

...и требуют более комплексного анализа.

68



Более сложные статистические проблемы зачастую 
подразумевают изучение взаимосвязей...

А если мазать спину 
противовоспалительным 

стероидным кремом 
с миндалем...

...это окажет 
воздействие 

на умственные 
способности?

А если 
выпить слюну 
гиппопотама...

Эти две 
вещи вообще 

связаны?

...получится 
избавиться 

от 
плешивости?

А если я буду 
носить на голове 

магнит…

...людей будет 
тянуть 
ко мне?

...и другой....между одной переменной…

Мы тратим много времени на то, 
чтобы определить, как сильно одна 

переменная влияет на другую… ...но помните, статистика не может быть 
абсолютным доказательством ни одного из наших 

выводов.Употребление 
в пищу большого 

количества 
моркови... ...придает коже желтый 

оттенок?
...поэтому лучше 

предложить 
их 100 случайно 
отобранным 
школьникам.

Чтобы это проверить, 
вам придется скормить 

огромное количество 
моркови каждому жителю 

нашей планеты…

69



В былые времена только викинги мужского пола 
объезжали драконов.

Но в последнее время на них стали летать 
и женщины-викинги…

…и они убеждены, что летают быстрее!

Йууухуууу!

Йееехууууу!

Это так и есть, 
даже не спорь, 

ты, шовинистская 
свинья!

В этой главе 
мы собираемся 

исследовать взаимосвязи 
двух разных 

переменных…*

если бы я был 
женщиной…

...был бы я более 
проворным 
наездником?

...и разрешить-таки спор.

* См. стр. 215.70



...судьи-викинги собрали кое-какие данные.

Чтобы понять, оказывает ли 
пол...

...значительное влияние 
на скорость...

Они сделали выборку 
из 50 случайно отобранных 

наездников...
...и 50 наездниц...

Мы выбрали их 
произвольно, 

чтобы 
результаты 

не сместились...
...из-за того 

что мы взяли 
самых быстрых 

наездников…

...или самых 
медленных.

...и засекли время, за которое они преодолеют километр.

Пусть победят 
самые быстрые 

наездники!

Итак, наша 
первая 

переменная. И наша вторая 
переменная.

Победа 
за нами!

да вы 
проиграете!

71



В среднем 
наездницы 
оказались 
быстрее!

Чуть позже мы узнаем, 
что эти выборочные 

данные говорят 
обо всей изучаемой 

совокупности…
...а пока 

сконцентрируемся 
на самих 

выборочных 
данных.

Из этого набора сырых данных мы легко можем высчитать 
два средних значения...

Вот результаты 50 выбранных 
наугад мужчин-наездников...

...и 50 случайно 
отобранных наездниц.

...и сравнить их.

Сложите все 
показатели мужчин…

...и разделите 
на 50.

В среднем 
наездникам 

понадобилось 
6,3 секунды.

Сложите все 
показатели женщин...

...и разделите 
на 50.

В среднем 
наездницам 

понадобилось 
5,6 секунды.

Время 
в секундах.

6,7 7,5 6,87,94,5

7,6 6,27,7 7,34,8

6,3 8,4 6,7 8,0 1,7

7,2 5,5 5,54,93,5

7,36,8 7,7 8,22,9

8,2 6,8 5,6 6,34,4

7,6 6,2 7,5 7,2 4,6

6,9 7,16,9 7,93,3

7,9 6,27,5 5,33,7

6,8 4,9 7,57,42,5

4,7 6,5 6,3 6,96,8

3,6 6,6 5,0 6,1 7,7

4,4 6,2 4,6 4,58,6

5,1 4,9 4,3 4,56,6

5,4 3,2 5,33,38,7

5,44,0 4,2 5,56,9

4,35,3 4,6 5,08,2

5,1 3,7 6,4 6,3 9,1

4,9 5,1 5,55,79,2

4,9 4,94,3 6,67,6

72



Наше выборочное 
среднее значение 

выше вашего!

Помимо этого, нужно 
еще смотреть 

на форму, 
расположение 

и размах вариаций.

Но мы пока разобрали только одну составляющую общей картины.

Чтобы получить более точное представление 
о данных, нам необходимо нарисовать картинки.

Благодаря этому сравнению 
конфликт, кажется, исчерпан.

Остерегайтесь 
поспешно найденных 
средних показателей!

Подойдите 
поближе и давайте 

посмотрим, о чем нам 
говорят эти цифры.

73



Это было вполне предсказуемо, 
что картинки получатся разные…

Обе группы 
смещены?

...в разные стороны?

Но почему же 
гистограммы обеих 
групп смещены...

...если мы сравним боксплот 
с показателями мужчин…

...с аналогичным исследованием 
женских показателей.

Секунды

Секунды

21

21

3

3

5

5

6

6

7

7

9

9

10

10

8

8

4 

4 

Мы затратили меньше 
времени на прохождение 

дистанции...

Так вышло, что 
в целом мы преодолели 

расстояние медленнее…

...зато у нас 
больше вариаций 

по скорости, которые 
видны на более 

быстрой
стороне!

м
е
д

и
а

н
а

м
е
д

и
а

н
а

...но у нас получилось 
больше вариаций 

на более медленной 
стороне!

Предполагаю, 
что это 
проделки 
злых сил!

74



К
о
ли

ч
е
ст

в
о

5
1
0

1
5

Кажется, у обеих 
групп по две высших 

точки!

Секунды 21 3 5 6 7 9 1084 

...и на женские показатели.

У этой группы есть 
небольшой пик вот здесь, 
на «быстрой» стороне...

...и всего один 
маленький здесь, 
на «медленной»…

...этому 
должно быть 

какое-то 
объяснение!

И наоборот, на этой 
гистограмме просматривается 

один большой пик 
на «быстрой»

стороне...

...и один пик здесь, 
на «медленной» 

стороне.

Мы называем такой 
тип двугорбой, или 

бимодальной, кривой.

Это только доказывает, 
что соотношение двух наших 

переменных 
может на деле оказаться 

не таким простым, 
как мы думали! ...тогда почему 

на обеих гистограммах 
есть смещения 

и присутствует 
мистическая 
двугорбость?

Помните, какими 
бы ни получились 

гистограммы по вашим 
данным, на то всегда есть 

причина.

И мистика только 
усиливается...

Если тот факт, 
что ты женщина, 

...заставляет тебя 
летать быстрее...

К
о
ли

ч
е
ст

в
о

5
1
0

1
5

Секунды 21 3 5 6 7 9 1084 

....если посмотреть 
на гистограммы с мужскими 

показателями...

75



Теперь основная задача в том, 
чтобы понять, 

почему данные 
выглядят именно так...

...мы можем выяснить это, поискав другие переменные, которые 
могут оказывать влияние.

Выясняется, что пока мы концентрируемся
на половой принадлежности участников и скорости…

...мы совершенно забываем о драконах!

Сдается мне, 
мы упускаем что-то 

важное.

Эй, мы и есть 
ваша третья 
переменная!

Смещения и двойные 
пики?

Что же 
еще может 

сказываться 
на скорости 
наездников?

Может, все дело 
в том, сколько 

наездники весят...

Может, что-то, 
связанное 

с дистанцией?

Может, конечно, 
но я что-то 
сомневаюсь.

Может, конечно, 
но я сомневаюсь…

...или во что 
они одеты?

Помнишь, 
мы же 

выбирали их 
наугад.

...потому что это 
что-то влияет 

одинаково на обе 
группы наездников.

76



Мы не летаем 
на таких 

тщедушных 
драконах!

Да и пожалуйста!

Зато они 
быстрее.

6,7 7,5 6,87,94,5

7,6 6,27,7 7,34,8

6,3 8,4 6,7 8,0 1,7

7,2 5,5 5,54,93,5

7,36,8 7,7 8,22,9

8,2 6,8 5,6 6,34,4

7,6 6,2 7,5 7,2 4,6

6,9 7,16,9 7,93,3

7,9 6,27,5 5,33,7

6,8 4,9 7,57,42,5

4,7 6,5 6,3 6,96,8

3,6 6,6 5,0 6,1 7,7

4,4 6,2 4,6 4,58,6

5,1 4,9 4,3 4,56,6

5,4 3,2 5,33,38,7

5,44,0 4,2 5,56,9

4,35,3 4,6 5,08,2

5,1 3,7 6,4 6,3 9,1

4,9 5,1 5,55,79,2

4,9 4,94,3 6,67,6

...и мужчины-наездники, как правило, 
предпочитают драконов покрупнее, которые 

оказываются менее расторопными...

Дело в том, что драконы бывают двух видов…

...в то время как дамы отдают 
предпочтение драконам поменьше, 

но пошустрее!

В нашей группе 
80% выбрали 

более медленных 
драконов!

А у нас 80% 
выбрали 
быстрых 
драконов!

Можно выбрать 
большого, крепкого 

норовистого 
громилу…

...а можно
проворного,

ловкого,
маневренного

крошку.

Получается, неудивительно, что наездницы в целом оказались быстрее.

77



...то при подсчете среднего 
времени для обоих типов 
наездников и драконов...

...мы получим весьма 
неожиданные результаты.

Выходит, что наше
первое заключение...

...оказалось не просто обманчивым…

...а в корне неверным!

Если мы примем во внимание 
тот факт, что наездники 

разного пола предпочитают 
неодинаковых драконов...

Ну да, я люблю 
драконов 
побольше, 
ты что-то 

имеешь против?

крупные 
драконы

миниатюрные 
драконы

3,6 6,9

7,95,1

н
а
е
зд

н
и
ц
ы

н
а
е
зд

н
и
к
и

Мы изучили 
сырые данные 

и нашли средние 
показатели этих 
характеристик.

Мужчины-наездники 
оказались быстрее 

независимо 
от типа дракона!

В целом вы, 
конечно, 

можете быть 
быстрее…

...но если 
мы примем 

во внимание, что 
драконы бывают 

совершенно 
разными…

...окажется, 
что быстрее 

мужчины!

Мы думали, что 
наездницы были 

быстрее…

...а на самом деле 
мы просто выбрали 

более быстрых 
драконов!

78



Пока мы были заняты изучением 
связи двух переменных... ...мы совсем забыли 

о возможной третьей 
переменной, которая 
все это время была 
где-то поблизости...

А пол 
наездника... ...влияет 

на скорость?

...и которая в результате сделала несостоятельными 
все наши заключения.

К сожалению, скрытые переменные могут внести 
неразбериху в любой статистический анализ…

Мой совет: 
не забывайте 
про драконов.

...и одна из обязанностей статистика 
как раз и заключается в поиске таких переменных.

Во Вселенной 
полно 

переменных!

О некоторых 
нам известно… ...но есть и такие, 

о которых мы 
не догадываемся.

79



...всякий раз, когда 
нам кажется, что мы 
нащупали связь между 
двумя переменными…

Мораль этой истории 
заключается в том, что.…

...может статься, что есть и другие 
факторы, оказывающие влияние 

на наши заключения…

Будьте 
бдительны 
и помните 

про скрытые 
переменные!

...Если только дело 
не в никудышном 
обеде, который 

на самом деле 
может подпортить 

настроение!

...Если 
только они 
не приходят 

в этот 
мир иными 
способами.

...Если только 
при этом не 

будешь забывать 
и о регулярных 

занятиях
спортом.

Будешь есть 
только капусту…

...увеличишь 
продолжительность 

жизни!

...и если мы их не найдем, мы рискуем поверить 
в то, что на деле не будет правдой!

если пират будет 
получать даже 
на несколько 

дублонов 
меньше...

детей...

...его это 
сильно 

разозлит!

...приносят 
аисты.

80



Итак,
что же

эти рыбешки...

...могут сказать 
нам о тех?

Глава 6  
ОТ ВЫБОрКИ  

К ГенерАлЬнОй  
СОВОКУПнОСТИ



...на которую 
мы можем 

посмотреть!

...на которую 
мы никогда 
не сможем 

посмотреть!

Но помните, наша 
конечная цель — 

использование 
выборки...

...для получения объективных 
выводов о генеральной совокупности.

Пока что мы говорили в основном 
о выборках.

Вот у нас тут есть 
50 рыбешек, выбранных 
наугад и распределенных 

по весу!

82



И это создает проблему: 

как мы можем быть 
уверены в информации 

о генеральной 
совокупности…

...если никогда 
не сможем 

посмотреть 
на нее?

Там, внизу, 
темно и ничего 

не видно.

Мы узнаем 
о статистическом 

предположении!

...но прежде чем мы начнем, давайте проясним некоторые 
ключевые термины, которые будем использовать.

Во второй части нашей книги 
мы поставим этот вопрос ребром...

83



К
о
ли

ч
е
ст

в
о

К
о
ли

ч
е
ст

в
о

1
0

1
0
0

2
0

2
0
0

3
0
0

4
0
0

5
0
0

6
0
0

Вес (в фунтах)

Вес (в фунтах)

0,0

0,0

2,5

2,5

5

5

7,5

7,5

10

10

Да это же 
про некоторых 

из нас.

Эта штука 
про всех нас.

Мы уже знаем, 
что упорядоченные данные 

нашей выборки в виде графика…

Но если бы нам удалось собрать 
вместе данные обо всей 

генеральной совокупности…

...мы бы назвали получившийся результат 
распределением генеральной 

совокупности*.

Вот 50 случайных 
рыбешек, 
которых 

мы только что 
поймали.

Вот вся рыба, 
которая есть 

в озере!

Запомните, 
в реальности вам 

никогда не удастся 
увидеть целиком 
все совокупное 
распределение...

...если бы это было 
в ваших силах,

вы бы спокойно 
обошлись 

без статистики.

...называются гистограммой.

* См. стр. 216.84



Мы уже знаем, что у выборки на гистограмме 
есть определенные важные показатели...

...тоже есть 
своя форма, 

расположение 
и размах вариаций...

...но мы никогда не узнаем 
всех этих параметров 

с абсолютной точностью.

У всей 
совокупности 
рыбы в озере...

...есть форма…
...и мы знаем их!

У той кучи рыбы,
которую 

мы поймали…

...а тут вдруг оказывается, что у совокупного распределения тоже есть 
эти показатели.

...расположение…

...и размах вариаций...

Чтобы различить 
их между собой, 
мы называем 

показатели в выборке 
«статистическими 

величинами»...

Например, наше 
выборочное среднее 

значение представляет 
собой статистическую 

величину...

Например, наш 
общий средний 

показатель 
по совокупности — 
это параметр…

...и такую же величину 
представляет 
стандартное 

отклонение в выборке.

...точно так же, 
как стандартное 

отклонение 
в генеральной 
совокупности.

...а показатели в совокупности — 
«параметрами»*.

СО = 1,9

Среднее
 

значени
е 

= 3,7

СО=?

средняя
 

величин
а 

= ?

* См. стр. 216. 85



Статистические данные — 
это то, что мы, собственно, 

подсчитываем и о чем можем 
судить с всей определенностью...

...а параметры — это то, 
что мы бы хотели знать, 

но о чем можем только строить 
предположения.

Пусть мы и никогда не сможем 
посмотреть на параметры своими 

глазами…

...но, к счастью, у нас есть статистические данные, 
чтобы определить параметры.

Прихвати с собой 
статистические 

данные…

...мы отправляемся 
на ответственное 

задание!

Иными словами, единственное, 
что заставляет нас отправляться 

собирать статистические данные… ...это наше любопытство: 
нам интересно, какими 

будут параметры.Нам известно, что 
средний вес рыбы 
в этой случайной 

выборке составляет 
1,68 кг… ...но что нам 

на самом деле важно, 
так это справедлива 

ли эта цифра 
для всей рыбы 

в озере.

Параметры — 
цифры, которые 

мы ищем.

Статистические 
данные — те цифры, 

на которые
мы смотрим.

86



Они должны 
быть где-то 

тут!

Мы будем учиться 
использовать статистические 

данные, которые находим 
в случайной выборке...

...чтобы определить средние 
значения в совокупности, 

которую она представляет.
Объем выборки?

— Есть!

— Есть!

— Есть!
Итак, 

мы готовы, 
пойдем искать 
параметры!

Стандартное 
отклонение 
в выборке?

Среднее значение 
выборки?

На самом деле статистические данные 
помогают найти самые разные виды 

параметров.

Стандартное 
отклонение.

Пропорции. Назовем их!

Медианы.

Мы подробно остановимся на каждом отдельно.

87



Я могу изучить 
50 случайно выбранных 
пришельцев, которых 

я привез из другой 
галактики.

Как нам уже известно, мы никогда 
не сможем использовать 

статистические данные…

...чтобы определить параметры 
с точностью.

К счастью, статистики придумали способ, 
как связать одно с другим...

...в следующей главе мы будем говорить как раз об этом!

Ого! Мы можем 
использовать 

эту форму как лупу...

Но и в этой галактике есть еще 
множество обитателей, которых 

мы никогда не сможем изучить.

...чтобы 
поподробнее 
рассмотреть 
генеральную 

совокупность!

88



Тс-с-с...

Часть вторая  
ПОИСК  

ПАрАМеТрОВ



Эта глава 
о великом 

открытии...

...благодаря которому 
все, что есть 

в оставшейся части 
книги, становится 

возможным...
...и оно имеет отношение

к средним значениям.

Глава 7  
ЦенТрАлЬнАЯ  

ПределЬнАЯ ТеОреМА



А теперь представьте, что мы идем и делаем множество 
случайных независимых выборок из генеральной совокупности.

Давайте представим себе, 
что нам нужно узнать среднее 

значение в определенной 
совокупности.

У нас есть 
50 выбранных 

наугад 
американцев.

В каждой выборке 
50 выбранных 

наугад 
американцев.

Мы складываем 
каждую выборку 

в мешок, чтобы было 
проще следить за ними.

Тут еще 
50 выбранных 

наугад 
американцев.

И еще одна 
группа 

из 50 выбранных 
наугад 

американцев.

Эй, чур, 
не толкаться!

Класс!
Вкусно!

Сколько газировки 
американец 

выпивает в день?

92



Оказывается, если мы высчитаем
среднее значение в каждой выборке...

Например, среднее 
значение в нашей 

выборке — 
487 миллилитров.

У нас получится 
гистограмма 
со средними 
значениями.

Уф-ф...

Мы готовы к тому, что могут 
получиться экстремальные 

средние значения, типа 
такого вот.

Но большинство 
средних величин 

скапливаются вокруг 
этого показателя.

Хм-м-м.

От 425 
до 600 миллилитров 

в день.

А в нашей — 
366 

миллилитров.
А тут 

522 миллилитра.

186.

Средний показатель 
ежедневного 
потребления 
газировки, в мл 

Средний показатель 
ежедневного 
потребления 
газировки, в мл

450

450

300

300

600

600

750

750

...а потом расставим их по порядку
и разместим одна на другой...

И это еще не все.

...все это множество средних значений в конце концов 
сгруппируется!

487 366

366

186 376

497

586

565

522

515

509

452

366

522

600

654

600

522
186

452

476

93



Это большое 
открытие!

На самом деле 
она выглядит 
именно так!

...тем более явно выраженное 
нормальное распределение 

приобретает их множество.

Оказывается, что чем больше 
выборочных средних значений 

вы собираете вместе…
Нам нужно 

еще сто тысяч 
миллионов
данных!

Принесите еще!

Это нормальное распределение имеет 
определенное математическое выражение*. Но пока запомните, что нормальное 

распределение имеет колоколообразную 
симметричную форму.

 1  1
– –xexp

2
2

2

2x
=h

450300 600 750

186

376

393

417

426

497

447

500

512

470

586

523

520

565

544

515

509

452

381

360

319

529

601

654

674

* См. стр. 217, там об этом написано более подробно.

Помните о том, 
что каждый мешок — 

это отдельная выборка…

...и мы их распределяем 
в зависимости 

от среднего значения 
в каждом мешке.

Средний показатель 
ежедневного потребления
газировки, в мл

94



* Определение см. на стр. 217.

Средние значения

И эта формула подходит 
для вычисления среднего значения 
выборки из любой совокупности.

Вот пирамида, составленная
из разных видов чешуй драконов…

...отобранных 
в случайном порядке 
и распределенных 
по среднему весу.

...отобранных 
по средней 

длине.

Очень плавно 
нисходящая 

с обеих сторон.

Так статистические 
данные выборки были 

бы распределены…

...если бы мы собрали 
сто тысяч миллионов 

образцов.

Это самая 
красивая форма 
в статистике!

Ч
а
ст

о
т

а
 

А вот случайные 
выборки лап 

ящериц...

Куполообразная 
и симметричная 

форма!

Она может быть 
такой... ...или такой!

равномерная форма, 
смещенная, обычная, 

ненормальная —
да какая разница!

Формально вот такое 
огромное множество 

представляет собой уже вид 
распределения выборки*.

И неважно, какой формы сама по себе совокупность.

В конце концов, чем больше средних значений 
вы соберете, тем более нормально-распределенную 

форму получите.

95



Эта форма 
самая красивая 
в статистике…

Среднее 
значение 

всех средних 
значений…

Это среднее 
значение 

всех средних 
значений! Принесите-

ка нам еще 
выборки!

Но это работает, 
только когда 

у нас огромное 
множество 
выборок!

равняется 
среднему значению 

генеральной 
совокупности.

Генеральная 
совокупность 
может иметь 

и такую форму…

...мы никогда 
не можем знать 

наверняка.

...и ей нравится слушать 
хеви-метал?!

Ну и небольшой 
приятный бонус:

оказывается, что центральный показатель 
в огромном множестве средних значений...

...равен центральному показателю генеральной 
совокупности, которую представляет выборка.

96



473 533 563503533 563503

Например, если это множество средних 
значений в выборке, составленной 

по количеству газировки, выпиваемой 
ежедневно, будет центрировано 

по отметке 503 миллилитра в день...

...то генеральная совокупность 
будет центрироваться по этому же 

показателю!

Нормальное 
распределение 

всегда 
симметрично.

Это происходит потому, что огромное множество средних значений 
гарантированно будет иметь симметричную форму.

А эти 50 случайным 
образом отобранных 
американцев пьют 

очень много газировки.

Конкретно эти 
50 случайным 

образом 
отобранных 

американцев пьют 
немного газировки.

В конце концов для каждого 
среднего значения выборки, 

получаемого с помощью 
показателя, который ниже 

среднего значения генеральной 
совокупности...

...мы гарантированно получим 
другое среднее значение 

выборки с помощью показателя, 
который выше среднего 
значения совокупности.

Средний показатель 
ежедневного 
потребления
газировки 

Средний показатель 
ежедневного 
потребления
газировки 

97



СОСО

Я умер и попал 
в рай!

Иными словами, 
множество средних 

значений имеет меньший 
размах вариаций…

Обратите 
внимание, 

что обе величины 
имеют нормальное 

распределение.

Но у того, 
что поуже, 

стандартное 
отклонение 

меньше.

...что означает, 
что будет меньше 
самих вариаций!

А вот и еще один 
приятный бонус:

оказывается, 
что огромное множество 

средних значений…

...как правило, тоже будет у́же, чем генеральная 
совокупность, которую оно представляет.

СОСО

Короткий 
и широкий 

холмик.

Длинный 
и узкий 
горный

пик.

Не забудь, в этом 
множестве

сто тысяч миллионов 
выборок.

Если мы увеличим размер выборки, 
то самое большое множество будет 

выглядеть скорее не так...
...а вот так.

А вот насколько у́же, будет зависеть от размера каждой выборки.

98



Можно включить интуицию 
и понять, почему больший размер 

выборки дает более узкое 
множество средних значений.

Если в каждой выборке 
только один американец...

Но если уместить в каждой выборке 
всех американцев из генеральной 

совокупности…
.... ТОГдА распределение 

столбца средних значений 
будет равно нУлЮ.

...то размах выборки столбца средних значений 
будет ровно таким же, как размах выборки 

генеральной совокупности.

Запрыгивайте!

Разница между 
двумя мешками…

Один мешок — 
одна выборка.

Стандартное 
отклонение 
в громадном 
множестве…

Уф!

Между мешками 
не будет вообще 
никакой разницы!

...будет равна разнице 
между отдельными 

особями в генеральной 
совокупности!

Стандартное 
отклонение 
в громадном 
множестве...

...равняется 
стандартному 
отклонению 
генеральной 

совокупности…

...поделенному 
на квадратный 
корень объема 

выборки!

В любом случае, математическое соотношение — понятие точное.

Ужа-ас!

99



И неважно, 
как распределены 

выборки...

К
о
ли

ч
е
ст

в
о
 к

о
р
зи

н
 (
7
5
 с

лу
ч
а
й
н
ы

х
 ц

в
е
т

ко
в
 в

 к
а
ж

д
о
й
 к

о
р
зи

н
е
)

Цветочные корзины сортированы по среднему размеру

Помните, 
все выборки 

одного и того же 
объема.

Они все из одной 
и той же генеральной 

совокупности.

И их сотни тысяч 
миллионов!

Ты выборочное 
распределение 
моих желаний.

получается, что  
огромное множество средних значений

случайной выборки стремится 
К нОрМАлЬнОМУ рАСПределенИЮ!

...но их распределение 
у́же, чем у генеральной 

совокупности.

Все они центрированы по среднему 
показателю генеральной совокупности…

...и какова 
форма...

…или 
генеральная 

совокупность!

Итак, к чему же сводится 
наше великое открытие: 

Только 
посмотрите 

на эти кривые.
Как они красивы!

100



Официально мы называем 
это открытие 

центральной 
предельной 

теоремой (ЦПТ)*.

Было бы здорово, 
если бы оно 
имело было 

более поэтичное 
название.

Она работает только в том случае, 
если каждая выборка будет случайной...

...а также при условии, что выборка 
достаточно большая.

За долгие годы статистики выработали формулы,
которые объясняют, почему ЦПТ работает.

Но также они обнаружили, что есть несколько условий.

Только по воле 
случая одна выборка 
отличается от любой 

другой.

Глаз 
тритона!

Лапа 
лягушки!

Язык 
собаки!

Чешуя 
дракона!

Крекс-пекс-фекс!

Случайное среднее 
выборочное 

значение, появись!

Размер выборки 
от 30 и больше 

считается 
достаточным…

...но все зависит 
от других сложных 
математических 

показателей.

* Откройте 
стр. 217–218,

чтобы узнать о ЦПТ 
подробнее.

101



не потеряй эту 
цианотипию,

потому что мы будем 
использовать ее позже.

...и будут центрированы 
по среднему значению 

генеральной 
совокупности...

Вот это да!

...со стандартным 
отклонением, 

равным…

...стандартному 
отклонению генеральной 

совокупности,
 поделенному на квадратный 

корень объема выборки2.

1. Но только если выборки делаются случайным образом и размер каждой достаточно велик 
(больше 30 или около того). 

2. Для любителей математики: обратите внимание, что весь прямоугольник будет у́же, 
если размер выборки больше.

Мы, конечно, можем 
ожидать, что 

огромные множества 
средних значений 

выборки окажутся 
стандартными...1

А вот что ЦПТ представляет собой 
в математических терминах:*

* Откройте стр. 217, 
чтобы узнать, 

как все это называется 
у математиков.

102



средние значения 
случайной выборки 

стремятся к среднему 
значению генеральной 

совокупности...
...вот в таком 

прекрасном 
виде!

Это знание наконец 
дает нам что-то, 
в чем мы можем 
быть уверены!

Из нескольких следующих глав мы узнаем, 
почему это имеет такое значение.

Но вот способ попроще, 
как все это запомнить:

103



Мы не знаем 
всего...

...но это 
не означает, 

что мы не знаем 
ничего!

104



А вот теперь 
мы можем начать 

нашу охоту!

Глава 8  
ВерОЯТнОСТИ



Привет!
Я Билли!

Будьте 
осторожны…

И что такого 
необычного 

в этой форме?

Мы можем 
заявлять об этом 
с уверенностью…

…и объем 
выборки 

достаточно 
большой!

…при условии, что это 
были случайные 

выборки…

Из предыдущей главы мы узнали, что огромное 
множество средних значений выборки…

Мы собираемся узнать, 
почему же это так важно…

…изучив огромное множество 
средних значений выборки…

Кувшины с оливками, расставленные с учетом среднего веса оливок в них

К
о
ли

ч
е
ст

в
о
 к

у
в
ш

и
н
о
в
 (

5
0
0
 с

лу
ч
а
й
н
ы

м
 о

б
р
а
зо

м
 

о
т

о
б
р
а
н
н
ы

х
 о

ли
в
о
к
 н

а
 к

у
в
ш

и
н
)

…он сумасшедший!

Сара
йчик

 Безу
мног

о 

Билл
и

…обычно стремится 
к нормальному распределению.

…в сарайчике Безумного Билли, 
где он хранит свои снасти.

106



Средняя длина червей 
в банке (в см)

К
о
ли

ч
е
ст

в
о
 б

а
н
о
к

43,5 4,5 5

Так у тебя что же, 
есть настоящее 
распределение 

выборки?

…складывая каждую выборку 
в консервную банку…

Отбирал я их 
совершенно случайным 

образом…

…из всех червей 
в болоте.

По 30 червей 
в выборке.

…и вычисляю 
среднюю длину червя 

в каждой банке.

Прежде чем 
запечатывать банку, 

я замеряю всех червей.…

Безумного Билли 
так называют, потому что 
он проводит сумасшедшее 

количество времени, создавая 
случайные выборки червей…

Средняя длина червей 
в этой банке 4,75 см, 

значит, ее надо 
ставить именно сюда.

…и составляя одну на другую сто тысяч 
миллионов таких банок, где каждая 

соответствует своему среднему 
значению… …в своем безразмерном 

сарае, где он хранит 
снасти…

…во всяком случае, 
так он уверяет.

Ну да, вон за той 
дверью.

107



Что же банки 
с червями, 

собранными 
Билли…

…говорят нам 
об остальных червях, 

все еще живущих 
на свободе?

Если у нас есть 
распределение выборки, 

сделанное по средним 
значениям…

…что же мы сможем 
сказать о генеральной 
совокупности червей 

в болоте?

Более подробно 
мы остановимся 
на следующих 

вопросах:

если у нас будет доступ 
только к тому, что внутри 

сарайчика…

…что мы 
можем сказать 
о генеральной 
совокупности, 

которую 
изучаем?

А вот тот же вопрос, 
но научными терминами.

В этой главе мы выясним, 
что можно узнать 

об огромном множестве, 
которым располагает 

Безумный Билли.

Центрировано по 
отметке в 4 см.

Оно имеет нормальное 
распределение!

Стандартное 
отклонение 
равняется 

0,25 см.

И что?

108



Средняя длина червя 
в банке (в см)

43,5 4,5 5

Таким образом, среднее 
значение признака 
совокупности всего 

болота оказывается 
ровнехонько в середине 

этого огромного 
множества!

Помните, что в 
конце концов средние 

значения выборки 
стремятся к среднему 
значению генеральной 

совокупности.

Нет нужды 
пачкать одежду, 
ковыряясь в этой 

грязи.

Первый важный вывод, 
который мы бы сделали, если бы 

нам удалось хотя бы мельком 
заглянуть в сарайчик Билли…

…касался бы среднего значения 
генеральной совокупности.

Но это еще не все…

Иными словами, если бы нам нужно было 
вычислить среднее значение генеральной 

совокупности в болоте… …мы могли бы просто 
заглянуть в сарайчик — 

и нашли бы его там!
Какова 

средняя длина 
червей в этом 

болоте?

Как раз вот здесь, 
возле отметки в 4 см. 

109



другим важным 
открытием, которое 
мы могли бы сделать, 

заглянув в сарайчик Билли…

А это уже 
и правда 

очень важное 
открытие!

…был бы подсчет вероятностей 
в отношении генеральной совокупности!

Что такое 
вероятность? Это просто красивое 

слово, означающее 
«возможность» или 

«шанс».

…со средней длиной 
3,75 и 4,25 см.

Можно сказать, что с 50%-ной 
вероятностью средняя длина 

червя будет колебаться 
между 3,75 и 4,25 см!

если бы мы могли подсчитать 
все консервные банки 

в огромном множестве, 
которым располагает Билли…

И вот как это работает: 

Все банки 
в закрашенной 

части графика…

Средняя длина червя 
в банке, см

43,53 4,5 5

…это бы означало, что, забери 
мы одну случайную банку 

из совокупности…
…с 50%-ной вероятностью ее среднее 

значение находилось бы в тех же пределах!

30 случайно 
отобранных 

червей как раз 
на подходе!

Помните, что 
в каждой банке 

30 случайно 
отобранных 

червей.

…и обнаружить, что у 50% из них 
среднее значение колеблется в этих 

пределах…

110



Мое множество 
все равно 

что хрустальный шар 
для предсказаний!

С его помощью я могу 
сказать, банку с каким 
средним значением вы, 
возможно, возьмете 

следующей!

95% всех банок…
колеблются между 

3,5 и 4,5 см!

…будет колебаться 
между 3,5 и 4,5 см!

есть 95%-ная вероятность,  
что средний показатель 

в следующей банке, которую 
мы заполним наугад собранными 

червями из болота,..

у 5% всех банок…

средний показатель 
меньше 3,5 и больше 

4,5 см!

…будет меньше 3,5 
и больше 4,5 см!

Существует 5%-ная вероятность,  
что среднее значение в банке, 
которую мы заполним случайно 

отобранными червями из болота…

А если предположить, 
что в этом множестве:

Иными словами, 
заглянув мельком 

в сарай… …мы можем посчитать, каков диапазон средних значений 
экземпляров, собранных 

со всего болота!

Если бы мы подсчитали 
все консервные банки 

и обнаружили, что в множестве, 
собранном Билли:

Это бы означало, что 
в генеральной совокупности:

…то можно было бы сделать такие 
выводы о совокупности:

111



Ом-м-м-м…

Во-первых, вероятности актуальны только 
в долгосрочной перспективе…

…это не означает, 
что и у следующей 
банки обязательно 

будет среднее 
значение из этого же 

интервала!

Это означает, 
что вероятность 

очень высока, 
потому что 

в долгосрочной 
перспективе 

у 19 банок из 20 
все именно так!

…будет 
равен числу, 

колеблющемуся 
в этих пределах…

Например, если есть 
95%-ная вероятность, 

что средний показатель 
следующей банки, которую 

мы наполним случайными 
червями из болота…

…поэтому они никогда не скажут ничего достоверно 
о коротком периоде.

Во-вторых, у каждой вероятности 
есть обратная сторона…

Всегда есть
50%-ная вероятность, 

что случится какая-нибудь 
история…

Если допустить, 
что что-то произойдет 

с вероятностью
в 95%…

…при этом есть 
и другая 50%-ная 
вероятность, 

что произойдет 
что-то другое.

…всегда будет
5%-ная вероятность, 

что произойдет 
и что-то другое.

…потому что вероятности составляют 100%.

…будет равен числу, 
колеблющемуся 

в этих пределах…

…будет 
равен числу, 
выходящему 

за этот 
предел!

Например, если есть 
50%-ная вероятность, 

что средний показатель 
следующей банки, 

которую мы наполним 
случайными червями 

из болота…

…есть ровно 
такая же 50%-ная 
вероятность, что 
средний показатель 

следующей 
банки, которую 

мы наполним 
случайными червями 

из болота…

Есть несколько вещей, 
о которых нужно помнить 

при подсчете вероятности*.

* См. стр. 218.

112



Вероятность того, что, 
подбрасывая монетку, 

вы получите решку…

…составляет 
50%…

…потому что 
в долгосрочной перспективе 

мы можем предположить, 
что в 50% случаев будет 

выпадать решка.

Вероятность того, 
что, бросив кости, 

вы получите шестерку…

…составляет 
1/6…

…потому что 
в долгосрочной 

перспективе 1/6 всех 
вариантов выдает 

на выходе шестерку.

Говоря общо, 
мы можем высчитать 

вероятность 
других случайных 

событий, например 
при подбрасывании 

монетки…

…или броске игральных 
костей.

Вероятность, 
по определению, означает 

степень возможности 
наступления определенного 

события в долгосрочной 
перспективе. Если бы 

я не насобирал своих 
червей случайным 

образом…

…множество 
в моем сарае 
не имело бы 

никакого 
смысла.

Надеваем на глаза 
повязку!

И наконец, мы, по определению, можем высчитать, 
с какой вероятностью произойдут события, 

только если они происходят случайно…

…вот почему мы собираем 
статистические данные только 

случайным образом.

Но давайте-ка вернемся 
к поиску червей случайным 

образом…

…потому что нам предстоит 
узнать еще кое-что важное  

о сарайчике Билли!

113



Средняя длина червя 
в банке, см

43,53 4,5 5

Это и есть
центральная предельная 

теорема!

Вау!
Я же говорил, что 

это самая красивая 
форма во всей 
статистике!

Оказывается, зная, что все 
множество банок Билли имеет 
нормальное распределение…

Оказывается, нам совсем 
не обязательно пересчитывать 

все банки в сарайчике Билли… …чтобы высчитать 
вероятность.

…нам нужно всего лишь знать его 
центральное значение и стандартное 

отклонение, чтобы все высчитать*.

У 95% всех моих банок 
средний показатель 

колеблется между 
3,5 и 4,5 см!

Сто тысяч миллионов один…
Сто тысяч миллионов два…
Сто тысяч миллионов три…

Более того, именно потому 
что множество распределено 

нормально…

…мы можем использовать 
занимательную математику, 
чтобы вычислить, как банки 
располагаются внутри него!

…вам потребуется 
только его 

центральное 
значение 

и стандартное 
отклонение, 

чтобы подсчитать 
площадь внутри!

Если 
распространение 

нормальное…

* Если вы любитель 
математики, 
см. стр. 219, 

там будет больше 
объяснений.

114



В этом случае 
среднее значение 

находится 
в диапазоне 

от 3,5 до 4,5 см.

43,53 4,5 5

А вот настоящие подсчеты, 
которые предполагает 

классическая математика, 
на самом деле очень сложны.

В этом случае 
среднее значение 

находится 
в диапазоне 

от 3,25 до 4,75 см.

К счастью, есть так называемое 
правило большого пальца, которое 

действует в случае любого 
нормального распределения: 

Мы считаем, 
сколько 

стандартных 
отклонений имеем 

относительно 
центра.

В данном случае 
среднее значение 

находится 
в диапазоне 

от 3,75 до 4,25 см.

Настолько, что 
статистики 

их даже не делают.

Привет, 
компьютер!

4

3,5

3,5

3 

3 

4,5

4,5

5

5

68% всех 
консервных банок…

…находятся в пределах 
1 стандартного отклонения 

от центра.

…находятся в 3 стандартных 
отклонениях от центра.

99,7% всех 
консервных банок…

0,25

0,25

0,25

0,25 0,250,250,25

0,25 0,25 0,250,250,250,25

Мое множество 
центрировано 

по отметке 4 см, 
а стандартное 

отклонение 
составляет 0,25 см.

4

95% всех 
консервных банок…

…находятся в 2 стандартных 
отклонениях от центра.

4

115



…просто сконцентрируйтесь 
на затемненных областях.

…чем
вот здесь.

Этот купол 
больше,

чем его хвосты!

…напрямую соотносятся 
с нашими шансами собрать 

средние значения из болота!

От цифр 
я цепенею, 

доктор.
Если создается 
впечатление, 

что все эти цифры только 
сбивают с толку… 

Что тут важно 
помнить, так это то, 

что затемненные области 
внутри распределения 

выборки Билли…

43,53 4,5 5

Очевидно, что внутри 
этой затемненной области, 

представляющей собой часть 
множества Билли, намного больше 

банок…

Именно поэтому 
статистики 
так любят 

распределение 
выборки!

116



Первая замечательная вещь, которую мы узнали 
о распределении выборки Билли…

Вторая замечательная вещь, касающаяся 
распределения выборки Билли…

…это то, что оно показывает нам среднее 
значение генеральной совокупности!

Давайте-ка 
резюмируем.

…какова вероятность, 
что их среднее значение 
будет колебаться между 

3,75 и 4,25 см?

Если мы пойдем 
и сделаем другую 

случайную выборку 
из 30 червей из того 

болота…

Позвольте мне 
заглянуть

в мой сарайчик,
и я вам скажу!

…это то, что мы можем использовать его, чтобы 
высчитывать вероятность для всей генеральной 

совокупности…

Ответ
вы найдете 

в моем сарайчике!

Какова же средняя длина 
всех червей в твоем 

болоте, а, Билли?

Так как мы знаем,
что она

нормальная…

…все, что нам 
нужно узнать, 

это центральное 
значение…

…и стандартное 
отклонение!

117



…распределение выборки по типу того, что было
в сарайчике Безумного Билли…

…было бы для нас невероятно 
полезным.

Ясно, что, если бы мы охотились 
за средним значением во всей 
генеральной совокупности…

Все,
довольно!

Я хочу посмотреть 
на это!

Это же 
золотая
жила!

Формально 
мое распределение 

выборки…

…представляет 
собой особый вид 
вероятностного 
распределения!

Оно должно 
быть где-то 

здесь.

Мое множество средних 
значений похоже 

на хрустальный шар…

…ты можешь 
всмотреться 

в него, а увидеть 
информацию 

о генеральной 
совокупности!

118



Как показывает 
практика… …все, что мы можем получить, 

это одну банку.

На самом деле неТ такого 
распределения выборки, 

на которое можно было бы 
взглянуть!

К несчастью…

…оно не существует.

Это все 
плод моего 

воображения.

Я помню каждую 
консервную банку, 

которую когда-либо 
продавал.

Что?!
Там ничего нет! 

Пусто!

&#@%!

119



Эм-м…

Ну, так что,
какова средняя длина 

всех червей в болоте?

120



Думаю, лучше бы 
нам ее

открыть.

Глава 9  
СТАТИСТИЧеСКИй  

ВЫВОд



Ясно как день, что у нас 
по-прежнему есть 

нерешенная проблема...

...и она сводится 
к следующему:

мы пытаемся обнаружить нечто, 
чего не можем увидеть.

невозможно, 
заглянув в одну 

выборку...

...увидеть 
среднее значение 

в генеральной 
совокупности.

Есть у кого-нибудь 
консервный нож?

Мы всего лишь 
30 жалких червяков,

в то время как 
в болоте можно 

найти еще сотни 
тысяч миллионов.

122



К счастью, хотя мы и не можем увидеть то, 
что ищем...

Как будто мы бредем 
в тумане на ощупь, 

пытаясь найти снежного 
человека.

...мы можем продолжать искать 
подсказки...

...которые помогут нам понять, где то, 
что мы ищем, может находиться.

Если бы ты был 
средним значением 

совокупности,
где бы ты прятался?

Под куполом 
того холма!

Но все равно 
вы никогда 

не сможете его 
найти.

Я верю всем 
сердцем, что он 

где-то там!

Ничего не вижу 
за туманом.

123



...Я готов 
поставить деньги.

Оно должно 
быть где-то 

здесь...

...и мы с вами даже уже выяснили, что это такое: 

Когда мы 
пытаемся угадать 
местонахождение 
среднего значения 

генеральной 
совокупности...

...мы можем опираться в своем 
предположении на что-то, в чем уже уверены…

Это называется 
центральная 
предельная 
теорема!

Вау!

...и обретают вот 
такую красивую 

форму!

В конце концов, 
случайные средние 
значения выборки, 

как правило, 
скапливаются вокруг 

среднего значения 
в генеральной 
совокупности...

124



Вот что мы сейчас будем делать: 

поскольку 
средние значения 
выборки обычно 
скапливаются…

...вокруг среднего 
значения генеральной 

совокупности...

...вроде этого...

…мы можем нарисовать 
вот такую 

возвышенность...

Полагаю, оно 
под куполом 
этого холма!

...мы собираемся посвятить всю оставшуюся главу тому, 
чтобы в общих чертах обрисовать первый шаг.

Мы не можем увидеть 
его собственными 

глазами...

...поэтому ищем 
те значения, 

которые, как нам 
кажется, будут 

концентрироваться 
вокруг него.

Это похоже
на охоту за снежным 

человеком…
...когда выходишь 

на след, обнаружив 
отпечатки 

огромного размера.

Статистики называют этот процесс 
статистическим выводом...

...чтобы угадать,
где находится среднее 
значение генеральной 

совокупности.

...чтобы представить 
себе, что бы мы увидели, 
если бы отобрали гораздо 

больше экземпляров 
для исследования.

Мы хотим 
использовать 

одну выборку…

125



Наша основная цель на данном этапе...

Эй, ты где там 
прячешься?

...потому что 
мы охотимся 

на среднее значение 
в генеральной 
совокупности.

...А расположение?

...А размах вариаций?Какой у тебя 
объем выборки?

И помни, 
мы нарисовали 

все это...

Я же говорил тебе, 
в статистике 

главное — 
нарисовать 
картинку!

И в основе всего этого лежит информация,
которую мы получаем из одной случайной выборки.

...если бы мы пошли и собрали 
сто тысяч миллионов 

образцов.

На этой картинке видны, 
как нам кажется, средние 

значения выборки...

...создание иллюстрации.

126



В рукавах 
ничего нет.

Я кладу одну 
банку червей 

в шляпу.

Фокус-покус! Перепокус!

Наши действия очень похожи 
на магию…

...Хотя на самом деле все 
очень просто.

Как будто мы делаем свое 
самое смелое предположение 

о том, как выглядит 
воображаемое множество 

Билли...

...имея в руках только 
одну консервную 

банку.

И из одной 
получается 
так много!

Сто тысяч 
миллионов банок!

127



Чтобы сделать нужный рисунок, 
мы используем центральную предельную 

теорему в качестве плана:

...и что оно будет 
центрировано 

по среднему значению 
в совокупности...

Поскольку мы не знаем 
настоящих значений 

в генеральной 
совокупности…

…мы просто заменяем их теми, которые получили из нашей выборки.

Разве это 
не мухлеж?

И никогда 
не узнаешь!

Нет, это всего лишь 
наше самое смелое 
предположение!

Мы предпочитаем 
называть это 

аппроксимацией.

Вот так!

...со стандартным 
отклонением, 

равным...

...стандартному отклонению 
в генеральной совокупности, 

деленному на квадратный 
корень из объема выборки.

мы можем предположить, 
что огромное множество 

средних значений выборки 
будет нормальным1...

Давай сделаем 
вид, что среднее 
значение в твоей 

банке такое же, как 
среднее значение 
во всем болоте!

И размах 
вариаций 

в твоей банке 
такой же, как 

в болоте!

1. Помните, что тут возникают некоторые ограничения, см. стр. 102.

128



...со стандартным 
отклонением, 

равным…

...нашему стандартному 
отклонению, поделенному 

на квадратный корень объема 
выборки!

...и центрировано 
по среднему значению 

в одной консервной банке...

Вот так!

Мы называем эту картинку предполагаемым выборочным 
распределением*.

...мы рисуем картинку, которая выглядит примерно так: 

1,44

30
СО=

3,6

Так, например, когда мы используем 
выборочные значения из одной банки...

Наше предполагаемое 
огромное множество 

средних значений 
нормально распределено...

Это предположение...

...о том, как средние 
значения выборки 

могли бы быть 
распределены...

...если бы 
мы насобирали 

их целую тонну.

* См. стр. 219, чтобы 
узнать, как описывать 
подобные случаи, используя 
математические символы.

Упаковано вручную Безумным Билли

Стандартное отклонение:

Средняя длина: 3,6 см

размер выборки: 30 червей
Случайность 

гарантирована!
выборки 

1,44

129



Ну так что, оно 
под куполом 

холма?

Или все же 
нет?

Как ни странно, 
мы можем быть 

уверены, что так 
оно и есть.

А в следующей 
главе узнаем, 

насколько 
мы можем быть 
в этом уверены.

...как бы выглядело 
огромное множество, 
собранное Безумным 
Билли, если бы оно 

существовало!

Неплохо, да?

Имея на руках только 
30 случайным 

образом отобранных 
червей, мы можем 
предположить…

Теперь, использовав
одну выборку...

...чтобы создать предварительное 
распределение выборки…

СО=0,26

3,6

...мы можем подвести итоги нашей охоты на среднее 
значение генеральной совокупности.

130



Учитель, я полон 
сомнений…

Тебе нужно 
поучиться 

статистике!

Что мне 
делать?

Глава 10  
дОСТОВернОСТЬ



Помните, что в результате 
нам нужно узнать что-нибудь 

о среднем значении 
в генеральной совокупности.

Мне вообще наплевать 
на следы гигантского 

размера...

...я хочу узнать 
что-нибудь о самом 
снежном человеке!

У меня нет
ничего

в рукавах...

...а в руке только 
консервная банка 

с червями.

Эх!

К сожалению, несмотря 
на все те магические трюки, 

которым мы только 
что научились...

...мы никогда не сможем 
добиться этого.

Нет никакой возможности 
заглянуть в консервную 

банку и увидеть среднее 
значение в генеральной 

совокупности...

...равно как и нет никакой 
возможности заглянуть 

в предварительное 
распределение выборки 

и увидеть то, что мы ищем.

Никогда!

Не отчаивайся!

Ты всегда можешь 
высказать догадки 

относительно 
месторасположения 

этого среднего 
значения!

Я никогда 
не смогу 

найти то, 
что ищу!

Вот поэтому мы и учимся делать 
предположения.

132



Теперь я могу быть 
уверен в том, 

что именно я вижу.

Так намного 
лучше!

Мы пока поговорили только 
о том, как выглядит первый 

шаг в процессе выстраивания 
предположений…

...но нам еще предстоит 
разобраться 
со вторым.

Итак, в этой главе мы научимся 
детализировать наш рисунок...

...состригая 
аккуратненько по краям...

…и используя то, что осталось, 
чтобы вычислить степень 

достоверности.

Не торопясь, со всей 
любовью, изобразите 

предварительное 
распределение 

выборки…

...обратив особо 
пристальное 

внимание 
на самые 

важные детали.

Порежем это 
на кусочки!

133



мы уверены 
на 95%...

На этот раз нам нужно отмерить 
2 стандартных отклонения 
от центрального значения...

...по обеим 
сторонам.

Сидите смирно, 
это совсем 
не больно.

Вжик-вжик!

Раз уж мы уже знаем, 
как нарисовать предварительное 

распределение выборки…

Нужно просто хорошенько 
вглядеться в то, 

что мы только что нарисовали...
...и отрезать все «хвостики»!

...мы легко научимся высчитывать и степень достоверности.

...что среднее 
значение генеральной 

совокупности 
находится где-то 
в этих пределах!

Мы еще 
вернемся 

к этим 
«хвостикам» 
в главе 11.

Ура!

Как же красива 
эта форма!

А потом мы делаем утверждение, 
например такое: 

134



Мы твердо 
уверены 
в своей 

правоте!

Только 
и всего!

Если мы хотим 
быть уверены 

на 99,7%...

Если мы хотим 
быть уверены 

на 68%…

Если мы хотим большей 
достоверности, нам нужно 

просто отрезать чуть дальше.

А если нам нужно меньше 
достоверности, то нужно 
отрезать чуть ближе.

В основе всех этих подсчетов лежит то, 
что мы уже изучили на стр. 115!

Но где бы мы ни отрезали, мы всегда декларируем 
нашу степень уверенности с помощью двухчастного 

утверждения...

...то мы отрезаем 
в трех стандартных 

отклонениях 
от центра…

...то мы отмеряем 
и отрезаем в одном 

стандартном 
отклонении 
от центра...

Тут даже 
ребенок 

справится!

Отмеряйте 
и отрезайте!

...в котором объединены 
и степень достоверности... ...и доверительный интервал*.

Мы уверены 
на 95%...

...что среднее 
значение 

в совокупности 
находится где-то 
в этом пределе!

...но мы бьемся 
об заклад, что 

это где-то 
здесь!

Мы, конечно, 
никогда этого 
не докажем...

...с каждой 
стороны. ...с обеих 

сторон.

* Доверительный интервал представляет собой интервальную 
оценку. См. стр. 220, если хотите узнать больше.

135



0,260,26 0,26 0,26

3,6

3,63,08 4,12

...на расстоянии 
в 2 стандартных 

отклонения 
от центрального 

значения...

Например, если мы возьмем 
предварительное выборочное 

распределение, сделанное с помощью 
нашей консервной банки...

...и отрежем «хвостики»...

Но что конкретно это означает?

3,08 4,12

Мы уверены 
на 95%... ...что среднее 

значение 
в совокупности 

находится между 
3,08 и 4,12 см!

...мы сможем сказать 
следующее: 

Мы проделали 
это на стр. 129.

136



...мы бы, скорее всего, 
получили другой интервал!

...мы бы продолжали 
получать разные 

интервалы.

У нее 
совершенно 

другой 
центральный 
показатель...

Мы построили 
это с помощью 
другой банки, 
наполненной 
30 червями.

Мы уверены 
на 95%...

...и использовали его, чтобы подсчитать 
один доверительный интервал.

Мы построили 
это с помощью 
одной банки,..

...наполненной 
30 червями.

Мы уверены 
на 95%...

...что среднее значение 
в совокупности 

колеблется между 
3,08 и 4,12 см.

...что среднее значение 
в совокупности 

колеблется между 
3,64 и 4,56 см!

...и размах 
вариаций.

Собери 
и подсчитай.

Собери 
и подсчитай.

Собери 
и подсчитай.

Собери 
и подсчитай.

Собери 
и подсчитай.

Собери 
и подсчитай.

Собери 
и подсчитай.

Собери 
и подсчитай.

Собери 
и подсчитай.

0,26

3,6

0,23

4,1

И если бы мы продолжали собирать новые и новые случайные 
выборки и выстраивать новые и новые предполагаемые 

выборочные распределения… 

Мы создали всего лишь одно 
предварительное выборочное 

распределение с помощью 
одной случайной выборки…

Но если бы мы взяли другую 
случайную выборку 
и использовали ее, 

чтобы создать другое 
предположительное 

распределение выборки...

137



...среднее значение генеральной совокупности 
содержалось бы примерно в 19 банках из 20...

А примерно в 1 банке 
из 20 было бы по-другому.

Собери в произвольном 
порядке.

Нарисуй картинку.

Отрежь 
«хвостики» в 2 СО 

от центра.

В 19 банках из 20. 
Получается 95%!

В одной банке из 20 
все совершенно 
неправильно!

...это что, если бы мы установили таким образом сто тысяч 
миллионов разных пределов...

Будем надеяться, 
что мы не взяли 
именно ту банку.

Мы на 95% 
уверены...

Это важно, потому 
что единственный вывод, 
который мы можем сделать 

из этого...

...что среднее 
значение совокупности 

находится где-то 
в этом пределе!

138



мы уверены 
на 95%...

Другими словами, 
когда мы говорим 

так: 

...что среднее 
значение генеральной 

совокупности 
находится где-то 
в этом пределе!

В таком случае среднее 
значение генеральной 

совокупности на самом 
деле где-то в другом 

месте...

...и тогда 
получается, 

что все наши 
усилия тщетны!

...это означает, что есть 
5%-ная вероятность, 
что мы заблуждаемся 

на сей счет.

139



...но мы можем избежать подобных 
трудностей, если всегда будем помнить 

о более масштабной картинке.Эта консервная 
банка могла 
оказаться 

пустышкой, 
введшей нас 

в заблуждение!

Может, да, 
но, вероятнее всего, 

нет. Подумайте 
о долгосрочной 
перспективе!

Печальная правда заключается в том, что любая 
выборка, которую мы отобрали случайным образом 

из генеральной совокупности…

...может оказаться обманчивой 
и ввести в заблуждение.

...28 червяков!

...30 червяков!

...29 червяков!

Мы можем совершенно 
случайно насобирать...

...30 очень коротких 
червяков.

А если одна наша выборка дает 
настолько неоднозначные результаты…

...то и предварительное выборочное распределение, 
которое мы рисуем на ее основе, тоже окажется неверным.

А что если среднее 
значение и правда 
находится где-то 

здесь?

Если наше распределение будет 
основано на информации 

о 30 очень коротких червяках...

...оно сильно 
сместится влево.

Это серьезная 
проблема...

140



Даже если одна выборка 
оказалась обманчивой…

Мы, конечно, можем 
насобирать 30 очень 

коротких червей...

...совершенно 
случайно!

Кажется, знакомо?

Да ведь это же 
центральная
предельная
теорема!

Вау!
Иными словами, 

средний 
показатель 
одной банки 

может случайно 
оказаться 

здесь...
Какие 

короткие 
червячки.

Это 
странно!

...или здесь...

Какие 
длинные 
червяки.

Это 
странно!

Довольно обычные 
червяки.

В конце концов 
оказывается, 

что у большинства 
консервных банок 
среднее значение 

находится под 
куполом холма.

...и мы можем быть в этом уверены.

...а такое маловероятно...

...в долгосрочной перспективе станет 
ясно, что, скорее всего, это не так...

...потому что большинство средних значений 
в случайных выборках имеют тенденцию группироваться 

вокруг среднего значения генеральной совокупности!

141



...предполагает, что 
мы должны держать в уме 

как продолжительный период, 
так и короткий промежуток 

одновременно.

Подводя итог, скажем, что понимание 
статистической достоверности...

В долгосрочной перспективе 
наша приблизительная оценка 
и отсечение «хвостиков» дают 

прекрасные результаты. 
И точка.

Если вы возьмете случайную 
выборку хорошего размера 
и с ее помощью изобразите 

предварительное 
выборочное распределение…

...затем отмерите 2 СО 
от центра и отрежете 

«хвостики»...

...в 95% случаев у вас получится 
предел, в котором будет 

находиться настоящее среднее 
значение в совокупности!

Это было 
доказано 

математически!

А также 
опытным 

путем!

Мы уверены 
на 95%... ...что среднее 

значение 
в совокупности 

находится где-то 
в этом пределе!

Мы уверены на 95%, 
что среднее значение 

в совокупности 
находится где-то 
в этом пределе… ...но так ли это 

на самом деле?

Может, да, 
а может, нет.

Мы никогда 
не будем знать 
это наверняка!

...но вот в краткосрочной перспективе 
всегда есть вероятность, что мы схватили не ту банку!

142



Гр-р-р!

Они хотят 
убить нас!

Насколько вы 
в этом уверены?

Глава 11  
ОнИ нАС ненАВИдЯТ



…мы делаем что-то удивительное!

Мы делаем предположение…
…заслуживающее 

доверия предположение…

Когда мы используем 
только одну выборку… …чтобы подсчитать степень 

статистической достоверности 
всей генеральной совокупности…

Если взять 
за основу 

50 случайно 
отобранных 

русалок…

…что рост всех 
русалок в этой 

лагуне…

…я могу 
с 95%-ной 

уверенностью 
сказать…

в среднем 
варьируется 
от 7 до 10 см!

Одна случайная 
выборка может 

сильно запутать…

…но в долгосрочной 
перспективе 

это утверждение 
покажется весьма 
сомнительным.

Кто бы мог подумать, 
что русалки такие 

крошечные?

144



Йу-ху-ху!

Он никогда 
не узнает этого 

наверняка.

…о чем-то, что мы не можем увидеть, 
а способны только представить себе.

Эй, есть ли там, 
внизу, еще русалки?

145



Достаточно 
большой объем 

выборки…

…среднее значение 
выборки…

…и стандартное 
отклонение 
выборки.

Но помните, 
что все получится только 

в том случае, если все 
ваши русалки будут 

отобраны произвольным 
образом.

Все начинается 
с трех цифр.

146



…чтобы получить 
единственное заслуживающее 

доверия утверждение…

Я на 95% 
уверен…

…что средний рост 
в совокупности 

всех русалок 
этой лагуны — 

где-то от 7 до 10 см!

…и доверительный интервал.

…в котором будут 
и степень уверенности…

Мы считаем от центра, 
учитывая стандартные 

отклонения…

В долгосрочной 
перспективе это отлично 

работает!

…чтобы выйти 
за пределы этого 

массива, чье значение 
вероятности мы знаем 

наверняка.

Имея на руках лишь три эти цифры, можно наметить 
предварительное распределение выборки…

Это все равно что представлять 
себе, как будут выглядеть 

сто тысяч миллионов выборок…

Мы знаем, что наше 
множество будет 

распределено нормально, 
если выборка окажется 
достаточно большого 

размера.

Кроме того, мы можем 
подсчитать 

центральный 
показатель 

и стандартное 
отклонение, 

используя 
выборочные 

значения.

…если бы мы 
сгруппировали 
их по среднему 

значению.

8,57 7,5 9,58 95,5 6 6,5 10 1110,5 11,5

7 10

…и отрезать «хвостики»…

8,5

1,25

147



Поэтому может показаться, что он неприменим 
к характеристикам, которые не поддаются 

явному численному измерению…

…однако это не всегда так.

Они 
счастливы?

Все ли они поют 
красиво?

Если я ткну 
в них палочкой, 

насколько 
им будет больно?

А сколько 
русалки 
весят?

ну во-о-от!

А какой они 
длины?

Сколько 
у них 

зубов?

Как мы уже знаем, из-за того что этот метод 
требует изрядного количества подсчетов…

Об этом 
мы рассказывали 

в главе 4.

Тебе нужны 
числовые 
данные.

…он хорош только для тех характеристик, 
которые можно измерить.

148



Как сильно я тебя 
ненавижу?

Правда заключается в том, что мы можем высчитать степень 
достоверности относительно любой характеристики…

А русалки 
по жизни 

оптимистки?

Интересно, они 
сообразительны?

А они любят 
есть суши?

Вот тебе 
тест.

Если ваш балл 
за тест находится 

где-то здесь, 
вы… дурочки!

Если вы набрали 
столько баллов, 

вы гении!

…если найдем способ измерить ее…

…и сможем отметить показатели 
на числовой оси.

…чтобы исследовать вопрос, 
касающийся ненависти.

В этой главе мы будем заниматься как раз этим…

1008060набранные баллы 120 140

Погоди, я подсчитаю 
все варианты…

149



Всем известно, что негодники, 
живущие на планете Бип…

…ненавидят хороших людей, 
живущих на соседней планете Пип.

И вот вопрос, 
который нас мучает: 

…правда ли это?

Так как мы не можем 
опросить лично 

все 785 000 000 000 бипиан, 
живущих на планете, о том, 

что они чувствуют…
…нам ничего не остается, кроме как 

основываться в своих суждениях на случайной 
выборке.

Помните, никто 
не использует 

статистические 
техники, 

если только 
в этом нет 

нужды!

Иными словами, 
нам придется 

воспользоваться 
статистическими 

приемчиками.

Бипиан 
слишком 
много.

Они нас 
ненавидят! Да эта ненависть 

измеряется 
триллионами 
поколений!

Фу-у! Фу-у!

Вы, @*$& 
пипиане!

150



В этом случае мы можем придумать 
свою систему исчисления…

Но прежде чем мы отправимся 
делать случайную выборку…

…нам нужно придумать, каким 
образом нам перевести чувства 

каждого бипианина по отношению 
к пипианам…

…на язык цифр.

Мне хочется убить 
каждого пипианина, 
которого я вижу!

Я готов переломать 
им кости и буду 

только рад этому!

Понятно: 
ваш балл 

–10.

А моя мечта — 
жениться 

на какой-нибудь 
симпатичной 
пипианочке.

Честно говоря, 
мне как-то 
все равно.

Лично мне 
они не очень 
нравятся.

Я бы оторвал 
этим пипианам 

голову!

Никому не говори…

Нам нужен 
цифровой 

эквивалент 
для этого.

Давай превратим 
все эти голые 

эмоции в цифры!

А по-моему, 
они 

классные.

0–5–10 105

…которая будет варьироваться от чистой ненависти…
…до истинной 

любви.

…в числовой эквивалент по шкале от –10 до 10.

Давай переведем слова каждого бипианина, с которым поговорим…

…но я думаю, они 
милые ребята!

151



…поэтому давайте-ка 
поищем по всей планете 

и отберем бипиан 
совершенно случайным 

образом…

Вообще, между 
выборкой 

бипиан, которых 
мы опрашиваем…

…или любой 
другой 

выборкой…

…немного 
отсюда…

…немного 
отсюда…

…и здесь 
поищем…

…чуть-чуть 
отсюда…

…немного 
отсюда…

…нескольких 
отсюда…

…и т. д.…и т. д.

…может 
и не быть никакой 
систематической 

разницы…

Затем мы аккуратно 
соберем все данные, 

которые…

Как бы вы оценили 
свою ненависть 

к пипианам по шкале 
от –10 до 10? 

Как бы вы оценили 
свою ненависть 

к пипианам по шкале 
от –10 до 10? 

Как бы вы оценили 
свою ненависть 

к пипианам по шкале 
от –10 до 10? 

…памятуя о том, что собрать 
нам нужно достаточное 

количество…

…чтобы быть уверенными, 
что все подсчеты верны.

…и не остановимся, 
пока не отберем 

100 бипиан.

…получили произвольным 
образом…

152



Ясно, что многие 
из произвольно 

отобранных 
бипиан настроены 
очень негативно 

к пипианам…

…но разве 
это означает, 

что вся планета 
охвачена 

ненавистью?

Вот эти 
трое бипиан 

по-настоящему 
ненавидят 

пипиан.
Один из бипиан 

заявил 
о своей любви 

к пипианам.

В целом наши данные 
немного сдвинуты влево 
относительно отметки 

«ноль»…

…и смещены 
вправо.

0

К
о
ли

ч
е
ст

в
о
 б

и
п
и
а
н

1
0

1
5

2
0

Чувства 
по отношению 
к пипианам

–10 100 5–5

И уже имея на руках 
выборочные данные…

…мы их немного осмыслим…

…и выделим три параметра, которые нам понадобятся, чтобы сделать 
статистический вывод.

Похоже, вариантов 
слишком много, 
учитывая тот 

факт, что 
шкала имеет 

всего 20 делений 
в ширину.

Мда-а…

Негативно, 
но не сильно. 

Выборка 
достаточного 

размера, чтобы 
можно было 
высчитать 

уровень 
достоверности.

Какие же выводы мы 
можем сделать насчет 

785 000 000 000 с лишним 
бипиан в генеральной 

совокупности?

Выборочное 
среднее 

значение 
равно –1.

Стандартное 
о