Пожалуйста, введите доступный Вам адрес электронной почты. По окончании процесса покупки Вам будет выслано письмо со ссылкой на книгу.

Выберите способ оплаты
Некоторые из выбранных Вами книг были заказаны ранее. Вы уверены, что хотите купить их повторно?
Некоторые из выбранных Вами книг были заказаны ранее. Вы можете просмотреть ваш предыдущий заказ после авторизации на сайте или оформить новый заказ.
В Вашу корзину были добавлены книги, не предназначенные для продажи или уже купленные Вами. Эти книги были удалены из заказа. Вы можете просмотреть отредактированный заказ или продолжить покупку.

Список удаленных книг:

В Вашу корзину были добавлены книги, не предназначенные для продажи или уже купленные Вами. Эти книги были удалены из заказа. Вы можете авторизоваться на сайте и просмотреть список доступных книг или продолжить покупку

Список удаленных книг:

Купить Редактировать корзину Логин
Поиск
Расширенный поиск Простой поиск
«+» - книги обязательно содержат данное слово (например, +Пушкин - все книги о Пушкине).
«-» - исключает книги, содержащие данное слово (например, -Лермонтов - в книгах нет упоминания Лермонтова).
«&&» - книги обязательно содержат оба слова (например, Пушкин && Лермонтов - в каждой книге упоминается и Пушкин, и Лермонтов).
«OR» - любое из слов (или оба) должны присутствовать в книге (например, Пушкин OR Лермонтов - в книгах упоминается либо Пушкин, либо Лермонтов, либо оба).
«*» - поиск по части слова (например, Пушк* - показаны все книги, в которых есть слова, начинающиеся на «пушк»).
«""» - определяет точный порядок слов в результатах поиска (например, "Александр Пушкин" - показаны все книги с таким словосочетанием).
«~6» - число слов между словами запроса в результатах поиска не превышает указанного (например, "Пушкин Лермонтов"~6 - в книгах не более 6 слов между словами Пушкин и Лермонтов)
 
 
Страница

Страница недоступна для просмотра

OK Cancel
Сара Бослаф СТАТИСТИКА ДЛЯ ВСЕХ STATISTICS IN A NUTSHELL Second Edition Sarah Boslaugh Beijing • Cambridge • Farnham • Köln • Sebastopol • Tokyo СТАТИСТИКА ДЛЯ ВСЕХ Сара Бослаф Москва, 2015 УДК 311:004.9 ББК 60.6с515 Б85 Б85 Сара Бослаф Статистика для всех. / Пер. с англ. П. А. Волкова, И. М. Флямер, М. В. Либерман, А. А. Галицына. – М.: ДМК Пресс, 2015. – 586 с.: ил. ISBN 978-5-94074-969-1 Нужно овладеть статистикой по долгу службы? Хотите получить помощь при сдаче курса статистики? «Статистика для всех» – ясное и краткое введение и руководство для всех новичков. Тщательно переработанное и расширенное, это издание поможет вам глубоко понять статистику, избегая ошеломляющей сложности многих университетских учебников. Эта книга – руководство, которое можно приспосабливать к имеющимся знаниям и нуждам отдельных читателей. Некоторые главы посвящены темам, которые часто отсутствуют в вводных книгах по статистике. Каждая глава представляет собой простые для понимания объяснения, дополненные диаграммами, формулами, задачами с решениями и взятыми из практики заданиями. Если вы хотите не ломая голову применять распространенные методы анализа данных и узнать о разнообразных подходах – эта книга для вас. УДК 311:004.9 ББК 60.6с515 Original English language edition published by O’Reilly Media, Inc., 1005 Gravenstein Highway North, Sebastopol, CA 95472. Copyright © 2013 Sarah Boslaugh. All rights reserved. Russian-language edition copyright © 2014 by DMK Press. All rights reserved. Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Материал, изложенный в данной книге, многократно проверен. Но, поскольку вероятность технических ошибок все равно существует, издательство не может гарантировать абсолютную точность и правильность приводимых сведений. В связи с этим издательство не несет ответственности за возможные ошибки, связанные с использованием книги. ISBN 978-1-449-31682-2 (англ.) © 2013 Sarah Boslaugh. All rights reserved ISBN 978-5-94074-969-1 (рус.) © Оформление, перевод на русский язык, издание, ДМК Пресс, 2015 ОГЛАВЛЕНИЕ Предисловие ........................................................................... 9 Ну хорошо, и что же такое статистика? ................................................................ 9 Основная цель этой книги ................................................................................. 12 Статистика в информационную эпоху................................................................ 13 Структура книги ................................................................................................ 14 Условные обозначения, используемые в этой книге .......................................... 18 Благодарности .................................................................................................. 19 Об авторе .......................................................................................................... 19 Об иллюстрации на обложке ............................................................................. 20 Глава 1. Основные понятия, связанные с измерениями ................. 21 Измерение ........................................................................................................ 22 Типы измерений ................................................................................................ 22 Истинные значения и ошибки ............................................................................ 29 Надежность и валидность.................................................................................. 31 Смещение измерений ....................................................................................... 36 Упражнения....................................................................................................... 40 Глава 2. Теория вероятности ..................................................... 43 О формулах ....................................................................................................... 44 Основные определения ..................................................................................... 45 Определение вероятности ................................................................................ 52 Вычисление вероятности сложных событий ...................................................... 54 Теорема Байеса ................................................................................................ 56 Достаточно разговоров, давайте займемся статистикой! .................................. 59 Упражнения....................................................................................................... 61 Заключительное замечание: связь между статистикой и азартными играми ..... 65 Глава 3. Статистический вывод ................................................. 67 Распределения вероятностей ........................................................................... 68 Независимые и зависимые переменные ........................................................... 76 Генеральные совокупности и выборки ............................................................... 77 Теорема центрального предела......................................................................... 82 Проверка гипотез .............................................................................................. 87 Доверительные интервалы ................................................................................ 91 Значения p ................................................................................... 92 Z-статистика ..................................................................................................... 93 Преобразования данных ................................................................................... 96 Упражнения....................................................................................................... 99 6 Оглавление Глава 4. Описательная статистика и графическое представление данных .......................................................... 107 Генеральные совокупности и выборки ............................................................. 107 Меры центральной тенденции ......................................................................... 108 Меры разброса ............................................................................................... 115 Выбросы ......................................................................................................... 121 Графические методы ....................................................................................... 122 Столбчатые диаграммы................................................................................... 125 Двумерные диаграммы ................................................................................... 136 Упражнения..................................................................................................... 142 Глава 5. Категориальные данные ............................................. 146 R×C-таблицы ................................................................................................... 147 Распределение хи-квадрат ............................................................................. 150 Тест хи-квадрат ............................................................................................... 152 Точный тест Фишера ....................................................................................... 158 Парный тест МакНемара ................................................................................. 160 Пропорции: большие выборки......................................................................... 162 Корреляции для категориальных данных ......................................................... 164 Порядковые переменные ................................................................................ 167 Шкала Лайкерта и шкалы семантического дифференциала ............................ 171 Упражнения..................................................................................................... 173 t-критерий Глава 6. ............................................................... 179 t-распределение ............................................................................................. 179 Одновыборочный t-критерий .......................................................................... 182 t-критерий для независимых выборок ............................................................. 184 t-критерий для парных измерений .................................................................. 188 t-критерий для выборок с неравной дисперсией ............................................. 191 Упражнения..................................................................................................... 192 Глава 7. Коэффициент корреляции Пирсона .............................. 196 Связь .............................................................................................................. 196 Диаграмма рассеяния ..................................................................................... 198 Коэффициент корреляции Пирсона ................................................................ 205 Коэффициент детерминации .......................................................................... 210 Упражнения..................................................................................................... 211 Глава 8. Введение в регрессию и дисперсионный анализ .............215 Общая линейная модель ................................................................................. 215 Линейная регрессия........................................................................................ 217 Дисперсионный анализ (ANOVA) ..................................................................... 228 Расчет простой регрессии вручную ................................................................. 235 Упражнения..................................................................................................... 237 Глава 9. Многофакторный дисперсионный анализ и ковариационный анализ .......................................................245 Многофакторный дисперсионный анализ ....................................................... 245 ANCOVA ........................................................................................................... 254 Упражнения..................................................................................................... 260 7 Оглавление Глава 10. Множественная линейная регрессия ...........................265 Модели множественной регрессии ................................................................. 265 Упражнения..................................................................................................... 291 Глава 11. Логистическая, мультиномиальная и полиномиальная регрессия ............................................................................296 Логистическая регрессия ................................................................................ 296 Мультиномиальная логистическая регрессия .................................................. 303 Полиномиальная регрессия ............................................................................ 306 Переподгонка ................................................................................................. 310 Упражнения..................................................................................................... 312 Глава 12. Факторный, кластерный и дискриминантный анализы ... 315 Факторный анализ .......................................................................................... 315 Кластерный анализ ......................................................................................... 323 Дискриминантный анализ ............................................................................... 327 Упражнения..................................................................................................... 330 Глава 13. Непараметрическая статистика ..................................332 Независимые выборки .................................................................................... 333 Зависимые выборки ........................................................................................ 341 Упражнения..................................................................................................... 346 Глава 14. Статистика для бизнеса и контроля качества ................349 Индексы .......................................................................................................... 349 Временны е ряды ............................................................................................. 354 Анализ решений .............................................................................................. 358 Улучшение качества ........................................................................................ 363 Упражнения..................................................................................................... 371 Глава 15. Статистика в медицине и эпидемиологии .....................376 Показатели заболеваемости ........................................................................... 376 Отношение рисков .......................................................................................... 388 Отношение шансов ......................................................................................... 393 Искажение, послойный анализ и коэффициент Мантеля–Гензеля ................... 396 Анализ мощности ............................................................................................ 401 Вычисление размера выборки ........................................................................ 404 Упражнения..................................................................................................... 407 Глава 16. Статистика в образовании и психологии...................... 411 Перцентили ..................................................................................................... 412 Стандартизированные баллы .......................................................................... 414 Разработка тестов ........................................................................................... 417 Классическая теория тестов: модель истинных баллов ................................... 420 Надежность теста ............................................................................................ 421 Показатели внутренней непротиворечивости .................................................. 422 Анализ заданий ............................................................................................... 426 Современная теория тестирования ................................................................. 430 Упражнения..................................................................................................... 435 Глава 17. Управление данными ................................................437 Общий подход, а не набор методов ................................................................. 438 8 Оглавление Иерархия ........................................................................................................ 439 Кодификатор................................................................................................... 439 Прямоугольный файл данных .......................................................................... 442 Электронные таблицы и реляционные базы данных ........................................ 444 Проверка нового файла данных ....................................................................... 445 Текстовые и числовые данные ......................................................................... 449 Пропущенные данные ..................................................................................... 450 Глава 18. Планирование исследования .....................................453 Словарь основных терминов ........................................................................... 454 Наблюдения .................................................................................................... 457 Квазиэкспериментальные исследования ........................................................ 459 Эксперименты ................................................................................................ 465 Сбор экспериментальных данных .................................................................... 467 Пример экспериментального дизайна............................................................. 477 Глава 19. Представление статистических материалов .................479 Общие замечания ........................................................................................... 480 Глава 20. Оценка работ по статистике других авторов ..................488 Оценка статьи в целом .................................................................................... 488 Ошибки в применении статистики ................................................................... 490 Общие проблемы ............................................................................................ 490 Быстрая проверка ........................................................................................... 492 Спорные вопросы планирования исследования .............................................. 495 Описательная статистика ................................................................................ 498 Логическая статистика .................................................................................... 503 Приложение А. Обзор основных математических понятий ............506 Приложение B. Краткий обзор статистических пакетов ................530 Приложение C. Ссылки .......................................................... 545 Приложение D. Таблицы вероятностей для распространенных типов распределений ............................................................ 559 Приложение E. Интернет-ресурсы ........................................... 571 Приложение F. Словарь статистических терминов ..................... 576 ПРЕДИСЛОВИЕ Первое издание «Статистики для всех» пользовалось оглушительным успехом, однако любую книгу можно улучшить, и я благодарна за предоставленную возможность переработать ее. Мой принцип изложения не изменился: эта книга гораздо больше предназначена тем, кто хочет размышлять и понимать результаты статистической обработки данных, чем тем, кто хочет узнать, как пользоваться конкретным статистическим пакетом программ или углубиться в математические основы при помощи статистических формул. Эта книга также несколько отличается от других изданий в этой серии «Руководств для всех» издательства О’Рейлли – она действительно находится где-то между руководством для тех, кто уже знаком со статистикой, и учебником для людей, которые только начали осваивать этот предмет. на продолжающееся проникновение статистики во многие области нашей жизни, одна вещь осталась неизменной: сказать, что ты работаешь статистиком, – по-прежнему верный способ испортить приятную беседу на вечеринке. Почему-то оказывается, что это побуждает людей рассказать мне, как они ненавидели обязательные занятия по статистике в колледже, или заставляет их процитировать старую шутку, ставшую популярной благодаря Марку Твену, о том, что существует три вида лжецов: простые лжецы, отъявленные лжецы и статистики. Лично я нахожу статистику захватывающей и обожаю работать в этой области. Я также люблю преподавать статистику, и мне нравится думать, что я заражаю своим энтузиазмом окружающих. Хотя часто это превращается в напряженную битву; многие считают, что статистика – это не более чем набор хитростей и подтасовок для искажения реальности, которые нужны, чтобы одурачить других людей. Другие занимают противоположную позицию, полагая, что статистика – это набор волшебных приемов, которые избавят вас от необходимости размышлять над данными. Ну хорошо, и что же такое статистика? Прежде чем погрузиться в технические детали изучения и использования статистики, вернемся на минуту назад и обсудим, что можно подразумевать под словом «статистика». Не беспокойтесь, если вы сразу не поймете всю терминологию, она прояснится в ходе чтения этой книги. 10 Предисловие Когда люди говорят о статистике, они обычно имеют в виду один или несколько пунктов из приведенного ниже перечня: 1. Числовые данные, такие как уровень безработицы, число людей, умирающих ежегодно от пчелиных укусов, или численность жителей г. Нью-Йорк в 2006 году по сравнению с 1906 годом. 2. Числа, использованные для описания выборок, в противоположность параметрам (числам, характеризующим генеральную совокупность). Например, рекламная компания может интересоваться средним возрастом подписчиков журнала «Спортс Иллюстрейтед» (Sports Illustrated) 1 . Для ответа на этот вопрос компания может создать случайную выборку подписчиков, вычислить среднее значение для этой выборки (статистику) и использовать его как оценку среднего значения для всей генеральной совокупности подписчиков (параметра). 3. Определенные методы анализа данных и результаты такого анализа, такие как t-статистика или статистика хи-квадрат. 4. Область науки, которая разрабатывает и использует математические методы для описания данных и формирования суждений о них. Тот тип статистики, о котором говорится в первом определении, не имеет прямого отношения к этой книге. Если вы просто хотите найти последние данные о безработице, здоровье или о любой из множества других тем, по которым правительство или другие организации регулярно публикуют статистические данные, вам лучше всего проконсультироваться у библиотекаря или у специалиста в данной области. Если же вы хотите узнать, как интерпретировать эти данные (понять, например, почему среднее арифметическое часто бывает плохим показателем средней тенденции, или сравнить исходные и стандартизованные показатели смертности), то «Статистика для всех» точно вам поможет. Понятия, использованные во втором определении, будут обсуждаться в главе 3, посвященной предсказательным статистикам. Однако эти термины пронизывают всю книгу. Это отчасти терминологические тонкости (статистики – это числа, которые описывают выборки, а параметры характеризуют генеральные совокупности), которые тем не менее подчеркивают ключевой момент применения статистики. Идея использования информации, полученной при изучении выборки, для формирования суждений обо всей генеральной совокупности лежит в основе всей предсказательной статистики, а предсказательная статистика – это основная тема этой книги (как и большинства других книг, посвященных статистике). Третье определение также является ключевым для большинства глав этой книги. Процесс изучения статистики до некоторой степени сводится к освоению определенных статистических методов, включая такие вопросы, как способы вычислений и их интерпретации, выбор подходящей статистики в конкретной ситуации и так далее. На самом деле многие люди, начинающие изучать статистику, держат в голове в основном это определение. Освоить статистику для них означает узнать, 1 Еженедельный иллюстрированный спортивный журнал, крупнейшее и самое популярное спортивное издание в США. – Прим. пер. 12 Предисловие протяжении десятилетий, а лучшая защита против тех, кто хотел бы солгать при помощи статистики, – стать более образованным, чтобы быть способным выявить лжецов и немедленно остановить их. Основная цель этой книги В продаже существует уже столько книг по статистике, что вы могли бы сильно удивиться, почему я чувствую необходимость добавить еще одну книгу к этому множеству. Основная причина заключается в том, что я не нашла ни одной книги по статистике, которая отвечала бы задачам, поставленным мною в «Статистике для всех». На самом деле, если позволите на мгновение впасть в поэтическое настроение, ситуация состоит в том, что, перефразируя состояние старого морехода Кольриджа, «книги, повсюду книги, но ни одной, по которой можно научиться» 2 . Проблемы, которые я постаралась решить в этой книге, таковы: • нужда в книге, которая была бы посвящена использованию и пониманию статистики в контексте исследований или прикладной науки, не как отдельного набора математических методов, а как части процесса обоснования заключений при помощи цифр; • необходимость включения таких тем, как теория измерений и управление данными во введение в статистику; • необходимость в книге по статистике, которая не была бы посвящена одной конкретной области знаний. Простейшая статистика в основном одинакова для всех дисциплин (тест Стьюдента работает одинаково для данных из области медицины, финансов или криминальной юстиции), так что незачем умножать тексты, представляя одну и ту же информацию немного в другом ракурсе; • нужда во введении в статистику, которое было бы компактным, недорогим и простым для понимания начинающих, избегая снисходительного тона или излишнего упрощения. Так кто же предполагаемые читатели «Статистики для всех?» Я вижу три группы читателей, для которых эта книга будет наиболее полезной: • учащиеся, которые посещают вводные курсы по статистике в средней школе, колледжах и университетах; • взрослые люди, которым нужно освоить статистику для выполнения текущих задач или для карьерного роста; • те, кому интересно узнать, что такое статистика, из любопытства. В этой книге я делаю акцент не на конкретные методы, хотя многим из них вы научитесь в процессе чтения, а на обосновании заключений при помощи статистики. Можно сказать, что цель этой книги в меньшей степени заключается в том, чтобы производить статистические вычисления, и в большей степени, – чтобы мыслить статистически. Что это значит? Мышление с использованием чисел тре2 Имеются в виду строки поэмы английского поэта Сэмюэла Кольриджа «Сказание о старом мореходе»: «Вода, вода, одна вода/Мы ничего не пьем» (вольный перевод Н. С. Гумилева). – Прим. пер. 13 Статистика в информационную эпоху бует определенных навыков. В частности, я делаю упор на осмысление данных и использование статистики для облегчения этого процесса. Во многих главах приведены практические задания, которые задуманы как повод пересмотреть представленный материал и подумать о ключевых понятиях, введенных в данной главе, они не требуют бездумных вычислений. Весь материал «Статистики для всех» был переработан, и многие главы дополнены новыми примерами и упражнениями. В частности, добавлены примеры работы с пропорциями, а также примеры с использованием реальных наборов данных из таких источников, как Проект ООН по развитию человечества (United Nations Human Development Project) и Система слежения за факторами поведенческого риска (Behavioral Risk Factor Surveillance System). Оба этих набора данных можно бесплатно скачать из Интернета, так что студенты могут экспериментировать с ними, а также воспроизвести процедуры, описанные в этой книге. В это издание также добавлена глава 19. Я сделала это, потому что заметила, что умение доводить до сведения окружающих статистическую информацию по меньшей мере так же важно, как и способность выполнять статистические вычисления, в особенности для тех, кто учится статистике для своей профессиональной деятельности. Также добавлено несколько новых приложений, в основном для того, чтобы сделать книгу более самодостаточной и дружественной к читателю. Эти приложения включают вероятностные таблицы для самых распространенных типов распределений, перечень информационных ресурсов Интернета, словарь и таблицу статистических обозначений. Статистика в информационную эпоху Стало модным говорить, что мы живем в информационную эпоху, когда люди получают и распространяют столько сведений, что никто не может быть в курсе всего. Это клише основано на правдивом наблюдении; общество «тонет» в данных, и, похожа, эта проблема становится только острее. В этом есть свои плюсы и свои минусы. К положительным моментам можно отнести то, что широкий доступ к компьютерным технологиям и электронным средствам хранения и распространения данных облегчил доступ к информации, так что теперь у исследователей снизилась потребность в поездках в определенную библиотеку или архив для работы с печатными источниками. Тем не менее данные сами по себе ничего не значат. Они должны быть упорядочены и интерпретированы людьми, чтобы обрести смысл, так что полноценная жизнь в информационную эпоху подразумевает глубокое понимание данных, включая способы их сбора, анализа и интерпретации. И поскольку одни и те же данные могут быть часто интерпретированы разными способами для обоснования совершенно противоположных заключений, даже людям, которые сами не работают в области статистики, нужно понимать, как статистика работает и как выявить безосновательные заявления и аргументы, основанные на неправильном использовании данных. 14 Предисловие Структура книги «Статистика для всех» состоит из трех частей: вводная информация (главы 1–4), где закладывается необходимое основание для понимания последующих глав; методы предсказательной статистики (главы 5–13); специальные методы, которые используются в различных областях науки (главы 14–16), и вспомогательные темы, которые часто являются частью работы статистика, даже если они не относятся к статистике как таковой (главы 17–20). Вот более детальное содержание глав. Глава 1. Основные понятия, связанные с измерениями Обсуждаются основополагающие вопросы статистики, включая шкалы измерений, операционализацию, опосредованное измерение, случайные и систематические ошибки, надежность и валидность, а также типы смещения измерений. Глава 2. Теория вероятности Описаны основные понятия теории вероятности, включая испытания, события, независимость, взаимное исключение, правила аддитивности и перемножения, комбинации и перестановки, условную вероятность и теорему Байеса. Глава 3. Статистический вывод Введены некоторые базовые понятия статистического вывода, включая распределение вероятностей, зависимые и независимые переменные, генеральные совокупности и выборки, распространенные способы создания выборок, центральную предельную теорему, проверку гипотез, ошибки первого и второго типа, доверительные интервалы и значения а также p, преобразование данных. Глава 4. Описательные статистики и графическое представление данных Дана информация о распространенных показателях центральной тенденции и разброса, включая среднее арифметическое, медиану, моду, абсолютный размах, межквартильный размах, дисперсию и стандартное отклонение, а также обсуждаются выбросы. В этой главе рассмотрены наиболее часто используемые графические способы представления статистической информации, включая частотные таблицы, столбчатые и круговые диаграммы, диаграммы Парето, диаграммы типа «стебель с листьями», диаграммы размаха и рассеяния, а также линейные графики. Глава 5. Категориальные данные Представлен обзор концепций категориальных и интервальных данных, введено понятие таблицы сопряженности. В этой главе обсуждаются такие статистические методы, как тест хи-квадрат на независимость, тест равенства пропорций, критерий согласия, точный тест Фишера, тест МакНемара, тесты пропорций для больших выборок, а также меры сопряженности для категориальных и порядковых данных. 15 Структура книги Глава 6. t-критерий Обсуждается распределение Стьюдента, теория и применение теста Стьюдента для одной выборки, для двух независимых выборок, для результатов повторных измерений и в случае неравенства дисперсий. Глава 7. Коэффициент корреляции Пирсона При помощи диаграмм, демонстрирующих разную силу связи между двумя переменными, вводится понятие связи, также обсуждается коэффициент корреляции Пирсона и коэффициент детерминации. Глава 8. Введение в регрессию и дисперсионный анализ Показано отношение линейной регрессии и дисперсионного анализа к концепции обобщенной линейной модели, и обсуждаются допущения, которые принимаются при использовании этих видов анализа данных. Обсуждается и на примерах разбирается применение простой регрессии (для двух переменных), однофакторного дисперсионного анализа и апостериорного тестирования гипотез. Глава 9. Многофакторный дисперсионный анализ и ковариационный анализ Обсуждаются более сложные схемы дисперсионного анализа, включая двух- и трехфакторный дисперсионный анализ и ковариационный анализ, а также поднимается тема взаимодействия переменных. Глава 10. Множественная линейная регрессия Регрессионная модель расширяется за счет включения множественных независимых переменных. Рассмотрены связи между независимыми переменными, стандартизованные и нестандартизованные коэффициенты, фиктивные переменные, способы построения моделей, а также отклонения от допущений, принимаемых при линейной регрессии, включая нелинейность, автокорреляцию и гетероскедатичность. Глава 11. Логистическая, мультиномиальная и полиномиальная регрессия Расширяет применение регрессионного анализа до бинарных данных (логистическая регрессия), категориальных данных (мультиномиальная регрессия) и нелинейных моделей (полиномиальная регрессия), также обсуждается проблема избыточной подгонки модели. Глава 12. Факторный, кластерный и дискриминантный анализ Описаны три сложные статистические процедуры: факторный, кластерный и дискриминантный анализ, обсуждаются группы задач, для решения которых эти методы могут быть полезны. Глава 13. Непараметрическая статистика Обсуждается, когда нужно использовать непараметрическую статистику вместо параметрической, а также описаны методы для внутри- и межгрупповых сравнений, включая тесты Вилкоксона, Манна–Уитни, Краскел– Уоллиса, Фридмана, критерий знаков и медианный критерий. Глава 14. Статистика для бизнеса и контроля качества Приведены статистические методы, которые часто используются в бизнесе . 18 Предисловие Классификация сведений на элементарные и сложные зависит от личных знаний и задач. Я написала «Статистику для всех» так, чтобы она отвечала задачам многих категорий читателей. Из-за этого невозможно расположить материал в идеальной последовательности, так, чтобы это удовлетворяло запросам каждого. Это соображение приводит нас к важному заключению: нет никакой необходимости читать главы в том порядке, в каком они представлены здесь. В статистике есть много дилемм типа «что было раньше, яйцо или курица?». К примеру, вы не можете спланировать эксперименты, не зная, какие типы статистической обработки данных вам доступны, при этом вы не сможете понять, как применяется статистика, без каких-либо знаний о планировании исследований. Сходным образом может казаться логичным, что тот, кто занялся управлением данными, уже имеет опыт статистического анализа, однако я консультировала многих лаборантов и руководителей проектов, которым было поручено разобраться с объемными наборами данных до того, как они прослушали хотя бы один курс по статистике. Так что читайте эти главы в том порядке, который облегчает выполнение стоя#8;щих перед вами задач, и не стесняйтесь пропустить что-то и сосредоточиться на том, что отвечает вашим конкретным потребностям. Не весь материал этой книге и актуален для каждого, это наиболее очевидно для глав 14–16, которые посвящены определенным областям науки (бизнес и контроль качества, медицина и эпидемиология, образование и психология соответственно). Однако полезно быть открытым всему новому, если дело касается знания статистических методов. В данный момент вы можете быть уверенным, что вам никогда не понадобится проводить непараметрический тест или логистический регрессионный анализ, но вы никогда не знаете, что пригодится в будущем. Также неправильно слишком четко делить методы по областям знаний; поскольку статистические методы в конечном счете имеют дело с числами, а не с содержанием; методы, разработанные в одной области знаний, часто пригождаются в другой. Например, контрольные карты (обсуждаемые в главе 14) были разработаны для производственных нужд, а теперь широко используются во многих областях от медицины до образования, тогда как коэффициент несогласия (глава 15), разработанный в эпидемиологии, теперь применяется ко всем типам данных. Условные обозначения, используемые в этой книге В этой книге принята следующая система обозначений: Обычный текст Обозначает названия пунктов меню, опций, кнопок на экране и клавишей клавиатуры (таких как и Alt Ctrl). Курсив Обозначает новые термины, названия файлов и их расширения, путь к файлам, директории и утилиты Unix. 19 Об авторе Нижнее подчеркивание Ссылки на страницы в Интернете, адреса электронной почты. Эта пиктограмма обозначает совет, предложение или общее замечание. Эта пиктограмма обозначает предостережение. Благодарности На обложке указан только один автор, однако многие люди приложили руку к созданию этой книги. Я хотела бы поблагодарить моего агента Нейла Залкинда (Neil Salkind) за постоянные советы и поддержку; команду О’Рейлли, включая Мэри Трезелер (Mary Treseler), Сару Шнейдер (Sarah Schneider) и Меган Бланше (Meghan Blanchette), а также всех статистиков, которые помогали при техническом рецензировании текста. Я бы также хотела поблагодарить моих далеких от статистики друзей, которые постоянно требовали от меня объяснять им статистические концепции, что подтолкнуло меня к написанию этой книги, и моих коллег из центра устойчивой журналистики в государственном университете Кеннесо (Center for Sustainable Journalism at Kennesaw State University) за их терпение и снисходительность во время моего труда над переработкой этой книги. От всей души хочу поблагодарить мою бывшую коллегу Ранд Росс (Rand Ross) из университета Вашингтона в Сент-Луисе (Washington University in St. Louis) за то, что она помогала мне не сойти с ума во время написания первого издания этой книги, и моего мужа Дэна Пека (Dan Peck) за то, что он был воплощением современного супруга, готового всегда оказать поддержку. Об авторе Сара Бослаф (Sarah Boslaugh) получила докторскую степень по исследованиям и оцениванию в городском университете Нью-Йорка. В течение 20 лет она работала как статистический аналитик в различных профессиональных организациях, включая городской совет Нью-Йорка по образованию (New York City Board of Education), исследовательское отделение (Institutional Research Office) городского университета Нью-Йорка, медицинский центр Монтефиоре (Montefiore Medical Center), отдел социального обеспечения в Вирджинии (Virginia Department of Social Services), медицинская организация Магеллан (Magellan Health Services), медицинская школа при университете г. Вашингтон (Washington University School of Medicine) и организации BJC HealthCare. Она преподавала статистику в разных 20 Предисловие аудиториях, а сейчас работает составителем заявок на гранты в государственном университете Кеннесоу (Kennesaw). Сара Бослаф уже опубликовала две книги: «Справочник по программированию в SPSS средней сложности: использование программного кода для управления данными» (“An Intermediate Guide to SPSS Programming: Using Syntax for Data Management”, SAGE Publications, 2004) и «Вторичные источники данных в здравоохранении» (“Secondary Data Sources for Public Health”, Cambridge University Press, 2007), а также редактировала «Энциклопедию эпидемиологии» (“Encyclopedia of Epidemiology” for SAGE Publications, 2007). В 2013 году издательством SAGE опубликована её новая книга, – «Системы здравоохранения во всем мире: сравнительный справочник» (“Healthcare Systems Around the World: A Comparative Guide”). Об иллюстрации на обложке На обложке книги «Статистика для всех» изображен колючий краб-паук (Maja Этот краб обитает в cеверо-восточной части Атланsquinado, Maja brachydactyla). тического океана и в Средиземном море. Это самый крупный краб в Европе, диаметр его карапакса колеблется от 5 до 17 см. Его легко отличить от других крабов по двум похожим на рога шипам между глаз и шести, или около того, шипикам расположеным на каждой стороне панциря. Панцирь краба-паука красноватый с розовыми, коричневыми или желтыми отметинами и вся его поверхность покрыта мелкими шипами, как следует из названия животного. Крабы-пауки иногда выползают на берег, но предпочитают глубины от 30 до 180 м. Это одиночные животные, за исключением периода спаривания, когда они образуют большие скопления. В годы, когда эти крабы особенно многочисленны, они могут досаждать ловцам омаров, поскольку могут разорять ловушки. Крабыпауки сами являются объектом промысла из-за вкусного мяса конечностей. Самцы крабов-пауков – активные хищники; их, кажущиеся слабыми конечности, на самом деле довольно мощные и могут открывать раковины небольших моллюсков, которых крабы поедают. Их конечности имеют два сочленения, так что крабы-пауки способны достать клешнями до своей спины, чтобы ущипнуть обидчика, хотя в целом безопаснее его держать за створки панциря. Клешни самок мельче и менее подвижные, поэтому они более уязвимы для нападения. Для защиты от врагов, к которым относятся омары, рыбы-губаны и каракатицы, многие виды крабов-пауков украшают свои колючие панцири водорослями, губками или грунтом, чтобы лучше замаскироваться на фоне дна. Изображение на обложке предоставлено естественно-научной библиотекой Лидеккера (Lydekker’s Library of Natural History). ГЛАВА 1. Основные понятия, связанные с измерениями Для использования статистики при решении определенной задачи необходимо преобразовать информацию об этой задаче в данные. Это значит, что вы должны разработать или применить систему присвоения значений, чаще всего чисел, ключевым для рассматриваемой проблемы объектам или понятиям. Это не скрытый от понимания непосвященных процесс, а то, что люди делают ежедневно. Например, когда вы покупаете что-нибудь в магазине, сумма, которую вы платите, – это измерение: она выражает количество денег, которое вы должны заплатить, чтобы купить что-то. Аналогичным образом, когда вы утром становитесь на весы, число, которое вы видите, – это измерение вашего веса. В зависимости от места вашего проживания это число может быть выражено в фунтах или килограммах, но принцип присвоения числа физической величине (весу) сохраняется в любом случае. Подходящие для анализа данные не обязательно должны быть числовыми. Например, понятия и обычно используются в науке и повседневмужчина женщина ной жизни для классификации людей, и за этими категориями не стоит никаких чисел. Аналогично мы часто говорим о цветах объектов, таких как и красный сии к этим категориям также не привязано никаких чисел. (Хотя вы можете ний, сказать, что этим цветам свойственны разные длины волны света, это знание не нужно для классификации объектов по цветам.) Этот тип категориального мышления – привычный ежедневный опыт, и нас редко раздражает тот факт, что разные категории используются в разных ситуациях. Например, художник может различать и карминовый, малиновый гранатовый, тогда как неспециалисту достаточно называть их все Сходным образом красным. социолог, собирающий информацию о семейном статусе людей, будет различать никогда не состоявших в браке, разведенных и вдовцов, тогда как для кого-нибудь человек, относящийся к любой из этих трех категорий, будет просто холостым. Здесь важно понять, что уровень детализации, используемый при классификации, должен соответствовать ситуации, исходить из цели классификации и назначения собранной информации. 22 Глава 1. Основные понятия, связанные с измерениями Измерение Измерение – это процесс систематичного присвоения чисел объектам и их свойствам для облегчения использования математического аппарата при изучении и описании объектов и их взаимосвязей. Некоторые типы измерений абсолютно конкретны: например, измерения веса человека в фунтах или килограммах или его роста в футах и дюймах или метрах. Обратите внимание, что определенная система единиц измерения не так важна, как применение определенного набора правил: мы можем легко преобразовать вес, выраженный в килограммах, в вес, выраженный в фунтах, например. Хотя любая система единиц измерения может показаться необоснованной (попробуйте защитить футы и дюймы от нападок того, кто вырос, используя метрическую систему!), пока система остается постоянной по отношению к измеряемым признакам, мы можем использовать полученные результаты для вычислений. Измерения не ограничены физическими величинами, такими как рост и вес. Тесты для измерения абстрактных величин, таких как интеллект или академическая успеваемость, широко используются в образовании и психологии, а разработкой и улучшением методов исследований этих типов абстрактных конструктов занимается специальная дисциплина – психометрика. Утверждать, что определенное измерение точно и осмысленно, более трудно, если его нельзя напрямую наблюдать. Однако вы можете оценить точность одной шкалы измерений, сравнивая результаты, которые были получены при помощи другой шкалы, точность которой известна. Применимость такого подхода при измерении веса не вызывает сомнений, дело обстоит сложнее, когда вам нужно измерить такой параметр, как интеллект. В данном случае не только не существует общепризнанных метрик интеллекта, с которыми можно сравнить новую шкалу, нет даже общего согласия по поводу того, что подразумевается под интеллектом. Иными словами, трудно уверенно судить о чьем-нибудь интеллекте, поскольку не существует ясного способа его измерения и, строго говоря, нет общепринятого определения интеллекта. Эти вопросы особенно актуальны в социологии и образовании, в которых основная часть исследований сосредоточена на таких абстрактных понятиях. Типы измерений В статистике обычно выделяют четыре типа, или уровня, измерений, эти же термины могут быть отнесены и к самим данным. Уровни измерений различаются и по смыслу чисел, используемых в системе измерений, и по типу статистических процедур, которые корректно применять для обработки данных. Номинальные данные Для числа выступают в виде имени или ярлыка и не имеют номинальных данных смысла как числа. Например, вы можете создать переменную для пола, которая принимает значение 1 для мужчин и 0 для женщин. Эти 0 и 1 не имеют смысла как 23 Типы измерений числа, а выступают в роли «ярлыков», сходным образом вы можете закодировать эти значения как М и Ж. Однако исследователи часто предпочитают числовую кодировку значений по нескольким причинам. Во-первых, это упрощает анализ данных, поскольку некоторые статистические программы не допускают использования нечисловых значений при определенных типах обработки данных. (Так что любые нечисловые данные придется перекодировать перед анализом.) Во-вторых, кодирование данных при помощи чисел позволяет избежать некоторых проблем при вводе данных, таких как конфликт между прописными и строчными буквами (для компьютера и – разные значения, однако тому, кто вводит данные, они М м могут показаться одинаковыми). Номинальные данные могут иметь больше двух значений. Например, если вы изучаете связь между опытом игроков в бейсбол и их зарплатой, вы можете классифицировать игроков по их основной роли, используя традиционную систему: 1 – подающий, 2 – принимающий, 3 – первый полевой игрок и так далее. Если вы не можете решить, относятся ли ваши данные к номинальному типу, задайте себе вопрос: отражают ли числа некоторое свойство так, что более высокое значение означает наличие большего количества этого свойства? Рассмотрим пример с кодировкой пола, где 0 обозначает женщину, а 1 – мужчину. Есть ли некоторое свойство пола, которым мужчина обладает в большей степени, чем женщина? 1 Конечно нет, и кодировка будет работать, если обозначать женщин 1, а мужчин 0. Тот же принцип применим и к бейсбольным игрокам: нет такого качества, как «бейсбольность», которое свойственно в большей степени полевым игрокам, по сравнению с подающими. Числа – всего лишь удобный способ обозначения объектов исследования, и наиболее важно то, что каждому состоянию признака соответствует свое значение. Другое название номинальных данных – категориальные, что отражает тот факт, что измерения скорее разделяют объекты на категории (мужчина или женщина, подающий или полевой игрок), а не измеряют некоторые присущие им свойства. В пятой главе обсуждаются методы анализа, подходящие для этого типа данных, и некоторые из разобранных в главе 13 непараметрических методов также подходят для категориальных данных. Когда данные принимают только два значения, как в случае с женщинами и мужчинами, их называют бинарными. Этот тип данных настолько распространен, что для его анализа разработаны специальные методы, включая логистическую регрессию (обсуждается в главе 11), которая применяется во многих областях науки. Многие используемые в медицине статистики, такие как отношение шансов и отношение рисков (обсуждаются в главе 15), были разработаны для описания взаимосвязи между двумя бинарными переменными, поскольку они очень часто используются в медицинских исследованиях. Порядковые данные – это данные, которые можно расположить в каком-либо Порядковые данные осмысленном так что бо#8;льшие значения соответствуют бо#8;льшему пропорядке, Неудачный пример с точки зрения биолога. – Пр вом смысле. 29 Истинные значения и ошибки Суррогатные конечные точки Суррогатные конечные точки – это тип опосредованных измерений, используемых в клинических испытаниях в качестве замены реальных конечных точек. Например, определенный протокол лечения может быть разработан для предотвращения смерти (реальная конечная точка), но поскольку смерть при данном состоянии пациентов может быть редким событием, для более быстрого накопления данных об эффективности лечения можно использовать суррогатную конечную точку. Обычно это биологический маркер, связанный с реальной конечной точкой. Например, если лекарство должно предотвращать смерть от рака простаты, суррогатной конечной точкой может быть уменьшение размера опухоли или снижение концентрации специфичных антител. Проблема использования суррогатных конечных точек заключается в том, что хотя лечение может быть эффективным для улучшения состояния в этих конечных точках, это не обязательно значит, что оно приведет к успеху при достижении интересующего нас клинического результата. Например, мета-анализ, проведенный Стефаном Мичильсом (Stephan Michiels) с коллегами (ссылка приведена в приложении C), показал, что для местно-распространенных плоскоклеточных карцином головы и шеи коэффициент корреляции между контролем над расположением (суррогатная конечная точка) и общей выживаемостью (реальная клиническая конечная точка) колебался от 0,65 до 0,76 (если результаты были одинаковыми для обеих конечных точек, коэффициент корреляции был бы равен 1,00). Суррогатные конечные точки часто неправильно используются, будучи назначенными постфактум, замещая результат, определенный до начала испытания или в обоих этих случаях сразу. Поскольку суррогатной конечной точки легче достичь, это может привести к разработке нового лекарства с доказанной эффективностью, которое может слабо влиять на реальную конечную точку или даже быть опасным. Более подробное обсуждение общих вопросов, связанных с суррогатными конечными точками, приведено в статье Томаса Р. Флеминга (Thomas R. Fleming), ссылка на которую приведена в приложении C. Истинные значения и ошибки Мы можем с уверенностью утверждать, что абсолютно точных измерений очень мало (если они вообще существуют). Это правда не только потому, что измерения производят и записывают люди, но также потому, что процесс измерений часто подразумевает присвоение дискретных чисел непрерывным величинам. Одна из задач теории измерений состоит в осмыслении и количественном выражении ошибок, содержащихся в определенном наборе измерений, а также в выявлении источников и последствий этих ошибок. Классическая теория измерений рассматривает каждое измерение или наблюдаемое значение как сумму двух составляющих: истинного значения (T) 2 и ошибки (E) . Это выражается в следующей формуле: 3 X = T + E, где – наблюдаемое значение измерения, – истинное значение, а – ошибка. X T E Например, весы могут показать, что чей-нибудь вес равен 120 фунтам, в то время 2 От англ. – истинный. – true Прим. пер. 3 От англ. – ошибка. – error Прим. пер. 30 Глава 1. Основные понятия, связанные с измерениями как этот человек на самом деле весит 118 фунтов, а ошибка в два фунта происходит из-за неточности шкалы. Это можно выразить при помощи приведенной выше формулы как 120 = 118 + 2, что представляет собой просто математическое равенство, выражающее связь между этими тремя величинами. Однако и T, и E – это теоретические конструкты. В реальном мире мы редко точно знаем истинное значение и, следовательно, также не можем знать точное значение ошибки. Процесс измерений по большей части заключается в оценке величины и максимизации «истинной» составляющей и минимизации ошибки. Например, если вы делаете ряд измерений веса одного и того же человека в течение короткого промежутка времени (так что его истинный вес можно считать постоянным), используя недавно откалиброванные весы, вы можете использовать среднее арифметическое всех этих измерений как хорошую оценку истинного веса этого человека. Затем вы можете трактовать различия между отдельным измерением и средним значением как ошибку измерений, такую как небольшую неисправность весов или неточность в считывании и записи результатов. Случайная и систематическая ошибка Поскольку мы живем в реальном мире, а не в идеальной вселенной Платона, мы предполагаем, что в измерениях содержится некоторая ошибка. Однако не все ошибки имеют одинаковое происхождение, и мы можем научиться жить со слуно любыми способами должны избегать чайными ошибками, систематических Случайные ошибки невозможно предсказать: у них нет какой-либо опошибок. закономерности, и считается, что они взаимоуничтожаются при повторных измерениях. Например, считается, что среднее арифметическое ошибок в серии измерений равно нулю. Так что если кто-нибудь взвесился 10 раз подряд на одних и тех же весах, вы можете заметить небольшие различия в зарегистрированных значениях: некоторые будут меньше истинного, а некоторые – больше. Если истинное значение веса составляет 120 фунтов, возможно, первое измерение будет равно 119 фунтам (включая ошибку в –1 фунт), второе – 122 фунтам (с ошибкой в +2 фунта), третье – 118,5 фунта (ошибка в –1,5 фунта) и т. д. Если весы точные и все ошибки случайны, то их усредненное по многим наблюдениям значение будет равно 0, а усредненное значение измеренного веса – 120 фунтам. Вы можете постараться уменьшить величину случайной ошибки, используя более точные приборы, обучив ваш технический персонал правильному их использованию и так далее, но вы не можете полностью избавиться от случайной ошибки. У случайной ошибки есть еще два свойства: она не связана с истинным значением, а ее величина для одного наблюдения не связана с ее величиной для другого наблюдения. Первое свойство означает, что значение ошибки для любого измерения не связано с его истинным значением. Например, если вы взвешиваете несколько человек, истинный вес которых различается, вы не будете ожидать, что ошибка 31 Надежность и валидность для каждого наблюдения каким-либо образом связана со значениями истинного веса этих людей. Это значит, например, что ошибка не должна быть выше при бо#8;льших истинных значениях (истинном весе людей). Второе свойство означает, что ошибочная составляющая каждого измерения независима и не связана с ошибочной составляющей любого другого измерения. Например, в серии измерений величина ошибки не должна увеличиваться со временем, так чтобы более поздние измерения характеризовались бы большей ошибкой. Характеризуя первое требование, иногда говорят, что коэффициент корреляции между истинным значением и ошибкой равен 0, а второе требование иногда выражается в утверждении, что коэффициент корреляции между ошибками равен 0 (корреляция подробнее обсуждается в главе 7). В противоположность изложенному выше значения систематической ошибки имеют заметную структуру, которая формируется не случайно, а часто имеет причину или причины, которые можно выявить и устранить. Например, весы могут быть неправильно калиброваны так, что они всегда показывают на 5 фунтов больше, чем есть на самом деле, так что среднее результатов многократных взвешиваний человека с истинным весом 120 фунтов будет равно 125 фунтам, а не 120. Систематические ошибки могут объясняться человеческим фактором, например техник считывала показания весов под углом, так что она видела стрелку, указывающую на бо#8;льшие значения, чем на самом деле. Если закономерность значений систематической ошибки обнаружена, например ее значения увеличиваются со временем (так что ошибочная составляющая измерений случайна в начале эксперимента, а затем возрастает), это полезная информация, поскольку можно вмешаться в ход эксперимента и повторно калибровать шкалу. На выявление источников систематической ошибки и разработку методов для ее обнаружения и удаления затрачивается много усилий: это подробнее обсуждается в одном из следующих разделов «Смещение измерений» на стр. 36. Надежность и валидность Существует много способов присвоения данным чисел или категорий, и не все из этих способов одинаково полезны. Для оценки способов измерений (например, опроса или теста) есть два параметра – и В идеале нам бы надежность валидность. хотелось, чтобы каждый используемый нами метод был и надежным, и валидным. В реальности эти качества не абсолютны, а всегда проявляются в некоторой степени, которая обычно зависит от обстоятельств. Например, опрос, который весьма надежен для определенных возрастных групп, может быть ненадежен для другой возрастной группы. Поэтому вместо обсуждения надежности и валидности как абсолютных величин часто полезнее оценить надежность и валидность способа измерений для конкретной задачи и допустимость достигнутого уровня надежности и валидности в определенном контексте. Надежность и валидность также обсуждаются в главе 18 в контексте планирования исследования и главе 16 в контексте образовательного и психологического тестирования. 32 Глава 1. Основные понятия, связанные с измерениями Надежность Надежность характеризует согласованность или воспроизводимость наблюдений. Например, если мы даем одному и тому же человеку один тест дважды, будут ли результаты сходными? Если мы научили трех людей пользоваться шкалой качества социальных взаимодействий, затем показали каждому из них одну и ту же видеосъемку взаимоотношений в группе людей и попросили оценить наблюдаемые социальные взаимодействия, будет ли результат одинаков? Если у нас есть технический работник, который взвесил одну и ту же деталь 10 раз на одних и тех же весах, будут ли результаты одинаковыми? В каждом случае, если ответ будет положительным, мы можем сказать, что тест, шкала или работник надежны. Многое в теории надежности было разработано исследователями педагогической психологии, и поэтому показатели надежности часто описываются в терминах надежности тестов. Однако вопросы надежности не ограничиваются тестированием в педагогике; те же самые концепции применимы ко многим другим типам измерений, включая исследования общественного мнения и поведения. Обсуждение в этой главе будет проведено на базовом уровне. Вычисление специализированных показателей надежности обсуждается более детально в главе 16 в контексте теории тестирования. Многие показатели надежности основаны на коэффициенте корреляции (также просто называемом корреляцией), так что начинающие статистики могут захотеть сосредоточиться на общей логике надежности и адекватности и отложить обсуждение подробностей их оценки до ознакомления с коэффициентом корреляции. Существуют три основных подхода к измерению надежности, каждый из которых полезен в своей ситуации и имеет свои достоинства и недостатки: • надежность множественных событий; • надежность множественных вариантов; • надежность внутренней непротиворечивости. Надежность множественных событий, иногда называемая надежностью повхарактеризуется тем, насколько сходные результаты поторного тестирования, лучаются при повторном использовании теста или шкалы. Из-за этого ее еще называют показателем имея в виду стабильность на провременно#8;й стабильности, тяжении определенного промежутка времени. Например, один и тот же человек может дважды с интервалом в две недели характеризовать психическое состояние пациента, основываясь на видеозаписи интервью, а затем сравнить результаты. Для того чтобы этот тип оценки надежности имел смысл, необходимо, чтобы измеряемая характеристика оставалась постоянной, поэтому здесь и идет речь о видеозаписях интервью, а не о двух интервью с пациентом, психологическое состояние которого может измениться за две недели. Надежность множественных событий не может быть оценена для непостоянных характеристик, таких как настроение, или таких характеристик, которые могут измениться в промежуток между наблюдениями (например, то, как студентка владеет предметом, который она интенсивно изучает). Распространенный метод оценки надежности м ваний, по крайней 36 Глава 1. Основные понятия, связанные с измерениями мере некоторые характеристики которых известны, мы можем добиться приемлемого измерения неизвестной величины. Мы ожидаем, что каждое измерение имеет свою ошибку, но мы надеемся, что эти ошибки не относятся к одному типу, так что при помощи нескольких типов измерений мы можем получить разумную оценку интересующего нас количества или свойства. Разработка метода триангуляции – непростое дело. Одна исторически важная попытка этого – матрица со многими параметрами и методами (multitrait, multimethod matrix, MTMM), разработанная Кэмпбеллом и Фиске (Campbell, Fiske, 1959). Их основная идея состояла в отделении той составляющей измерения, которая относится к интересующему нас признаку, от той составляющей, которая характеризует используемый метод измерений. Хотя эта методология меньше используется в наши дни и ее описание выходит за рамки пособия для начинающих, упомянутая концепция остается полезной как пример одного из способа размышлений об ошибке измерений и валидности. MTMM – это корреляционная матрица для измерений нескольких параметров, каждый из которых был оценен при помощи нескольких методов. В идеале для каждого признака должен был быть использован один и тот же набор методов. Мы ожидаем, что в этой матрице разные измерения одного и того же признака будут тесно связаны; например, показатели интеллекта, полученные при помощи нескольких методов, таких как тест, выполненный при помощи карандаша и бумаги, решение практических задач и структурированное интервью, должны быть тесно связаны между собой. По той же логике, показатели, характеризующие разные параметры, которые измеряются одним и тем же способом, не должны быть тесно связаны; например, показатели интеллекта, поведения и коммуникабельности, измеренные при помощи бумажной анкеты, не должны существенно коррелировать между собой. Смещение измерений Выявление смещения измерений (measurement bias) важно почти в любой научной области, но особенно актуально для социологии. К настоящему времени обнаружено и описано много частных случаев смещения измерений. Мы не будем перечислять их все, но обсудим несколько наиболее распространенных. Многие руководства по планированию исследований очень подробно рассматривают смещение измерений и могут быть использованы как дальнейший источник информации по этой теме. Ключевая идея заключается в том, что исследователь всегда должен помнить о возможности смещения измерений, поскольку неспособность обнаружить смещение и разрешить связанные с ним проблемы может свести на нет результаты потенциально уникального исследования. Смещение измерений может произойти на двух основных этапах: во время отбора объектов для исследования или во время сбора информации об этих объектах. В любом случае ключевой признак смещения – то, что его источником служит скорее а не ошибка. В результате смещения аналисистематическая, случайная 37 Смещение измерений зируемые данные закономерным образом отличаются от истинного значения, что может привести к неправильным заключениям, несмотря на применение корректных статистических методов. В следующих двух подразделах обсуждаются некоторые из наиболее распространенных типов смещения, объединенные в две крупные категории: смещение при создании выборки и смещение при сборе и регистрации информации. Смещение при создании выборки Многие исследования производятся на выборках объектов из генеральной совокупности, будь то больные лейкемией или произведенные на фабрике приборы, поскольку изучить всю генеральную совокупность было бы недопустимо дорого, если вообще возможно. Выборка должна хорошо характеризовать генеральную совокупность (на которую результаты должны распространиться), чтобы исследователь мог спокойно использовать полученные для выборки результаты для характеристики всей генеральной совокупности. Если выборка смещена (это означает, что она нерепрезентативна), выводы, сделанные на основе такой выборки, могут быть неприменимыми ко всей генеральной совокупности. происходит, если некоторые объекты имеют больше шансов Смещение выбора быть включенными в выборку. Этот термин обычно относится к смещению, которое происходит в процессе составления выборки. Например, телефонные опросы с использованием номеров из опубликованных справочников по определению удаляют из числа потенциальных респондентов людей с неопубликованными номерами или тех, кто сменил телефонный номер после выхода справочника из печати. Звонки по случайным номерам решат эту проблему, но по-прежнему не позволят опросить людей, у которых дома нет телефона. Это затрудняет исследование, по- скольку если исключенные из исследования люди систематически выделяются по исследуемым свойствам (а это очень распространенная ситуация), результаты исследования будут смещенными. Например, люди, которые живут в домах без телефона, обычно беднее тех, у кого телефон есть, а люди, у которых есть толь- ко мобильный телефон, обычно моложе тех, у кого есть еще и домашний. Если уровень доходов или возраст связаны с изучаемой характеристикой, исключение таких людей из выборки приведет к смещению результатов исследования. Смещение из-за волонтеров отражает тот факт, что люди, добровольно вызывающиеся участвовать в исследованиях, обычно не типичны для генеральной совокупности. По этой причине результаты, полученные на выборках, полностью составленных из добровольцев, такие как мнения зрителей, позвонивших в студию телевизионной передачи, не подходят для решения научных задач (если только генеральная совокупность не представлена людьми, желающими участвовать в подобных опросах). В этом примере могут проявиться множественные механизмы неслучайного отбора. Например, чтобы участвовать в опросе, человек должен смотреть эту телевизионную программу. Это значит, что, скорее всего, этот человек находится дома; значит, результаты опросов, проводимых в течение рабочего дня, могут в основном иметь отношение к пенсионерам, домохозяй неудобно говорить, 40 Глава 1. Основные понятия, связанные с измерениями например половая распущенность. Смещение социальной желательности также может влиять на ответы, если формулировка вопросов указывает на «правильный», то есть социально желательный ответ. Упражнения Здесь размещен обзор тем, затронутых в этой главе. Задача Каких возможных типов смещения результатов вам нужно остерегаться при следующих сценариях, и каково будет вероятное влияние на результаты? 1. По данным университета, средний годовой заработок выпускников составляет $120 000. Эти данные были получены в ходе опроса жертвователей в фонд выпускников. 2. Реализация программы, направленной на улучшение учебных достижений в средней школе, считается успешной, поскольку все 40 учеников, участвовавших в ней до конца в течение года (из 100, изначально задействованных в программе), продемонстрировали статистически значимое улучшение оценок и результатов стандартных тестов на успехи в учебе. 3. Руководитель заботится о здоровье своих подчиненных, поэтому во время обеденного перерыва он организовал цикл лекций на такие темы, как здоровое питание, важность физических упражнений и разрушительное влияние на здоровье курения и алкоголя. Он провел анонимный опрос сотрудников (при помощи бумажной анкеты) до и после цикла лекций и обнаружил, что лекции были эффективными, и привели к увеличению частоты составляющих здорового образа жизни. Решение 1. Смещение выбора и смещение из-за отсутствия ответов, – оба влияют на характеристику анализируемой выборки. Заявленная величина среднего заработка, скорее всего, завышена, поскольку в фонд выпускников жертвовали, вероятно, самые успешные из них, а люди, которые стеснялись своего низкого заработка, отвечали с меньшей вероятностью. Можно еще предположить смещение социальной желательности, которое также приведет к завышению значений годового заработка, поскольку выпускники, вероятно, имели тенденцию заявлять о более высоком заработке, чем они в реальности получали, поскольку желательно иметь высокий уровень доходов. На свойства анализируемой выборки повлияет информационное цензурирование. Оценка эффективности программы для учеников средней школы, вероятно, завышена. Эта программа определенно была полезной для тех, кто закончил ее, но поскольку более половины участников выбыли по ходу, мы не можем сказать, будет ли она полезной для среднего ученика. Может оказаться так, что ученики, участвовавшие в программе до конца, 41 Упражнения были более умными или мотивированными, чем выбывшие, или же для выбывших программа не была полезна. 3. Имеет место смещение результатов из-за социальной желательности. Это, вероятно, приведет к переоценке эффективности цикла лекций. Поскольку начальник ясно заявил, что он заботится о здоровом образе жизни подчиненных, они, скорее всего, будут докладывать о более значительном оздоровлении образа жизни, чем есть на самом деле, чтобы угодить боссу. Шкала Лайкерта Шкала Лайкерта – наверное, наиболее часто используемая в социологии шкала оценок. Этот тип шкалы был впервые описан в 1932 году Ренсисом Лайкертом (Rensis Likert, 1903–1981), индустриальным психологом, занимавшим должность директора социологического института при Мичиганском университете с 1946 по 1970 г. Вопросы с использованием шкалы Лайкерта, как правило, представлены в виде утверждения, и испытуемым предлагается выбрать свое отношение к нему из упорядоченного нечетного числа вариантов (наиболее часто пяти, но иногда семи или девяти). Ниже приведен пример. В США следует ввести национальную систему страхования здоровья. 1. Абсолютно согласен. 2. Согласен. 3. Нет определенного ответа. 4. Не согласен. 5. Абсолютно не согласен. Иногда предлагают четное число ответов, так что нейтральный вариант посередине отсутствует: это называется методом вынужденного выбора, поскольку респондента вынуждают выбрать, согласен он с данным утверждением или нет. Обычно порядок ответов меняется один или более раз на протяжении всего опросника так, что иногда 1 значит «абсолютно согласен», а иногда «абсолютно не согласен», чтобы выявить тех, кто автоматически выбирает первый или последний ответ, не читая вопроса. Данные, собранные при помощи шкалы Лайкерта, являются порядковыми, поскольку хотя варианты ответа упорядочены, нет никакого основания полагать, что различия между ними равны. Например, у нас нет способа узнать, равно ли различие между позициями «абсолютно согласен» и «согласен» различию между вариантами «согласен» и «нет определенного ответа». Дьюи побеждает Трумана Несколько раз выборы президента США сопровождались ошибочными прогнозами результатов, основанными на смещенных выборках. Всегда забавно видеть, как ошибается уважаемое издание или организация, однако эти случаи предостерегают нас от использования результатов, полученных на смещенной выборке, для характеристики генеральной совокупности. В 1936 году журнал «Литературное обозрение» (Literary digest), в котором были угаданы результаты выборов президента США 1916, 1920, 1928 и 1932 годов, предсказал, что республиканец Элф Лэндон (Alf Landon) одержит полную победу над демократом Франклином Рузвельтом (Franklin Roosevelt). Однако мы знаем, что Рузвельт выиграл выборы 1936 года с большим отрывом. Проблема журнального прогноза заключалась в том, что хотя она была основана на большой выборке (более 2,3 млн респондентов из 10 млн получивших приглашение принять участие в опросе), эта выборка победы на выборах. ГЛАВА 2. Теория вероятности Статистика основана на теории вероятности. Некоторые считают вероятность пугающей темой, но нет никакой причины для того, чтобы, затратив достаточно времени, не разобраться в ней насколько нужно для успешного освоения статистики. Как и в случае многих других областей науки, «продвинутые» аспекты теории вероятности могут быть очень сложными и трудными для понимания, но основные принципы вероятности интуитивно понятны и просты для освоения. Более того, многие люди уже знакомы с вероятностными утверждениями, начиная с прогноза погоды, который обещает дождь этим вечером с вероятностью 30%, заканчивая предупреждением на сигаретных пачках об увеличении вероятности развития рака легких при курении. Если, как у большинства взрослых людей, у вас есть один или несколько страховых полисов, вы уже вовлечены в инициативу, основанную на вероятностном мышлении. Если вы водите машину или обладаете ею, у вас, скорее всего, есть полис страхования автомобиля, который на самом деле следовало бы называть полисом страхования расходов на автомобиль, поскольку он защищает владельца полиса от чрезмерных расходов, которые потребовались бы при попадании в аварию. Люди не покупают страховые полисы из-за того, что они собираются во что- нибудь врезаться; скорее, они признают, что вероятность такого происшествия в будущем не равна нулю. Правительство часто требует от автовладельцев иметь полисы из этих же соображений; это требование – не признание вас плохим водителем, а констатация того факта, что аварии действительно происходят, и мало кто будет в состоянии из собственного кармана компенсировать убытки в случае серьезной аварии. В страховых компаниях работают статистики, которые высчитывают, сколько вы должны заплатить за полис, учитывая (в числе прочего) вероятность того, что вы попадете в аварию или на вас подадут иск по любой другой причине, и убыток, который такой иск принесет компании. Для понимания основ теории вероятности, изложенных в этой главе, вам не потребуется больше математических знаний, чем обычно дают в средней школе, а понимание этих концепций послужит основой для освоения статистических методов, изложенных в последующих главах. Знакомство с содержанием этой главы также даст вам возможность понять суть значительной части статистических 44 Глава 2. Теория вероятности методов, с которыми вы имеете шансы когда-либо иметь дело, до тех пор, пока вы не начнете выполнять «продвинутые» операции или не решите применять статистику в вашей области исследований. Кроме того, вы научитесь понимать вероятностные суждения, которые используются в повседневной речи, и оценивать правильность их использования. О формулах Люди, у которых были плохие оценки на уроках математики, часто не любят формулы, полагая, что это тайная система общения, созданная математиками в качестве барьера, который позволяет удерживать непосвященных на расстоянии, оставляя себе все выгодные вакансии. Хотя я никогда не буду утверждать, что математика и статистика – это простые предметы, представление о формулах как о барьере для понимания ложно. На самом деле формулы – это сжатый и недвусмысленный способ передачи важной информации, их можно воспринимать как набор инструкций, написанных на языке математики. Как говаривал один мой профессор вычислительной математики: «Посмотри на формулу, затем делай то, что тебе она скажет». Преимущество математических формул заключается в том, что они не зависят от языка, так что о математике могут разговаривать все люди, вне зависимости от их родного языка или национальности. Не имеет значения, в какой языковой среде вы выросли, английской, русской или фарси, если вы понимаете язык математики, вы можете общаться со своими коллегами на математические темы в некоторой степени независимо от языковых барьеров. Рассмотрим пример формулы для вычисления среднего арифметического, называемой в обычном языке усреднением набора чисел, представленной на рис. 2.1. Рис. 2.1. Формула для вычисления среднего значения Это может выглядеть для вас как греческий (на самом деле это частично так и есть!), но на самом деле это просто набор указаний по выполнению определенных вычислений. Давайте рассмотрим ее по частям: • x – это параметр, для значений которого мы рассчитываем среднее; • символ (читается как «x обозначает среднее значение котоx чертой») x, рое мы и вычисляем; • символ (читается как «x обозначает отдельное значение x i-е») x; i • обозначает число значений используемых для вычисления среднего; n x, • ∑ символ суммы обозначает сложение ряда значений, в данном случае всех значений x. Обозначения сверху и снизу символа суммы означают сложение всех значений x, от первого (x ) до последнего (x ). 1 n 45 Основные определения Эта формула «велит» вам вычислить среднее арифметическое, сложив все значения переменной x, затем разделив их на число наблюдений, которые вы только что просуммировали. Учтите, что умножение на 1/n – это то же самое, что деление на n. Представим, что мы хотим вычислить среднее для трех чисел: 1, 3 и 5. Следуя принятым обозначениям, мы назовем их , и . В этом примере = 3, поскольx x x n 1 2 3 ку у нас есть три числа, так что, согласно формуле, мы складываем все числа от x 1 до x и умножаем на 1/3, как показано на рис. 2.2. 3 Рис. 2.2. Вычисление среднего значения для трех чисел Продолжая изучение статистики, вы познакомитесь с более сложными формулами, однако алгоритм их использования останется прежним: 1. Поймите, что значит каждый символ и какие математические операции требуются. 2. Выявите значения, которые заменят каждый символ. 3. Подставьте значения в формулу, выполните указанные операции – и вы получите нужный результат. Основные определения Здесь приведены некоторые ключевые определения, которые нужно знать при обсуждении теории вероятности. Испытания Вероятность связана с результатом которые также называются испытаний, экспериментами или наблюдениями. Какой бы термин не был использован, главное – это то, что речь идет про события, исход которых неизвестен. Если бы результат испытаний был бы в итоге известен, не было бы нужды обсуждать вероятность. Испытание может быть простым, таким как подбрасывание монетки или вытягивание карты из колоды, или таким сложным, как наблюдение за тем, останется ли человек с раком легких в живых через пять лет после постановки диагноза. Мы будем называть испытанием единичное наблюдение, такое как одно подбрасывание монетки, а экспериментом – множественные испытания, такие как результат подбрасывания одной монетки пять раз. Выборочное пространство Выборочное пространство, обозначаемое как – это набор всех возможных элеS, исходов испытания. Если испытание – это однократное подбрасывание монетки, то выборочное пространство – это S = {орлы, решки} (часто сокращенно записывается как S = {о, р}), поскольку эти две альтернативы представляют 46 Глава 2. Теория вероятности все возможные исходы данного испытания. Бросок может завершиться либо выпадением орла (о), либо выпадением решки (р). Если эксперимент заключался бы в бросании одной игральной кости с шестью гранями, выборочное пространство было бы = {1, 2, 3, 4, 5, 6}, что соответствует шести граням кости, которые могут S выпасть при одном броске. Эти элементарные исходы также называют элементами выборки. Если эксперимент состоит из множества испытаний, то все возможные комбинации исходов этих испытаний входят в выборочное пространство. Например, если испытание состоит в двукратном подбрасывании монетки, то выборочное пространство таково: = {(о, (о, (р, (р, поскольку исходы S о), р), о), р)}, могут быть следующими: орлы при обоих бросках, орел в первом броске и решка во втором, сначала решка, потом орел или решки при обоих бросках. События Событие, обычно обозначаемое как E или любой заглавной буквой, отличной от – это частный случай исхода испытания, оно может состоять из единственS, исхода или набора исходов. Если такой исход или набор исходов имеет место, мы говорим, что «исход удовлетворяет событию» или «событие произошло». Например, событие «выпадение орла при одном подбрасывании монетки» может быть записано как E = {орел}, а событие «выпадение нечетного числа при броске одной игральной кости» можно записать как E = {1, 3, 5}. Элементарное событие – это исход одного эксперимента или наблюдения, такого как однократное подбрасывание монетки. Элементарные события могут объединяться в сложные, как в приведенных ниже примерах объединения и пересечения. События можно описывать, перечисляя исходы или определяя их логически. Например, если испытание – это бросок двух игральных костей и нас интересует, как часто сумма выпадающих чисел бывает меньше шести, мы можем обозначить это как E = {2, 3, 4, 5} или E = {сумма меньше шести}. Обычный способ изображения вероятности событий и комбинаций событий – это диаграммы Венна, в которых прямоугольник соответствует выборочному пространству, а круги изображают определенные события. Диаграммы Венна используются на рис. 2.3–2.6. Диаграммы Венна Любой, кто вырос при новой концепции преподавания математики, возможно, помнит диаграммы Венна из учебника математики в начальной школе. Хотя желание познакомить учеников начальной школы с теорией множеств может вызывать споры, в этом точно нет вины английского математика Джона Венна (John Venn, 1834–1923) или его диаграмм. Диаграммы Венна широко используются в математике и смежных областях для изображения логических отношений между группами объектов, также они были адаптированы для использования в других дисциплинах, таких как литература. Венн провел большую часть своей сознательной жизни, преподавая в Гонвилл-энд-Киз колледже (Gonville and Caius College) Кембриджского университета, где основной областью его интересов была логика, и он опубликовал три учебника, включая «Символическую логику» (1881), в которой диаграммы Венна были введены в обиход. Современные студенты колледжа имеют перед глазами ежедневное напоминание о дости ета числа сочетаний 52 Глава 2. Теория вероятности Используя эту формулу, вы можете вычислить число сочетаний двух объектов, выбранных из 8 объектов, как показано на рис. 2.10. Рис. 2.10. Расчет числа сочетаний 8C2 Определение вероятности Существует несколько способов охарактеризовать вероятность, но определение, используемое в статистике, гласит, что вероятность показывает, как часто происходит некоторое событие при повторении эксперимента. Например, вероятность выпадения орла при броске монетки может быть оценена при наблюдении, сколько раз выпадет орел в серии бросков. Наверное, если нужно выбрать единственное самое важное свойство вероятности, то оно таково: вероятность события всегда находится между 0 и 1. Если вероятность события равна 0, это значит, что у него нет шансов случиться, тогда как вероятность события, равная 1, означает, что оно обязательно произойдет. В математике принято выражать событие в долях единицы, поэтому мы говорим, что вероятность события находится между 0 и 1, однако так же правильно (и более обычно в повседневной речи) рассуждать в терминах процентов, так что верно будет и то, что вероятность события находится между 0% и 100%. Для перехода от долей единицы к процентам нужно умножить первые на 100 (процент означает «на сотню»), так что 0,4 – это 40% (0,4 100 = 40), а вероятность 0,85 × можно выразить как 85%. Отрицательная вероятность и вероятность, превосходящая 100%, логически невозможны и существуют только как фигуры речи. Тот факт, что вероятность заключена между 0 и 1, имеет математическое обоснование, которое рассматривается дальше при обсуждении логистической регрессии в главе 11. Этот факт также служит полезной проверкой ваших вычислений. Если вы получили вероятность меньше 0 или больше 1, вы определенно где-то ошиблись. Более того, если кто-то говорит вам, что вы с вероятностью 200% выиграете на бирже, если будете действовать по его системе, вам, возможно, следует поискать нового консультанта по инвестициям. Еще один полезный факт о вероятности таков: вероятность выборочного пространства всегда равна 1. Поскольку выборочное пространство – это все возможные исходы испытания, общая вероятность для выборочного пространства должна составлять 1. Это полезный факт, поскольку, хотя мы можем знать вероятность некоторых событий из выборочного пространства, там могут быть другие, информация о которых у нас отсутствует. Однако, поскольку мы знаем, что вероятность всего выборочного пространства равна 1, мы можем вычислить вероятность тех событий, о которых 53 Определение вероятности у нас нет информации, основываясь на той вероятности, которая остается после вычитания вероятностей всех известных событий. Третий полезный факт, который следует из первых двух, таков: вероятность события и его дополнения всегда равна 1. Этот факт вытекает из определения дополнения: все выборочное пространство, кроме события – это дополнение Таким образом, и ~E вместе должны соE, все выборочное пространство, и общая вероятность и ~E должна быть E равной 1. Это должно быть ясным из рис. 2.5: прямоугольник изображает выборочное пространство, круг – событие а заштрихованная область внутри прямоE, но вне круга – событие ~E. Вместе E и ~E составляют полное выборочное пространство, и их объединение (E F) имеет вероятность 1. Запись вероятности события Обычно значения вероятности записывают следующим образом: = 0,5. P(E) Это должно читаться как «вероятность события равна 0,5» или «существует E 50%-ная вероятность события (или просто «вероятность равна 0,5» или «суE» 50%-ная вероятность E»). Используя этот формат, можно записать первый факт о вероятности (о том, что вероятность всегда находится между 0 и 1) как ≤ ≤ 0 1. P(E) Второй факт о вероятности, который следует из определения выборочного пространства S как все возможные исходы испытания, можно записать в виде: = 1. P(S) Третий факт о вероятности (вероятность события и его дополнения всегда рав- на 1) можно записать так: + = 1, P(E) P(~E) что имеет для нас важное следствие: − P(~E) = 1 P(E). Это окажется очень полезным при последующих вычислениях. Если мы знаем вероятность E, то мы автоматически знаем вероятность ~E, которая составляет − − 1 P(E). Так что если P(E) = 0,4, то P(~E) = 1 0,4 = 0,6. Условные вероятности Часто мы хотим знать вероятность некоторого события, при условии что произошло другое событие. Это записывается как | и читается как «вероятность P(E F) при условии Второе событие называется условием, а весь процесс иногда E F». называется выполнением при условии F. Условная вероятность – важное понятие в статистике, поскольку мы часто пытаемся установить фактор, который влияет на результат, например у курильщиков чаще развивается рак легких. Влияние како- 54 Глава 2. Теория вероятности го-либо фактора на исход события можно иначе выразить как то, что вероятность данного исхода различается в зависимости от наличия или отсутствия данного фактора. Тот факт, что вероятность рака легких (исход) выше у курильщиков (фактор), чем у тех, кто не курит, можно выразить при помощи символов следующим образом: легких | курильщик) > легких | некурящий). P(рак P(рак Условные вероятности также могут быть использованы для обозначения независимости. Говорят, что две переменные независимы, если выполняется следующее равенство: P(E | F) = P(E). Это выражение указывает на то, что вероятность E неизменна, вне зависимости от наличия переменной F. Продолжая использованный ранее пример, выражение, которое показывает отсутствие связи между раком легких и курением, записывается как P(рак легких | курильщик) = P(рак легких). Вычисление вероятности сложных событий Для вычисления вероятности любого из нескольких происходящих событий (объединения нескольких событий) просуммируйте вероятности отдельных событий. Вид используемого уравнения будет зависеть от того, являются ли эти события взаимно исключающими (это значит, что они не могут произойти одновременно). взаимно исключающих событий Если события взаимно исключающие, как показано на рис. 2.6, то уравнение простое: + P(E F) P(E) P(F). В качестве практического примера представим колледж, в котором не может быть двух профильных предметов. Примем вероятность события (профильный E предмет – английский язык) равной 0,2 и вероятность события F (профильный предмет – французский язык) равной 0,1. Эти события взаимно исключающие, поскольку ученики могут выбрать только один профильный предмет, так что вероятность события (профильный предмет – либо английский, либо французский язык) можно вычислить как = 0,2 + 0,1 = 0,3. P(E F) 55 Вычисление вероятности сложных событий Объединение не взаимно исключающих событий Часто события не взаимно исключающие. Например, в колледже, где можно выбрать два профильных предмета, события «профильный предмет – английский язык» и «профильный предмет – французский язык» не взаимно исключающие, поскольку, вероятно, один человек может выбрать в качестве профильных предметов и английский, и французский языки. В этой ситуации в уравнение для вычисления P(профильный предмет – либо английский, либо французский язык) нужно ввести поправку на это перекрывание. Согласно рис. 2.4, перекрывание – это область, принадлежащая и кругу и кругу (их пересечение, отмеченное штриE, Если вы не учтете, что в колледже, где ученики могут выбрать более одного профильного предмета, могут найтись люди, специализирующиеся и в области английского, и в области французского языков, вы рискуете посчитать некоторых учеников дважды. (Те, кто специализируется и в области английского, и в области французского языков, будут посчитаны и как те, кто углубленно изучает английский, и те, кто углубленно изучает французский.) Для того чтобы учесть возможное перекрывание при подсчете вероятности одного из двух не взаимно исключающих событий, используйте следующее уравнение: + P(E F) P(E) P(F) P(E F). Предположим,что предмет – английский язык) = 0,2, P(профильный предмет – французский язык) = 0,1 и специализация P(профильный P(двойная на английском и французском) = 0,05. Тогда вероятность специализации студента на изучении или английского языка, или французского составляет − = 0,2 + 0,1 0,05 = 0,25. P(E F) Пересечение независимых событий Чтобы вычислить вероятность одновременного наступления нескольких элементарных событий (пересечение нескольких событий), перемножьте их вероятности. Конкретный вид формулы зависит от того, независимы ли эти события. Если два события E и F независимы, то вероятность их совместного наступления вычисляется просто как P(E F) = P(E) P(F). × Предположим, что вы подбрасываете правильную монету (вероятность выпадения орла равна 0,5, вероятность выпадения решки равна 0,5, результаты каждого броска независимы). Мы уже указали, что вероятность выпадения орла при любом броске равна 0,5 и что два испытания независимы, так что вероятность выпадения орлов при обоих бросках можно вычислить как P(E F) = 0,5 0,5 = 0,25. × 56 Глава 2. Теория вероятности Пересечение не независимых событий Если два события не независимы, то для вычисления вероятности их совместного наступления вам нужно знать их условную вероятность. Формула для расчетов такова: = | P(E F) P(E) P(F E). × Предположим, вы вытаскиваете две карты из обычной колоды в 52 карты, не возвращая карту в колоду. Половина карт из этой колоды красной масти, а половина – черной. Эти события (выбор первой и второй карт) не независимы, поскольку вероятность свойств второй карты зависит от свойств первой. Если вас интересует вероятность вытащить две карты черной масти, можно рассчитать ее следующим образом: P(E) = P(первая карта черной масти) = 26/52 = 0,5; | = карта черной масти|первая карта черной масти) = P(F E) P(вторая = 25/51 = 0,49. Обратите внимание на то, что поскольку вы не возвращаете карту в колоду, вторую карту вы тянете из колоды в 51 карту, и к этому моменту остается только 25 карт, поскольку вы уже вытащили одну карту черной масти. Используя эти знания, вы можете рассчитать вероятность вытащить две карты черной масти как (пересечение и E F): P(E = 0,50 0,49 = 0,245. F) × Теорема Байеса Теорема Байеса, также известная как формула Байеса, – это один из наиболее распространенных способов применения условных вероятностей. Самый типичный случай применения теоремы Байеса – это расчет вероятности того, что человек с положительным результатом скринингового теста на определенное заболевание действительно им болен. В теореме Байеса также используется несколько введенных ранее базовых понятий теории вероятности, так что внимательное изучение формулы Байеса, помимо всего прочего, – хороший способ повторить содержание всей главы. Теорема Байеса для любых двух событий A и B сформулирована на рис. 2.11. Рис. 2.11. Теорема Байеса Эту формулу следует использовать, если вы знаете P(A), P(B) и P(B | A), а хотите знать P(A | B). Числитель теоремы Байеса учитывает тот факт, что вероятность пересечения двух событий – это вероятность первого события, умноженная на вероятность второго события при условии первого. Например, вероятность при B 57 Теорема Байеса условии A умножается на вероятность A, что дает вероятность пересечения A и B, то есть ситуации, когда и происходят одновременно. A B В числителе использован тот же самый факт вместе со знанием о том, что событие и его дополнение составляют все выборочное пространство и имеют общую вероятность 1, так что сумма произведения вероятности при условии B A на вероятность A и произведения вероятности B при условии ~A на вероятность ~A даст нам вероятность B. Представьте себе, что существует скрининговый тест, который выявляет заболевших с 95%-ной вероятностью и дает отрицательный результат для здоровых с вероятностью 99%. Клиницисты сказали бы, что этот тест характеризуется 95%-ной чувствительностью и 99%-ной специфичностью. Предположим, что частота заболевания в генеральной совокупности составляет 1%. Если мы обозначим заболевание как D 5 , отсутствие заболевания как ~D, положительный результат теста как T, а отрицательный результат теста как ~T, вышеупомянутые вероятности можно записать следующим образом: = | = 0,95; Чувствительность P(T D) = | ~D) = 0,99; Специфичность P(~T = = 0,01. Вероятность заболевания в генеральной совокупности P(D) Приведенные значения чувствительности и специфичности очень высоки. Многие часто используемые тесты и процедуры менее точны. Однако все тесты несовершенны, и возможно, что человек с положительными результатами теста на самом деле здоров (ложноположительный результат), а человек с отрицательными результатами теста на самом деле болен (ложноотрицательный результат). Обычно что вы действительно хотите узнать, так это то, какова вероятность того, что человек с положительным результатом теста действительно болен? Используя принятую форму записи условной вероятности, вы хотите узнать | Вы P(D T). можете вычислить эту вероятность, используя теорему Байеса, учитывая данные о чувствительности и специфичности теста и о частоте встречаемости данного заболевания в генеральной совокупности, как это показано на рис. 2.12. Рис. 2.12. Теорема Байеса, записанная с использованием наших обозначений для заболевания и результатов теста Из этой формулы ясно видно, что вероятность иметь заболевание при положительном результате теста – это просто вероятность и заболевания, и положительного результата теста, деленная на вероятность положительного результата теста (вне зависимости от наличия заболевания). Используя тот факт, что событие и его дополнение составляют все выборочное пространство и имеют общую вероятность, равную 1, вы знаете, что частота ложноположительных результатов – это 1 – специфичность: 5 От англ. – заболевание. зультатов истинные. 59 Достаточно разговоров, давайте займемся статистикой! Преподобный Томас Байес Теорема Байеса была сформулирована английским министром, преподобным Томасом Байесом (Thomas Bayes, 1702–1761). Байес изучал логику и теологию в Эдинбургском университете и зарабатывал на жизнь, занимая должность министра. Однако его нынешняя слава основана на теории вероятности, которая была разработана им в эссе, опубликованном посмертно Лондонским королевским обществом. В наши дни существует отдельная область науки, называемая байесовской статистикой. Она основана на понимании вероятности как степени уверенности, а не частоты встречаемости. Хотя не ясно, согласился бы сам Байес с таким определением, поскольку за свою жизнь он опубликовал сравнительно мало математических работ. Достаточно разговоров, давайте займемся статистикой! Статистика – это что-то, что вы делаете, а не то, про что вы читаете, так что реальная цель приведенного выше теоретического введения состояла в том, чтобы снабдить вас знаниями, необходимыми для вычисления вероятности событий и статистических обоснований. В этой главе также были введены такие понятия, как независимость, или взаимное исключение, которые понадобятся вам при использовании более сложных статистических методов. Цель приведенных ниже задач – помочь вам приобрести некоторый навык работы с базовыми понятиями теории вероятности. Если для понимания темы вы предпочитаете выполнить множество задач, то существует много прекрасных учебников с упором на теорию вероятности; ссылки на некоторые из них приведены в приложении C. Если вы впервые беретесь за задачи по теории вероятности, вам может помочь следующий план работы: 1. Определите, что является испытанием и/или экспериментом. 2. Определите выборочное пространство. 3. Определите событие. 4. Выразите необходимые вероятности и проведите вычисления. В какой-то момент вы можете почувствовать, что необходимость проходить каждый из этих этапов отпала, но этот план может пригодиться в начале работы. В некоторых случаях предлагается альтернативный способ решения, основанный на другом подходе к задаче. Монеты, игральные кости и карты Поскольку во многих примерах, приведенных в этой книге, используются монеты, игральные кости и карты, этот раздел начинается с их описания. Игральные кости Стандартная игральная кость, используемая на Западе, – это куб с шестью гранями, на которые нанесено разное число точек (от 1 до 6). Допущение, лежащее 60 Глава 2. Теория вероятности в основе статистических вычислений, заключается в том, что вероятности выпадения кости каждой из граней кверху равны, так что каждый бросок кости имеет шесть равновероятных исходов: 1, 2, 3, 4, 5, 6. Используя специальную терминологию, набор исходов при броске одной кости имеет дискретное равномерное распределение, поскольку возможные исходы можно пронумеровать, и каждый из них имеет одинаковую вероятность. Результаты, полученные при одновременном броске двух или более костей (или многократного подбрасывания одной и той же кости), не зависят друг от друга, так что вероятности каждой комбинации чисел вычисляются путем перемножения вероятностей каждого результата. Для полной определенности нужно отметить, что «равная вероятность выпадения каждой грани» выполняется только для костей, используемых в казино, на которых точки (кружочки, используемые для обозначения числа на каждой грани) нанесены краской. Вам могут быть больше знакомы кости, на которых точки сделаны в виде углублений, а не нанесены краской, что приводит к неравномерному распределению массы и, следовательно, разной вероятности выпадения разных граней. Однако при теоретических разговорах о вероятности этой разницей обычно пренебрегают и считают, что выпадение любой грани равновероятно. Монеты Стандартная монета, используемая в вероятностных экспериментах, имеет две стороны, орел и решка. Часто имеют в виду правильную монету, что значит равную вероятность выпадения орла и решки при каждом броске. Для любой монеты, правильной или нет, вероятность выпадения орлов и решек считается постоянной, так что результаты предыдущих бросков не влияют на результаты последующих. Как и в случае игральной кости, вероятность выпадения орлов и решек на реальной монете редко в точности составляет 50:50 по ряду физических причин, включающих дизайн монеты, ее изношенность и стиль бросков, но при выполнении вероятностных задач эти тонкости следует игнорировать, если только они не прописаны в условии. Иногда в интересах безопасности эксперименты проводят, закручивая монетку, а не подбрасывая ее (в результате меньше разящих объектов летает в переполненном классе). Хотя ожидаемое соотношение 50:50 в этом случае еще менее правдоподобно, при выполнении вычислений (а не реальном закручивании монетки и записи результатов) предположите, что это соотношение работает. Более подробную информацию по этой теме можно получить здесь: http://www.sciencenews.org/articles/20040228/fob2.asp. Игральные карты Стандартная колода в наши дни состоит из 52 игральных карт четырех мастей: пики, крести, черви и бубны. Пики и крести – это черные масти, а черви и бубны – красные. Есть 13 карт каждой масти: туз, нумерованные карты от 2 до 10 и три фигуры – валет, дама и король. В экспериментах с вытаскиванием карт из колоды предполагается, что они хорошо перемешаны, то есть вероятность вытащить любую карту одинакова. 61 Упражнения Упражнения Задача Если я вытащу одну карту из стандартной колоды в 52 карты, какова вероятность того, что она будет красной масти? Решение 1. Испытание – это выбор одной карты из колоды. 2. Выборочное пространство – это все имеющиеся карты, вероятность вытянуть каждую из них одинакова. 3. Событие – это E = {красная масть}. 4. Поскольку в колоде есть 52 карты и половина из них (26) красной масти, вероятность вытащить карту красной масти составляет 26/52 или 0,5. Ответ – вероятность вытащить карту красной масти из стандартной колоды составляет 50%. Задача Если я один раз брошу игральную кость, какова вероятность, что выпадет число меньше 5? Решение 1. Испытание – это один бросок игральной кости с шестью гранями. 2. Выборочное пространство – это числа (1, 2, 3, 4, 5, 6), выпадение которых равновероятно. 3. Событие – это E = (одно из 1, 2, 3, 4), которое также можно рассматривать как объединение четырех элементарных событий, то есть E = (E = 1) (E = 2) (E = 3) (E = 4). 4. Четыре из шести элементарных событий, или возможных исходов, составляющих выборочное пространство, соответствуют событию так что вероятность E, равна 4/6 или 0,67 (округлено). E Альтернативное решение К решению этой задачи можно подойти по-другому – вычислить вероятность каждого элементарного события, которое удовлетворяет событию E, и сложить их, поскольку эти события – взаимно исключающие. Тогда вероятность каждого элементарного события, входящего в равна 1/6; это значит, что в одном случае из E, шести выпадет 1, в одном случае из шести выпадет 2 и так далее. В соответствии с нашим подходом вероятность составляет 1/6 + 1/6 + 1/6 + 1/6 или 4/6, что E совпадает с полученным ранее ответом. Задача Если я подкину правильную монету дважды, какова вероятность того, что хотя бы один раз выпадет орел? Решение 1. Эксперимент заключается в двукратном подбрасывании правильной (P = 0,5 и для решки, и для орла) монеты, то есть два независимых испытания, каждое с вероятностью 0,5. 62 Глава 2. Теория вероятности 2. Выборочное пространство состоит из следующих исходов: {(о, (о, о), р), (р, о), (р, р)}, – каждый из которых равновероятен. 3. Интересующее нас событие – это E = (хотя бы один орел). Три исхода из выборочного пространства удовлетворяют этому условию: (о, (о, о), р), (р, о). 4. Вероятности всех исходов равны, и три из четырех исходов соответствуют событию так что вероятность равна или 0,75. E, E ѕ, Альтернативное решение Этот результат можно также получить при помощи математических вычислений, рассчитав вероятность дополнения этого события и затем вычтя ее из 1, что- бы получить вероятность самого события. Если событие – это E = (хотя бы один орел), его дополнение – это ~E = (нет орлов, то есть две решки). Вы знаете, что вероятность выпадения решки при любом подбрасывании правильной монеты равна 0,5, а броски независимы, так что вероятность выпадения двух решек составляет 0,5 0,5, или 0,25. Согласно определению дополнения события, 1 – = P(~E) P(E), × так что 1 – 0,25 = 0,75, или Вероятность выпадения хотя бы одного орла при P(E). двух бросках монеты равна 0,75, что совпадает с полученным ранее ответом. Задача Если я вытащу одну карту из стандартной колоды с 52 картами, какова вероятность того, что это будет фигура (валет, дама или король) черной масти (пики или трефы)? Решение 1. Испытание – это выбор одной карты из колоды с 52 картами. 2. Выборочное пространство – это 52 карты, вероятности выбора каждой из них равны. 3. Событие – это E = (выбор фигуры черной масти); шесть карт удовлетворяют этому условию: валет, дама или король пик или треф. 4. Вероятность равна 6/52, или 0,115. Математическое решение P(фигура) = 12/52, или 0,231 P(черная масть) = 26/52, или 0,5 P(фигура черной масти) = P(фигура) P(черная масть) = 0,231 0,5 = 0,116. × × Обратите внимание, что математическое решение возможно, поскольку вероятность вытащить карту черной масти и вероятность вытащить фигуру независимы. я выбираю одну карту из стандартной колоды с 52 картами, какова вероятность того, что она будет либо черной масти (пики или трефы), либо фигурой (вале ом, составляет 60%. 65 Заключительное замечание: связь между статистикой и ... Заключительное замечание: связь между статистикой и азартными играми Статистики любят иллюстрировать теорию вероятности, используя в качестве примеров монеты, игральные кости и карты, объекты, которые применяются в азартных играх (или просто играх, как их предпочитают называть в самой игорной индустрии). Одна причина заключается в том, что эти предметы знакомы большинству людей. Другая причина состоит в том, что вероятности разных исходов известны и неизменны и поэтому могут быть использованы для создания простых примеров применения основных понятий теории вероятности, включая независимость и взаимное исключение. Преимущество таких примеров заключается еще и в том, что задачи можно решить с использованием конкретных объектов (например, вытаскивая карты из колоды) с тем же успехом, что и при помощи математических уравнений. Однако тут есть и исторические причины, поскольку многие законы теории вероятности были сформулированы в связи с азартными играми и умением использовать игральные кости и карты. На самом деле азартные игры были движущей силой многих исследований вероятностей разных событий и сочетаний событий, поскольку способность игрока получить, а не потерять деньги во многом зависит от его понимания вероятности разных событий, происходящих в данной игре. Многие историки ставят у истоков современной теории вероятности Шевалье де Мере (Chevalier de Mere), джентльмена, который был игроком во Франции XVII века. Он обожал спорить о том, что у него выпадет хотя бы одна шестерка при четырех бросках одной кости: причина такого желания станет ясной из следующих абзацев. Однако он также верил, что хорошо спорить о том, что за 24 броска пары игральных костей у него выпадет хотя бы одна пара шестерок: оказалось, что это проигрышная идея. К счастью для последующих статистиков, Шевалье рассказал об этой задаче своему другу – философу Блезу Паскалю (Blaise Pascal), который обсудил это со своим другом – математиком Пьером Ферма (Pierre de Fermat). Рассмотрение вопросов такого типа привело к разработке, в числе прочих вещей, треугольника Паскаля, биномиального распределения и современной теории вероятности. Даже в дружеском споре хорошее пари – это то, когда вы, скорее всего, выиграете более чем в половине случаев. Иначе говоря, вероятность вашего выигрыша в удачном пари не меньше 0,5. Шевалье первым использовал этот принцип: вероятность выпадения хотя бы одной шестерки при четырех бросках кости составляет 0,518. Это легко вычислить, рассмотрев вероятность того, что за четыре броска не выпадет ни одной шестерки, которая составляет (5/6) 4 . Выпадение хотя бы одной шестерки – дополнение к выпадению ни одной шестерки, так что бы одна P(хотя шестерка из четырех бросков) составляет 1 – (5/6) 4 или 1 – 0,482, что равно 0,518. Это значит, что примерно в 52% случаев Шевалье выигрывал пари. 66 Глава 2. Теория вероятности Однако спорить, что при 24 бросках двух костей выпадет хотя бы одна пара шестерок, – глупо. Существует 36 комбинаций чисел при каждом броске двух костей, и только одна из них – это две шестерки, таким образом, вероятность невыпадения двух шестерок при каждом броске составляет 35/36. Поскольку каждый бросок костей независим, мы можем перемножить вероятности для каждого броска. По- скольку вероятности не меняются, это значит умножение (35/36) на само себя 24 раза, а это то же самое, что возвести (35/36) в степень 24. Вероятность выпадения хотя бы одной пары шестерок составляет 1 – P(невыпадение пары шестерок), или 1 – 0,509, что составляет 0,491. Поскольку эта вероятность меньше 0,5, это проигрышное пари. Если вам интересно узнать больше о применении теории вероятностей к азартным играм, таким как рулетка, кости, двадцать одно, скачки и покер, загляните в книгу Эдварда Пэкеля «Математика, лежащая в основе азартных игр» (Edward Packel, «The Mathematics of Games and Gambling»), опубликованную американским математическим обществом, ссылка на которую приведена в приложении C. ГЛАВА 3. Статистический вывод Статистический вывод – это методология, которая позволяет охарактеризовать генеральную совокупность или сформировать суждения о ней на основании информации о выборке, извлеченной из этой генеральной совокупности. Большая часть практической деятельности в области статистики связана именно со статистическим выводом. Для облегчения подобных предсказаний разработано множество сложных методов. Идея предсказательной статистики может показаться несколько запутанной, так что нам стоит потратить несколько минут, чтобы подумать о том, что значит использовать статистику для обоснования заключений. В интернет-словаре Мерриам–Вебстер (Merriam–Webster) есть два определения термина «вывод (рассуждение)» (inference): • Переход от одного предположения, утверждения или суждения, считаемого верным, к другому, истинность которого следует из истинности первого. • Переход от данных о статистической выборке к обобщениям (в виде значений параметров генеральной совокупности), как правило, с вычислением степени уверенности. Второе значение, которое специфично для статистики, тесно связано с первым. Логический вывод в общем случае – это способ формирования суждений о неизвестном, опираясь на уже известное. Статический вывод – это частный случай логических заключений, при которых формируются суждения о генеральной совокупности, как было сказано выше. Люди часто испытывают сложности с разграничением описательной статис(descriptive statistics) обсуждаемой в главе 4 и тики статистического вывода (inferential statistics), отчасти потому, что некоторые статистические процедуры используются в обоих типах статистики, хотя могут иметь место незначительные различия в формулах, а также в интерпретации результатов. К примеру, одна и та же процедура лежит в основе вычисления среднего арифметического для набора данных, вне зависимости от того, представляют ли они генеральную совокупность или выборку: нужно суммировать все значения и разделить полученную сумму на число значений. Тем не менее есть различия в написании формулы для вычисления среднего арифметического. Для генеральной совокупности среднее обозначается греческой буквой μ («мю», которую правильно называть поскольку параметром, это число характеризует генеральную совокупность), тогда как для обозначения 68 Глава 3. Статистический вывод выбочного среднего вы используете латинскую букву x, часто с чертой сверху, x , (которую правильно называть статистикой, поскольку это число характеризует выборку). В других случаях между формулами, используемыми для генеральной совокупности и выборки, существуют более важные различия. Хорошо известный пример – это формула для дисперсии. Когда вы имеете дело с генеральной совокупностью, в знаменателе стоит (число наблюдений), но когда вы работаете с n выборкой, делить нужно на n – 1 (на один меньше, чем число наблюдений). Эти формулы подробно разобраны в главе 4 (раздел «Меры разброса» на стр. 115), и если вы новичок в статистике, прочитайте ту главу целиком, прежде чем работать с этой, поскольку описательная статистика концептуально проще статического вывода. Вы можете использовать оба типа статистики в ходе работы над одним проектом (например, применять описательную статистику для характеристики выборки и затем – статистический вывод, чтобы решить исходные задачи вашего исследования), но вы должны четко понимать, какой тип статистики вы используете в ходе каждого конкретного анализа данных. Для этого полезно задуматься над целью вашего анализа данных: вы используете его, чтобы просто описать набор данных, с которым вы проводите вычисления? Или вы хотите распространить свои результаты на более обширную группу, которую вы не можете изучить напрямую? В первом случае вам следует применить описательную статистику, а во втором – статистический вывод. Вот два правила, которые содержат ту же идею, изложенную другими словами: • в тех случаях, когда вы изучаете составляющие генеральную совокупность случаев и не хотите выходить за их рамки, вам следует использовать описательную статистику; • в тех случаях, когда изучаемые вами случаи не составляют всей генеральной совокупности, и вы хотите сделать обобщения, выходящие за рамки этих случаев, вам следует использовать статистический вывод. Распределения вероятностей На практике статистические заключения настолько часто опираются на допущения о том, как распределены данные, что в статистике принято преобразовывать данные, чтобы они лучше соответствовали одному из известных типов распределения. По этой причине наш разговор о предсказательной статистике начинается с введения понятия теоретического распределения вероятностей и рассмотрения двух часто используемых распределений. Теоретическое распределение вероятностей – это выражение, которое определяет, какие значения будет принимать данный параметр и как часто будет встречаться каждое из этих значений (или, в случае непрерывного распределения, как часто будет встречаться данный диапазон значений). Теоретические распределения вероятностей также часто бывают представлены в графической форме; знаменитая колоколообразная кривая нормального распределения – один из примеров. 69 Распределения вероятностей Теоретические распределения вероятностей полезны для статистического вывода, поскольку их свойства и характеристики определены. Если реальное распределение значений имеющегося набора данных близко к теоретическому, многие вычисления для анализируемых данных могут быть выполнены с использованием допущений, основанных на свойствах теоретического распределения. Кроме того, благодаря центральной предельной теореме (которая разбирается ниже в этой главе) при определенных условиях можно предположить, что выборочные средние распределены нормально, даже если значения генеральной совокупности, из которой произошли эти выборки, распределены отлично от нормального. Распределения вероятностей часто разделяют на если данные монепрерывные, принимать любые значения внутри заданного диапазона, и когдискретные, данные принимают только определенные значения. В данной главе в качестве примера непрерывного распределения рассмотрено нормальное, а в качестве примера дискретного распределения приведено биномиальное. Нормальное распределение Нормальное распределение – наверное, наиболее часто используемый тип распределения в статистике. Это происходит отчасти потому, что нормальное распределение адекватно отражает реальное распределение многих непрерывных переменных, от параметров производственного процесса до результатов проверки умственных способностей. Вторая причина широкого использования нормального распределения заключается в том, что при определенных условиях можно считать, что распределение выборочных статистик, таких как выборочное среднее арифметическое, будет нормальным, даже если выборки происходят из генеральной совокупности, для которой нормальное распределение не свойственно. Данная закономерность обсуждается далее в этой главе в разделе, посвященном теореме о центральном пределе. Нормальное распределение также называют колоколообразной кривой из-за его характерной формы, или гауссовым распределением в честь физика и математика Карла Гаусса, который жил в XVIII веке и использовал нормальное распределении при анализе астрономических данных. Существует бесконечное множество нормальных распределений, все из которых в целом имеют одну и ту же форму, но различаются из-за их среднего μ (греческая σ буква «мю») и стандартного отклонения (греческая буква «сигма»). Примеры трех нормальных распределений с разными средними значениями и стандартными отклонениями представлены на рис. 3.1. Нормальное распределение со средним арифметическим, равным 0, и стандартным отклонением, равным 1, известно как стандартное нормальное распределение, или Z-распределение. Любое нормальное распределение может быть преобразовано в стандартное путем преобразования исходных значений в стандартизованные (этот процесс обсуждается далее в этой главе, а затем в главе 16). Такая процедура облегчает сравнение генеральных совокупностей с разными средними значениями и станда рис. D.8, приложение D. 76 Глава 3. Статистический вывод Независимые и зависимые переменные Существует много способов классифицировать переменные: один из наиболее распространенных – разделить их по роли, которую они играют в планировании исследования или анализе данных. В рамках этого подхода простой способ – это описывать переменные как если они представляют собой результат зависимые, исследования, и независимые, если предполагается, что они влияют на значение зависимой переменной (зависимых переменных). Во многих исследованиях есть третья категория переменных, контролируемые в исследовании управляющие пе(control variables), которые могут влиять на зависимую переменную, но ременные не представляют особенного интереса. Учтите, что ярлыки «независимая», «зависимая» и «управляющая» соответствуют ролям переменных в данном исследовании. Это значит, что данная переменная (например, вес) может быть независимой в одном исследовании, зависимой в другом и управляющей в третьем. В дополнение к этому для описания зависимых и независимых переменных некоторые авторы используют другие названия, предпочитая зарезервировать специальные названия для определенных типов исследований. Управляющие переменные вызывают особенные затруднения, по- скольку выделено много их типов в зависимости от их отношения к исследуемым независимым и зависимым переменным, а также плана исследования. Управляющие переменные обсуждаются далее в главе 18, однако это обсуждение будет сфокусировано на независимых и зависимых переменных. Мы проиллюстрируем идею независимых и зависимых переменных на примере регрессионного уравнения. Это лишь краткое введение в тему, регрессия подробно обсуждается в главах 8, 10 и 11. В стандартной линейной модели, такой как регрессионное уравнение, основанное на методе наименьших квадратов (МНК), результирующая или зависимая переменная обычно обозначается буквой тогда как независимые переменные Y, обозначаются как Индексы обозначают отдельные переменные: , и так даX. X 1 2 лее. (МНК – наиболее распространенный тип регрессии; если не указано иначе, в этой книге «регрессионное уравнение» обозначает «регрессионное уравнение МНК».) Это должно стать ясным из принятой формы записи регрессионного уравнения, показанной на рис. 3.13. Рис. 3.13. Регрессионное уравнение Буква e в этом уравнении обозначает «ошибку» и отражает тот факт, что мы не предполагаем, что какое-либо регрессионное уравнение позволит предсказать значения с абсолютной точностью; напротив, мы ожидаем, что всегда будет наY некая ошибка предсказания. Обратите внимание на то, что перед 77 Генеральные совокупности и выборки каждым X в уравнении стоит которую называют регрессионным коэффициентом: β, – это регрессионный коэффициент для X , – это регрессионный коэффициент β β 1 1 2 для и так далее. Значения этих регрессионных коэффициентов определяются X 2 при помощи математических вычислений, которые позволяют получить лучшее уравнение из всех возможных для предсказания значений по значениям переY на основе имеющегося набора данных. X Из-за принятой системы обозначений зависимую переменную также называют «Y-переменной», а независимые – «X-переменными». К другим терминам, используемым для обозначения зависимой переменной, относятся результирующая пеи переменременная, переменная-отклик объясненная переменная. ные также называют или регрессоры, предсказывающие объясняющие переменные. Некоторые исследователи считают, что термины «независимый» и «зависимый» следует использовать только в эксперименте (например, при рандомизированном исследовании эффективности лекарств с контролем). При такой интерпретации термины «независимый» и «зависимый» подразумевают причинно-следственную связь, то есть значение зависимой переменной зависит, по крайней мере частично, от значений независимой переменной, факт, который сложно, если не вовсе невозможно, установить при наблюдении. (Различие между экспериментом и наблюдением подробно обсуждается в главе 18.) В этой книге данное правило не выполняется, поскольку вопросы причинно-следственной связи гораздо более сложны, по сравнению с разделением исследований на эксперимент и наблюдение; таким образом, мы будем использовать термин «независимая переменная» для обозначения переменных, которые отображают результат исследования, и «зависимая переменная» для переменных, которые, согласно ожиданиям, влияют на результат. Генеральные совокупности и выборки Концепция генеральных совокупностей и выборок, обсуждаемая также в главе 4, является ключевой для понимания статистического вывода. Определить, что является генеральной совокупностью, и выбрать подходящий метод получения выборки может быть довольно сложным (на самом деле многие статистики с докторскими степенями специализируются на данном типе работы) и требует большего внимания, чем может быть уделено этому вопросу здесь. Вместо этого мы обсудим базовые понятия и концепции, а читателю, которому нужна дополнительная информация по данной тематике, следует обратиться к специализированным учебным пособиям (некоторые из них перечислены в приложении C) или пройти углубленный курс теории получения выборок. Интересующая нас генеральная совокупность (называемая часто просто «генеральная совокупность») состоит из всех людей или других объектов (например, атлантических лососей или частей самолетов), которые исследователи хотели бы изучить, если бы обладали бесконечными ресурсами. Если посмотреть на это с другой стороны, то генеральная совокупность – это все множество объектов, на 78 Глава 3. Статистический вывод которое исследователи хотели бы распространить свой результат. Это могут быть, например, все, кто жил в США в 2007 году, или мужчины возрастом 65–75 лет, у которых диагностирована застойная сердечная недостаточность. Выборки и переписи Почти все статистические исследования основываются на выборках из генеральной совокупности, а не на самой генеральной совокупности. Из этого правила существуют немногочисленные исключения. Результат периодического сбора данных обо всей генеральной совокупности называется переписью. Во многих странах государственные организации проводят перепись населения. Например, в США перепись населения проводится раз в десять лет и служит разным целям, включая распределение мест в палате представителей (нижней палате конгресса). Хотя предполагается, что в ходе переписи собирают информацию о каждом гражданине, на практике это редко достижимо. Некоторые люди не участвуют в переписи, а иных опрашивают дважды. Поэтому некоторые статистики считают, что параметры генеральной совокупности будет аккуратнее оценивать на основании хорошо составленной выборки, а не переписи, или же что данные переписи должны быть дополнены результатами изучения выборок. Легко читаемое обсуждение этих вопросов и хороший перечень источников более подробной информации содержится в статье Иварса Петерсона (Ivars Peterson), ссылка на которую приведена в приложении C. Детерминированные выборки Существует множество способов составления выборки. К сожалению, некоторые из самых удобных способов основаны на детерминированном отборе объектов, что делает их уязвимыми для возникновения выборочного смещения. Это значит, что существует высокая вероятность того, что выборка, составленная при помощи детерминированного отбора объектов, будет нерепрезентативной, так что сделанные на основе этой выборки выводы о генеральной совокупности будут сомнительными. Методы детерминированного отбора объектов популярны, поскольку с их помощью исследователь может избежать тягостного процесса составления вероятностной выборки, однако за это удобство приходится платить. Возможность распространения выводов, сделанных на основании такой выборки, на всю генеральную совокупность (как правило, основная цель составления выборки) будет ограниченной, поскольку репрезентативность выборки неочевидна. Распространенный тип детерминированной выборки – это выборка из добровольцев. Вот пример: ученый публикует в газете объявление о наборе испытуемых и включает в исследование всех, кто пожелал принять в нем участие. Это удобный способ набрать испытуемых, но, к сожалению, те, кто сами вызвались принять участие в исследовании, не могут представлять никакую генеральную совокупность. Использование выборки из добровольцев лучше оставить для такой ситуации, когда составить случайную выборку затруднительно, например для исследования тех, кто употребляет запрещенные наркотические вещества. Даже учитывая ограниченную возможность генерализации, на такой выборке из добровольцев можно получить полезную информацию, особенно на , крови), поскольку посы- 82 Глава 3. Статистический вывод лать исследователей для работы с одним человеком из городка Рукерсвиль (штат Вирджиния), одним человеком из города Чадрон (штат Небраска), одним – из Бэрроу (Аляска) и так далее было бы непозволительно дорого. Более экономно было бы разработать план создания выборки, который бы имел несколько уровней случайного отбора людей. На уровне страны нужно случайно выбрать несколько регионов, затем – случайно выбрать штаты в каждом регионе, города – в каждом штате и так далее вплоть до отдельных домов и людей в этих домах. Гнездовые выборки дают меньшую точность, поскольку объекты из одной группы (например, дома в одном городе или города в одном штате) обычно более сходны между собой, чем объекты, выбранные при ПСВ. Эта потеря точности обычно в достаточной степени компенсируется бо#8;льшим объемом выборки, которую можно обследовать, благодаря снижению расходов. Метод гнездовых выборок может сочетаться с методом выборок, пропорциональных численности. Например, вы можете захотеть извлечь выборку изо всех учеников начальной школы. Не существует списка всех учеников начальной школы в масштабах всей страны (по крайней мере, для США), но вы можете составить перечень всех начальных школ, а у каждой школы будет список ее учеников. Так что вы сможете случайно выбрать школы (возможно, в несколько стадий). Поскольку в разных школах число учеников неодинаково, вам может захотеться учесть это обстоятельство при составлении выборки, так чтобы число учеников из маленьких школ не было бы непропорционально большим (поскольку маленьких школ больше). Затем вы выберете разное число учеников для каждой выбранной школы, основываясь на общем числе ее учащихся. Это значит, что вы выберете вдвое больше детей из школы с 400 учениками, по сравнению со школой, в которой учится всего 200 человек. При таком подходе полученная выборка будет содержать сопоставимое число учащихся из больших и маленьких школ. Теорема центрального предела Теорема центрального предела гласит, что распределение значений выборочных средних близко к нормальному вне зависимости от распределения значений генеральной совокупности при условии, что выборки достаточно велики. Этот факт позволяет нам делать статистические заключения, основанные на свойствах нормального распределения, даже если выборка происходит из популяции, распределение значений в которой отлично от нормального. Для выборочного среднего теорему о центральном пределе можно сформулировать следующим образом: Пусть , … – это случайная выборка из некоторой генеральной совокупX X n 1 σ 2 ности со средним арифметическим и дисперсией , тогда для достаточно μ больших n , даже если распределение значений в генеральной совокупности отлично от нормального. 83 Теорема центрального предела ~̇ Символ значит, что «распределение близко к», а формулу можно прочесть как «распределение средних значений X близко к нормальному со σ 2 средним арифметическим μ и дисперсией /n» . 1 В применимости теоремы о центральном пределе на практике можно убедиться при помощи компьютерного моделирования, при котором многократно создаются выборки заданного размера из генеральной совокупности с отличным от нормального распределения значений. На рис. 3.14 изображено распределение значений генеральной совокупности из случайно сгенерированных значений, равномерно распределенных в диапазоне от 0 до 100. 20 15 10 5 0 0.00 20.00 40.00 60.00 80.00 100.00 Рис. 3.14. Гистограмма для генеральной совокупности с равномерно распределенными значениями (N = 100) в диапазоне от 0 до 100 Распределение данных, показанное на рис. 3.14, определенно отличается от нормального. Однако теорема о центральном пределе гласит, что если выборки достаточного размера получены из генеральной совокупности с отличным от нормального распределением значений, средние арифметические этих выборок распределены близко к нормальному. Обратите внимание, что в теореме ничего не сказано про то, какой размер выборок нужно считать достаточным. Ученые используют эмпирические правила, такие как распространенное правило, что выборка должна включать не менее 30 объектов, однако тут нет абсолютных законов, применимых во всех случаях. Для выборок из генеральной совокупности с близким к нормальному распределением значений распределение выборочных средних будет близким к нормальному всего при 10 или 15 объектах в выборке, тогда как для генеральной совокупности с очень асимметричным распределением требуется выборка размером 40 объектов и более. 1 Rosner, Bernard. 2000. Fundamentals of Biostatistics, 5th ed.; Brooks/C распределенными значениями 87 Проверка гипотез 30 20 10 0 -4.00 -2.00 0.00 2.00 4.00 Рис. 3.19. Распределение средних значений для 100 выборок размером n = 25 из генеральной совокупности с асимметрично распределенными значениями Проверка гипотез Проверка гипотез составляет основу статистического вывода, поскольку позволяет использовать статистические методы для решения повседневных задач. Проверка гипотез состоит из нескольких основных этапов: 1. Формулировка рабочей гипотезы, которая может быть проверена статистическими методами. 2. Формальное описание нулевой и альтернативной гипотез. 3. Выбор подходящего статистического теста, сбор данных, проведение вычислений. Выработка решения на основании полученных результатов. Возьмем для примера оценку нового лекарства для снижения кровяного давле- ния (борьбы с гипертонией). Производитель хочет доказать, что оно при прочих равных условиях работает лучше, чем все аналогичные средства, так что рабочая гипотеза может звучать как-нибудь вроде «Гипертоники, получающие новый препарат X, продемонстрируют более существенное снижение кровяного давления, по сравнению с гипертониками, которых лечат созданным ранее препаратом Y». Если мы обозначим среднее снижение кровяного давления в группе пациентов, получающих препарат как μ , а в группе с препаратом – как μ , то нулевую и X, Y 1 2 альтернативную гипотезы можно сформулировать следующим образом: 88 Глава 3. Статистический вывод H : μ μ ≤ 0 1 2 H : μ > μ A 1 2 называется нулевой гипотезой. В данном примере нулевая гипотеза состоит H 0 в том, что лекарство неэффективнее лекарства поскольку снижение кровяноX давления, достигнутое при помощи препарата X, меньше или равно снижению, наблюдающемуся для препарата Y. H , иногда обозначаемая как H , называется альA гипотезой. В нашем примере альтернативная гипотеза заключается в том, что препарат более эффективен, чем обычное лечение, поскольку пациенты, X получающие препарат демонстрируют более выраженное снижение кровяного X, давления, чем пациенты, получающие препарат Обратите внимание на то, что Y. нулевая и альтернативная гипотезы должны быть взаимоисключающими (ни один результат не может удовлетворять обоим условиям) и исчерпывающими (все возможные результаты должны удовлетворять одному из двух условий). В данном примере альтернативная гипотеза мы указываем, что односторонняя: нулевая гипотеза будет отвергнута, если группа, получавшая препарат продеX, более заметное снижение кровяного давления, по сравнению с группой, получавшей препарат Y. Мы также можем сформулировать двустороннюю альтернативную гипотезу, если она будет более уместной для данного исследования. Например, если бы мы интересовались, различается ли кровяное давление (не важно, в какую сторону) у пациентов, получавших препарат и получавших X препарат мы бы показали это при помощи двусторонней альтернативной гипоY, μ = μ H 0 1 2 ≠ : μ μ H 1 2 A Двусторонние гипотезы более широко распространены в статистике, поскольку, как правило, вы хотите обнаружить различия любой направленности. После сбора данных и вычисления статистик можно принять одно из двух решений: нулевую гипотезу; • не отвергнуть нулевую гипотезу. Обратите внимание на то, что если мы не можем отвергнуть нулевую гипотезу, это не значит, что мы доказали ее справедливость. Это значит только то, что наше исследование не предоставило достаточных доказательств ее справедливости. Отклонение нулевой гипотезы иногда называется «нахождением статистически значимого результата», поскольку проводимый статистический анализ данных должен продемонстрировать не только, например, различия в средних значениях по группам, а то, что эти различия Неформальное знастатистически значимы. чение статистической значимости – это «скорее всего, наблюдающееся не случайно», а процесс определения того, значимы ли результаты, включает не только статистические расчеты, но и применение основанных на традициях правил, которые могут различаться в зависимости от области иссле годы важности достижения β. 91 Доверительные интервалы нужного уровня мощности придается большое значение. Исследователи и грантодатели стали заботиться о мощности и, таким образом, об ошибке II рода, отчасти потому, что они не хотят вкладывать время, деньги и усилия в исследование до тех пор, пока не будет обеспечена достаточная вероятность обнаружения существующих закономерностей. Расчет мощности играет важную роль в планировании исследований, в особенности при определении размера выборки, который необходим для достижения достаточной мощности; эти вопросы более подробно обсуждаются в главе 15. Доверительные интервалы Когда мы вычисляем одну статистику, такую как среднее, чтобы охарактеризовать выборку, это называется точечной оценкой, поскольку полученное число соответствует одной точке на числовой оси. Хотя выборочное среднее – это лучшая несмещенная оценка среднего значения для генеральной совокупности, мы знаем, что если взять другую выборку, полученное для нее среднее, скорее всего, будет другим. Конечно, мы не можем ожидать, что все выборки из одной генеральной совокупности будут иметь одно и то же среднее значение. Есть смысл задаться вопросом, насколько точечная оценка варьирует в силу случайных причин, поэтому во многих областях науки принято приводить и точечные, и интервальные оценки. В отличие от точечной оценки, которая представлена одним числом, интервальная оценка – это числовой диапазон. Один из распространенных типов интервальной оценки – это доверитель(интервал между двумя значениями, которые представляют собой ный интервал верхнюю и нижнюю данной статистики). Формула, при доверительные границы помощи которой рассчитывается доверительный интервал, зависит от типа используемой статистики и будет рассмотрена в соответствующих главах. Задача этого раздела – ввести понятие доверительного интервала. Он рассчитывается с использованием заранее установленного уровня значимости, часто называемого (греческая буква «альфа»), которая наиболее часто принимается за 0,05, как α это обсуждалось ранее. рассчитывается как 1 – или, в Доверительный уровень α процентном виде, 100(1 – Таким образом, при = 0,05 доверительный уроα)%. составляет 0,95, или 95%, и в научных журналах обычно требуется указывать 95%-ный доверительный интервал в дополнение к точечным оценкам статистик. Идея доверительных интервалов состоит в том, что если повторить исследование бесконечное число раз, каждый раз анализируя новую выборку из генеральной совокупности и используя доверительные интервалы, рассчитанные для каждой из этих выборок, доверительный интервал будет содержать истинное значение параметра, которое нужно оценить в данном исследовании, x% раз (где x – это доверительный уровень). Например, если интересующая нас статистика – это среднее и мы используем 95%-ный доверительный интервал, после бесконечного числа извлечений выборки и вычисления выборочного среднего в 95% случаев среднее значение для генеральной совокупности будет находиться в пределах доверительного интервала. 92 Глава 3. Статистический вывод Доверительный интервал содержит важную информацию об аккуратности точечной оценки. К примеру, представьте, что у нас есть две выборки студентов, и в обоих случаях среднее значение IQ (средний коэффициент умственного развития) составляет 100. Однако в одном случае 95%-ный доверительный интервал составляет (95, 105), а в другом случае – (80, 120). Поскольку первый доверительный интервал намного уже второго, оценка среднего более точна в первом случае. Кроме того, более широкий доверительный интервал для второй группы свидетельствует о том, что изменчивость по IQ в этой группе выше (хотя для проверки этой гипотезы потребуется дополнительный анализ данных). Значения p Очевидно, что при работе с предсказательной статистикой мы в целом пытаемся оценить значение того, чего не можем измерить напрямую. Например, мы не можем обследовать каждого гипертоника на планете, но мы можем собрать данные о выборке людей с повышенным давлением и сделать выводы на основании этой выборки. Мы знаем, что при таком подходе всегда существует некоторая вероятность ошибки, включая вероятность того, что значимые результаты будут получены из-за влияния случайных причин, таких как ошибки извлечения выборки, а не из-за факторов, представляющих интерес для исследования. Значение p характеризует вероятность того, что результаты, по крайней мере настолько же выбивающиеся из общей массы, как которые получены при анализе выборки, случайны. Слова «по крайней мере настолько же выбивающиеся из общей массы» включены в определение потому, что многие статистические тесты основаны на сравнении статистики с некоторым теоретическим распределением, и часто (как в случае нормального распределения) значения, расположенные ближе к центру распределения, встречаются чаще значений, расположенных дальше от центра (выбивающихся из общего ряда). Даже если распределение асимметрично (как, например, распределение хи-квадрат), сильно отличающие от среднего значения обычно реже встречаются, так что принцип определения вероятности результатов, по крайней мере настолько же выбивающихся из общей массы, как полученные в ходе исследования, остается полезным. Рассмотрение простого примера может прояснить ситуацию. Представьте, что мы проводим эксперимент по подбрасыванию «правильной» монеты, то есть такой монеты, у которой выпадение орла и решки равновероятно при каждом броске. Формально мы можем записать это в таком виде: = = 0,5. P(орел) P(решка) Каждый бросок монетки можно назвать испытанием. Поскольку вероятность выпадения орла при каждом броске равна 0,5, самая надежная оценка числа орлов, выпавших при 10 испытаниях, – это 5, хотя мы знаем, что в каждом отдельном случае при 10 бросках может выпасть разное число орлов. Представим, что мы подбросили монетку 10 раз и 8 раз выпал орел. Мы хотим вычислить значение p для этого результата, то есть насколько ожидаемо то, что монетка с вероятностью 93 Z-статистика выпадения орла при каждом отдельном испытании 0,5 8 раз упадет орлом вверх в 10 испытаниях. При помощи таблицы биномиального распределения, компьютерной программы или формулы бинома Ньютона мы выясним, что вероятность данного результата (8 орлов при 10 испытаниях) равна 0,0439, означая, что меньше чем в 5% случаев при 10 подбрасываниях «правильной» монеты выпадут точно 8 орлов. Вероятность выпадения 9 орлов при 10 испытаниях равна 0,0098, а 10 орлов – 0,001. Отсюда видно, что чем сильнее результат отличается от ожидаемого (5 орлов при 10 испытаниях), тем менее он вероятен. Если мы оцениваем вероятность того, что монета «правильная», далекие от наших ожиданий (5 орлов при 10 испытаниях) результаты дают нам веские основания считать ее неправильной. При решении задач такого типа мы обычно вычисляем вероятность не просто полученного результата, но результатов, которые по меньшей мере настолько же выбиваются из общей массы. В этом случае вероятность выпадения 8, 9 или 10 орлов при 10 подбрасываниях монетки составляет 0,0439 + 0,0098 + 0,0010, или 0,0547. Это значение для выпадения по меньшей p мере 8 орлов при 10 подбрасываниях монетки, для которой вероятность выпадения орла при каждом броске составляет 0,5. Значения обычно приводятся в качестве результатов исследований, в которых p задействованы статистические вычисления, отчасти потому, что интуиция – это плохой индикатор необычности результатов. Например, многие люди могут думать, что выпадение 8 или более орлов при 10 бросках правильной монеты необычно. Статистическое определение «необычного» отсутствует, поэтому мы будем использовать общепринятый стандарт о том, что значение для наших реp должно быть меньше 0,05, для того чтобы мы отвергли нулевую гипотезу (которая в нашем случае состоит в том, что монета – «правильная»). В данном примере, что немного удивительно, этот стандарт не выполняется. Значение p для нашего результата (8 орлов при 10 испытаниях) не позволяет отвергнуть нулевую гипотезу о том, что монета «правильная», то есть = 0,5, поскольку 0,0547 P(орел) больше 0,05. Z-статистика Z-статистика аналогична Z-значению, которое обсуждалось ранее, за одним важным исключением: вместо того чтобы оценивать вероятность определенного знатеперь мы интересуемся вероятностью определенного чения, среднего значения для выборки. Z-статистика – это важный пример применения теоремы центрального предела, которая позволяет вычислить вероятность результата, полученного для выборки, при помощи нормального распределения, даже если распределение значений генеральной совокупности, из которой происходит выборка, нам неизвестно. для вычисления Z-статистики (рис. 3.20) сходна с формулой для расчета Z-значения (рис. 3.3). 94 Глава 3. Статистический вывод Рис. 3.20. Формула для вычисления Z-статистики В этой формуле: – это среднее значение для нашей выборки; x μ – среднее значение для генеральной совокупности; σ – стандартное отклонение для генеральной совокупности; – размер выборки. n Существенное различие между формулами для расчета Z-значения и Z-статисσ, – это числитель: в случае Z-значения мы делим на а в случае Z-значения σ/ мы делим на Обратите внимание на то, что для вычисления Z-статистики n. мы должны знать среднее значение и стандартное отклонение для генеральной совокупности; если мы знаем только среднее, но не стандартное отклонение, мы вместо этого можем вычислить t-статистику (обсуждается в главе 6). Вам может помочь представление о Z-значении как о Z-статистике для выборки из одного σ/ σ, объекта, так что знаменатель будет равен 1, это то же самое, что и в результате мы получим знакомую формулу для вычисления Z-значения. Знаменатель в формуле для вычисления Z-статистики называется стандартной ошибкой среднего, иногда сокращаемой как СОС 3 или записываемой в виде σ . Стандартная ошибка среднего – это стандартное отклонение распределения x √n, значений выборочных средних. Поскольку знаменатель делится на бо#8;льшие выборки при прочих равных будут характеризоваться бо#8;льшими значениями Z-статистики. Это станет ясным, если рассчитать Z-статистику для нескольких выборок, которые различаются только размером. Предположим, мы создадим три выборки из генеральной совокупности со средним значением, равным 50, и стандартным отклонением, равным 10: выборка 1: = 52, = 30; x n выборка 2: x = 52, n = 60; выборка 3: x = 52, n = 100. Расчеты значений Z-статистики для каждой выборки приведены на рис. 3.21, 3.22, 3.23. x Рис. 3.21. Z-статистика для выборки ( = 52, n = 30) из генеральной совокупности ~N(50, 10) 3 В русскоязычной литературе такое сокращение используется крайне редко, а английская аббревиатура SEM (standard error of the mean) шир е с инструкциями по их использованию. 96 Глава 3. Статистический вывод Преобразования данных Многие из наиболее распространенных методов статистического анализа называются означает, что в их основе лежат определенные параметрическими, допущения о распределении значений в генеральной совокупности, из которой происходит выборка. Если данные в выборке свидетельствуют о том, что эти допущения не выполняются, у исследователя есть в запасе несколько подходов к анализу данных. Один – использование непараметрических методов, в основе которых лежит меньше (или вообще никаких) допущений о типе распределения данных. Непараметрические статистики обсуждаются в главе 13. Другая возможность – это преобразовать данные некоторым образом так, чтобы выполнялись допущения, лежащие в основе нужного статистического метода. Существует много способов преобразования данных, в зависимости от нужного типа распределения данных и нарушенных допущений. Мы рассмотрим один случай преобразования набора данных с целью приближения его распределения к нормальному, однако обсуждаемые нами общие принципы также применимы к другим задачам по преобразованию данных. Дальнейшую информацию о преобразованиях данных можно почерпнуть из более полного учебника, например написанного Mosteller и Tukey (ссылка приведена в приложении C). Первый шаг в преобразовании данных – это рассмотреть внимательно набор данных и решить, какое преобразование подходит в данном случае и нужно ли оно вообще. Для анализа данных с этой целью рекомендуются два подхода. Один заключается в графическом изображении данных, например в виде гистограммы с наложенной кривой нормального распределения. Это позволяет визуально оценить распределение данных в общих чертах, а также предоставляет возможность обнаружить выбросы (экстремальные или необычные значения). Понимание общей формы распределения данных также помогает решить, какой тип преобразований можно попробовать применить. Второй подход – вычислить одну из статистик, разработанных для проверки соответствия данных определенному распределению. Обычно в этих целях используются две статистики – Андерсона–Дарлинга и Колмогорова–Смирнова. Алгоритмы вычисления этих статистик включены во многие статистические пакеты, и различные статистические калькуляторы, доступные в Интернете, также могут вычислять одну из них или обе. К примеру, статистический калькулятор для проведения теста Колмогорова–Смирнова доступен по этому адресу: http://jumk.de/statistic-calculator/. Смещенное влево распределение данных (это значит, что низкие значения более обычны и «хвост» из менее частых высоких значений «тянется» в правой части гистограммы) может быть приближено к нормальному при помощи извлечения квадратного корня или логарифмирования. В первом случае вычисляется квадратный корень каждого значения. Если исходное значение равно 4, преобразованное √4 значение равно 2, поскольку = 2. При логарифмическом преобразовании вычисляется натуральный логарифм каждого значения, так что если исходное значение равно 4, то после преобразования оно равно 1,386, поскольку ln(4) = 1,386. Каждое из этих преобразований может быть с легкостью осуществлено при помощи статистической программы, карманного калькулятора или электронной таблицы. 97 Преобразования данных На рис. 3.24 представлено смещенное влево распределение данных. На рис. 3.25 показано распределение тех же данных после извлечения из них квадратного корня, а на рис. 3.26 показаны те же данные после логарифмирования (то есть на гистограмме представлены натуральные логарифмы данных с рис. 3.24). Визуальное сравнение этих трех диаграмм позволяет заключить, что распределение на рис. 3.24 сильно смещено влево и не соответствует наложенной кривой нормального распределения. Распределение на рис. 3.25 больше похоже на нормальное, а на рис. 3.26 распределение стало из смещенного влево смещенным вправо, так что оно тоже отличается от нормального. Мы также можем провести статистические тесты, чтобы понять, привели ли преобразования к приемлемому распределению данных. С этой целью мы рассчитаем одновыборочную статистику Колмогорова–Смирнова (К–С), чтобы оценить, насколько хорошо каждый набор данных соответствует идеальному нормальному распределению. Для расчетов использовали программу SPSS, хотя они могли быть также проведены при помощи любой другой статистической программы. Результаты для этих трех наборов данных приведены в табл. 3.2. Таблица 3.2. Z-статистики Колмогорова–Смирнова и p-значения для трех наборов данных Исходные Извлечение Вычисление данные квадратного корня натурального логарифма Z-статистика 1.46 0.66 1.41 Колмогорова–Смирнова p 0.029 0.78 0.04 25 20 15 10 5 0 0.00 1.00 2.00 3.00 4.00 5.00 Рис. 3.24. Гистограмма для данных со смещенным вл и К–С-статистику (Z-значение К–С), и 99 Упражнения p-значение для этой статистики, а мы будем придерживаться правила, при котором нулевая гипотеза отвергается, если p < 0,05. Согласно результатам из табл. 3.2, мы отвергаем нулевую гипотезу для исходных и логарифмированных данных, но нам не удается ее отвергнуть для квадратного корня из данных. Таким образом, если мы хотим использовать эти данные для методов, предназначенных для работы с нормально распределенными данными, мы должны использовать преобразование с извлечением квадратного корня. Если значения переменной смещены вправо (то есть много высоких значений с «хвостом» редких низких значений, «протянувшимся» влево), вы можете «зеркально отразить» данные, а затем извлечь из них квадратный корень или логарифмировать. Для «зеркального отражения» переменной прибавьте единицу к максимальному значению в данных и вычтите каждое значение переменной из этого нового числа. Например, если наибольшее значение равно 35, вычитайте каждое значение из 36 (то есть 35 + 1), чтобы получить «отраженные» значения. Это значит, что исходное значение 1 превратится в 35, исходное значение 2 превратится в 34 и так далее, вплоть до исходного значения 35, отраженное значение которого равно 1 (36 – 35). Такое «отражение» превращает смещенное вправо распределение в смещенное влево, а затем можно извлечь квадратный корень из данных или логарифмировать их и понять, приближают ли эти процедуры распределение данных к нормальному. Преобразование данных – не гарантированное решение проблем с распределением; иногда преобразование только усиливает имеющуюся проблему или порождает новую! По этой причине преобразованные данные нужно все время проверять на нормальность, как мы делали перед этим, чтобы убедиться, что преобразование привело данные к нужному распределению. Учтите также, что преобразование меняет единицу измерения данных. Например, если вы логарифмировали значения кровяного давления, единицей измерения стал логарифм единиц, в которых измеряется кровяное давление. Если вы «зеркально отражаете» значения переменной, они меняются местами (максимальное значение становится минимальным), так что интерпретация любой статистики, основанной на этих значениях, тоже должна быть «зеркально отраженной». По этим причинам действие любого преобразования данных нужно учитывать при донесении до окружающих и интерпретации статистических результатов. Упражнения Задача В каждом из приведенных наборов переменных какие, скорее всего, будут зависимыми, а какие – независимыми при проведении исследования? 1. Пол, потребление алкоголя, стиль вождения. 2. Средний балл в школе, средний балл на первом курсе университета, выбор профильной дисциплины в университете (до зачисления), этническая принадлежность, пол. 100 Глава 3. Статистический вывод 3. Возраст, этническая принадлежность, отношение к курению, вероятность рака легких. 4. Аккуратность выполнения задания по программированию, тип полученных инструкций, время тренировки и уровень тревожности. Решение Учтите, что на эти вопросы есть более одного правильного ответа. Приведенные ответы просто представляют собой наиболее распространенные схемы исследований. Пол – это независимая переменная (ни потребление алкоголя, ни стиль вождения на него не влияют). Потребление алкоголя – это, скорее всего, независимая переменная, а стиль вождения – зависимая, так что исследоваться будет влияние алкоголя и пола на стиль вождения. Хотя можно разработать экспериментальную схему, в которой роли потребления алкоголя и стиля вождения поменяются местами, возможно для проверки предположения о том, что люди склонны уменьшить потребление алкоголя после серьезной аварии. 2. Средний балл на первом курсе университета – это, скорее всего, зависимая переменная. По хронологическим соображениям средний балл в школе будет независимой переменной (поскольку школа идет раньше университета). Этническая принадлежность и пол – тоже независимые переменные, поскольку это характеристики человека. По соображениям хронологии выбор профильной дисциплины в университете – это независимая переменная, если средний балл первокурсника – переменная зависимая, поскольку выбор профильной дисциплины осуществляется до поступления, а сред- ний балл подсчитывается после окончания первого курса. 3. Вероятность рака легких – это, скорее всего, зависимая переменная, а возраст, этническая принадлежность и стиль курения – независимые. 4. Аккуратность выполнения задания – это, скорее всего, зависимая переменная, а все остальные – независимые. Задача Почему теорема о центральном пределе чрезвычайно важна при использовании предсказательной статистики? Решение Теорема центрального предела гласит, что распределение выборочных средних приближается к нормальному вне зависимости от типа распределения значений в генеральной совокупности, из которой происходят эти выборки, если их размер достаточно велик. Это важно, поскольку при достаточном размере выборки мы можем использовать нормальное распределение для расчета вероятности результатов, полученных для выборки, даже если нам неизвестно распределение значений в генеральной совоку )] = 2 (0,00248) = 0,00496. P[(Z OR × ГЛАВА 4. Описательная статистика и графическое представление данных Большая часть этой книги, как и большинства книг о статистике, посвящена статистической проверке гипотез, то есть тому, как делать выводы о генеральной совокупности, используя статистику, рассчитанную по выборке из нее. Однако данная глава посвящена другому виду статистики: описательной, то есть использованию методов статистики и графических подходов для представления информации об изучаемых данных. Практически все, кто связан с обработкой данных, используют оба вида статистики, и часто вычисление описательных статистик – это предварительный этап перед итоговой стадией проверки гипотез. Особенно широко практикуют анализ графического представления данных и расчет простейших описательных статистик, чтобы лучше почувствовать анализируемые данные. Всегда полезно узнать свои данные лучше, и почти всегда время, проведенное за этим занятием, не тратится впустую. Описательная статистика и графическое представление данных могут быть и окончательным результатом статистического анализа. К примеру, в бизнесе может потребоваться следить за объемами продаж в разных местах или для разных продавцов и представлять эти данные с помощью графиков, без какого-либо применения этой информации для того, чтобы делать выводы (например, о других местах или годах) с использованием собранных данных. совокупности и выборки Одни и те же данные можно рассматривать или как генеральную совокупность, или как выборку, в зависимости от целей их сбора и анализа. Например, итоговые оценки за экзамен для всех учеников класса – генеральная совокупность, если перед нами стоит цель описать распределение оценок в этом классе, но эти же оценки можно расматривать как выборку, если цель анализа состоит в том, чтобы на основании этих оценок сделать вывод об оценках других учени- 108 Глава 4. Описательная статистика и графическое представление... ков (возможно, в других классах или школах). Анализ генеральной совокупности подразумевает, что ваш набор данных представляет все интересующие вас объекты, так что вы можете напрямую судить о характеристиках этой группы. В противоположность этому при анализе выборки вы работаете только с частью генеральной совокупности, и любые утверждения, которые вы делаете об этой большей группе на основании выборки, вероятностные, а не абсолютные. (Обоснование статистики вывода приведено в главе 3.) По практическим соображениям выборки анализируют чаще, чем генеральные совокупности, поскольку изучить все члены генеральной совокупности напрямую бывает невозможно или непозволительно дорого. Различие между описательной статистикой и статистикой вывода принципиально, и для проведения различий между ними был разработан набор условных обозначений и терминов. Хотя эти обозначения несколько различаются в разных источниках, как правило, числа, которые характеризуют генеральную совокупность, называют параметрами и обозначают греческими буквами, таσ как μ (для среднего) и (для стандартного отклонения); числа, которые описывают выборку, называются и обозначаются латинскими статистиками буквами, такими как (выборочное среднее) и (выборочное стандартное отx центральной тенденции Меры центральной тенденции, также известные как меры положения, обычно одни из первых статистик, которые рассчитывают для непрерывных переменных из только что полученных данных. Главная цель их расчета состоит в том, что- бы дать представление о типичном или часто встречающемся значении в данной переменной. Три самые часто применяемые меры центральной тенденции – это среднее, медиана и мода. Среднее Среднее арифметическое, или просто среднее, – это то же самое, что в быту называют средним какого-то набора значений. Расчет среднего как меры центральной тенденции подходит для интервальных или характеризующих отношения данных, а среднее дихотомической переменной, закодированной как 0 и 1, дает долю случаев, когда она принимает значение 1. Для непрерывных данных, к примеру результатов измерения роста или теста на IQ, среднее просто рассчитывают, сложив все значения и разделив сумму на их число (объем выборки). Среднее генеральной совокупности 1 обозначают греческой буквой μ («мю»), тогда как среднее выборки обычно показывают чертой над обозначением переменной: например, среднее обозначается как и читается как «x Некоторые авторы также исx чертой». пользуют такую запись и для названий переменных. К примеру, можно обозначить «средний возраст» как что читается как «возраст возраст, с чертой». 1 В случае генеральной совокупности его также называют математическим ожиданием. – Прим. пер. 109 Меры центральной тенденции Положим, у нас есть генеральная совокупность с пятью элементами и вот значения переменной x для всех них: 100, 115, 93, 102, 97 Мы находим среднее сложив все эти значения и разделив на 5 (число значеx, = (100 + 115 + 93 + 102 + 97)/5 = 507/5 = 101,4. Статистики часто используют принятую форму записи суммы, приведенную в главе 1, которая определяет статистику с помощью описания ее расчета. Расчет среднего одинаков как в случае выборки, так и в случае генеральной совокупности; отличие только в символе, обозначающем само среднее. Среднее генеральной совокупности, записанное в виде суммы, представлено на рис. 4.1. Рис. 4.1. Формула для расчета среднего В этой формуле μ – это среднее по генеральной совокупности, – это число x n наблюдений (число значений x), а x – это значение x в конкретном наблюдении. i ∑ Греческая буква («сигма») обозначает сумму (сложение), а обозначения под и над «сигмой» определяют набор значений, к которым должна быть применена эта операция. В данном случае требуется сложить все значения от 1 до Символ x n. i обозначает положение в данных, так что – это первое значение в данных, – это x x 1 2 второе значение, а – последнее. Символ суммы означает, что мы должны слоx все значения x от первого (x ) до последнего (x ). Таким образом, среднее по 1 n генеральной совокупности рассчитывается с помощью сложения всех значений исследуемой переменной и последующего деления на общее число значений, пом1 что деление на n – это то же самое, что и умножение на — . n Среднее – это интуитивно понятная мера центральной тенденции, которую легко осознать большинству людей. Однако среднее в этом качестве следует использовать не для любых данных, поскольку оно чувствительно к экстремальным значениям, или выбросам (обсуждается подробнее ниже), и также может вести к неверным выводам в случае асимметричного распределения данных. Посмотрите на один пример. Положим, в нашем маленьком примере последнее значение было 297, а не 97. В таком случае среднее будет равно: μ = (100 + 115 + 93 + 102 + 297)/5 = 707/5 = 141,4. Среднее 141,4 – это нетипичное значение для этих данных. На самом деле 80% данных (четыре значения из пяти) меньше среднего, которое искажено присутствием одного очень высокого значения. Эта проблема не просто теоретическая; многие данные тоже распределены таким образом, что среднее не подходит для них в качестве меры центральной тенденции. Это часто правда для таких показ ервал для рис. 4.6 – это 45,00–49,99. 115 Меры разброса Рис. 4.6. Данные с левым плечом Меры разброса Разброс говорит о том, насколько сильно рассеяны значения в данных. Из-за этого меры рассеяния часто называют мерами разброса. Знание разброса данных может быть так же важно, как и знание их центральной тенденции. К примеру, в двух совокупностях детей среднее IQ составляет 100, но в одном случае разброс может быть от 70 до 130 (от слабого отставания в развитии до почти гениальности), тогда как в другом разброс может быть от 90 до 110 (все в пределах нормы). Отличие может быть важным, к примеру, для учителей, поскольку, несмотря на одинаковый средний интеллект, разброс IQ в этих группах говорит о том, что у них могут быть различные образовательные и социальные потребности. Размах и межквартильный размах Самая простая мера разброса – это то есть просто разность между самым размах, большим и самым маленьким значениями в выборке. Часто минимальное (наименьшее) и максимальное (наибольшее) значения также указывают при использовании размаха. Для данных (95, 98, 101, 105) минимум равен 95, максимум равен 105, а размах – 10 (105 – 95). Если в данных есть один или несколько выбросов, размах может не быть полезной мерой. К примеру, в данных (95, 98, 101, 105, 210) размах составляет 115, но почти все значения лежат в пределах 10 (95 – 105). Подсчет размаха для любой переменной – это хороший метод знакомства с данными; 116 Глава 4. Описательная статистика и графическое представление... необычно большой размах или крайне экстремальные минимальное или максимальное значения могут быть поводом для дальнейшего исследования. Крайне высокие или низкие значения или очень большой размах могут возникнуть из-за таких причин, как ошибка при вводе данных или включение наблюдения из другой генеральной совокупности, чем та, которую вы исследуете (данные для взрослого могли случайно попасть в данные, касающиеся детей). – это альтернативная мера разброса, которая слабее Межквартильный размах подвержена влиянию крайних значений, чем размах. Межквартильный размах – это диапазон изменчивости 50% данных из середины, который рассчитывают как разницу между 75% и 25% персентилями. Межквартильный размах легко получить с помощью большинства статистических программ, но несложно его посчитать и вручную с помощью следующих правил (n = число наблюдений, – это k персентиль, которую вам надо найти): 1. Отсортируйте все наблюдения по возрастанию. 2. Если nk/100 – целое (число без десятых или дробной части), то k-ая персентиль наблюдений – это среднее наблюдений под номерами nk/100 и nk/100 + 1. 3. Если – не целое, персентиль совпадает с измерением номер nk/100 k-ая + 1, где — максимальное целое число, меньшее j j nk/100. 4. Подсчитайте межквартильный размах как разность 75% и 25% персентилей. следующий набор данных с 13 наблюдениями (1, 2, 3, 5, 7, 8, 11, 12, 15, 15, 18, 18, 20): 1. Сначала мы найдем 25% персентиль, то есть = 25. k 2. У нас 13 наблюдений, так что = 13. n 3. (nk)/100 = (25 13)/100 = 3,25, не целое, поэтому мы используем второй × метод (№ 3 в предыдущем списке). 4. = 3 (максимальное целое число, меньшее то есть меньше 3,25). j nk/100, 5. Таким образом, 25% персентиль – это наблюдение номер + 1, или четверj наблюдение, которое равно 5. Мы можем проделать те же шаги и для 75% персентили: 1. (nk)/100 = (75*13)/100 = 9,75, не целое. 2. = 9, максимальное целое, меньшее 9,75. j 3. Таким образом, 75% персентиль равна значению номер 9 + 1, или 10, и которое равно 15. 4. В итоге межквартильный размах равен 15 – 5, или 10. Устойчивость межквартильного размаха к выбросам должна быть очевидна. У этих данных размах равен 19 (20 – 1), а межквартильный размах равен 10; однако если бы последнее значение было равно 200 вместо 20, размах бы составлял 199 (200 – 1), но межквартильный размах все также был бы равен 10, и это число лучше бы предс ны. 3 1 фунт = 16 унций. – Прим. пер. 121 Выбросы В случае, если переменная содержит значения обоих знаков, среднее может быть близким к нулю, что, несмотря на разумный размах в данных, может привести к обманчивому значению КВ: знаменатель будет очень маленьким числом, и это приведет к очень большому значению КВ, хотя стандартное отклонение не слишком большое. Польза КВ должна стать совсем очевидной, если рассмотреть одни и те же данные, выраженные в футах и дюймах; к примеру, 60 дюймов – это то же самое, что и 5 футов. Данные, выраженные в футах, имеют среднее 5,5566, стандартное отклонение 0,2288; те же данные, выраженные в дюймах, имеют среднее 66,6790 и стандартное отклонение 2,7453. Тем не менее КВ не подвержен влиянию единиц измерения, и его значение не зависит от них с точностью до ошибки округления: 5,5566/0,2288 = 24,2858 (данные в футах); 66,6790/2,7453 = 24,2884 (данные в дюймах). Выбросы Среди статистиков нет полного согласия, как определить но практически выбросы, все согласны, что важно их выделить и использовать подходящие статистические методы в случае данных с выбросами. Выброс – это наблюдение в анализируемых данных, значение которого сильно отличается от других. Его часто описывают как значение в данных, которое как будто бы происходит из другой генеральной совокупности или выпадает из интервала типичных значений выборки. Предположим, вы исследуете учебную успеваемость в выборке или генеральной совокупности, и почти все испытуемые проучились от 12 до 16 лет (12 лет – окончание средней школы в Америке, 16 лет – оконченное высшее образование). Однако у одного из испытуемых значение этой переменной равно 0 (то есть он формально не получил никакого образования), а у другого – 26 (что предполагает много лет обучения после получения высшего образования). Вы, наверное, посчитаете эти два случая выбросами, поскольку их значения сильно отличаются от остальных данных в выборке или генеральной совокупности. Обнаружение и анализ выбросов – это важный предварительный этап во многих видах анализа, потому что наличие даже одного или двух выбросов может кардинальным образом исказить значения некоторых обычных статистик, таких как среднее. Кроме того, важно найти выбросы, потому что иногда они могут быть вызваны ошибками при вводе данных. В предыдущем примере первое, что стоит проверить, – это правильно ли были записаны значения; может оказаться, что правильные числа – это 10 и 16, соответственно. Второе, что стоит изучить, – это принадлежит ли данное наблюдение к исследуемой генеральной совокупности. Например, не относится ли 0 к продолжительности обучения ребенка, тогда как данные должны были содержать только информацию о взрослых? Если такие простые действия не позволяют решить проблему, придется придумать (по возможности обсудив это с коллегами), что делать с выбросами. Можно 122 Глава 4. Описательная статистика и графическое представление... просто убрать из данных все наблюдения с выбросами до анализа, но допустимость применения такого метода зависит от области исследований. Иногда существует статистический метод исправить ситуацию с выбросами, к примеру усеченное среднее, описанное ранее, хотя такие методы используют не во всех областях. Другие возможности – это преобразование данных (обсуждается в главе 3) или применение непараметрических методов (обсуждается в главе 13), на которые меньше влияют выбросы. Чтобы по возможности стандартизовать поиск выбросов, были разработаны различные эмпирические правила. Одно из обычных определений выброса, использующее межквартильный размах (МКР), состоит в том, что «слабые» выбросы – это те значения, которые меньше 25% персентили минус 1,5*МКР или больше 75% персентили плюс 1,5*МКР. В нормально распределенных данных настолько отклоняющиеся значения ожидается встретить примерно 1 на 150 наблюдений. «Сильные» выбросы определяются аналогичным образом, но с заменой 1,5*МКР на 3*МКР; такие крайние значения ожидаются в нормальных данных примерно 1 на 425 000 наблюдений. Графические методы Существует великое множество методов графического представления данных от самых простых, включенных в программы для работы с электронными таблицами вроде Microsoft Excel, до очень специализированных и сложных, доступных с помощью языков программирования вроде R. О правильном и ошибочном использовании графики в представлении данных написаны целые книги. Лидирующим (хотя и с противоречивой позицией) экспертом в этой области является Эдвард Тафти (Edward Tufte), профессор Йельского университета (магистр в области статистики и PhD в политических науках). Его наиболее известная работа – «Графическое изображение числовой информации» (The Visual Display of Quantitative Information, ссылка дана в приложении C), но все книги Тафти достойны того, чтобы с ними ознакомиться, всем интересующимся графическим отображением данных. Абсолютно невозможно рассказать о хоть сколько-нибудь заметной доле всех методов изображения данных в этом разделе, так что вместо этого мы обсудим самые обычные подходы, включая и проблемы, связанные с ними. Легко забыться и приняться за построение навороченных графиков, особенно из-за того, что программы для работы с электронными таблицами и статистические пакеты позволяют с легкостью создавать множество видов графиков и диаграмм. Термин Тафти для графических элементов, не несущих смысловой нагрузки, – «графический мусор» – точно описывает его отношение к таким изображениям. Стандарты того, что считают «мусором», а что нет, зависят от области, но как общее правило стоит использовать простейший вид графика или диаграммы, который понятным образом представляет ваши данные, при этом оставаясь в рамках стандартов, принятых в вашей профессии или области исследований. 123 Графические методы Таблицы частот Первый вопрос, который стоит задать самому себе при подборе метода визуализации данных, – необходимо ли вообще графическое отображение. Это правда, что часто лучше один раз увидеть, чем сто раз услышать, но в других случаях таблицы частот оказываются полезнее для представления данных, чем их графическое изображение. Это особенно важно, когда нас интересует не общее распределение данных по нескольким категориям, а конкретные полученные значения. Таблицы частот являются очень эффективным способом представления больших объемов данных и являются чем-то средним между текстом (абзацами с описаниями значений данных) и чистой графикой (такой как гистограмма). Предположим, университет интересуется сбором данных об общем состоянии здоровья первокурсников. Из-за того, что все больше беспокойства в Соединенных Штатах вызывает ожирение, одна из вычисляемых величин – это индекс мас(ИМТ), равный отношению массы тела в килограммах к квадрату роста сы тела в метрах. ИМТ – это не идеальный показатель. К примеру, спортсмены часто показывают как очень низкие результаты (марафонцы, гимнасты), так и слишком высокие (футболисты, тяжелоатлеты), но его просто подсчитать, и в случае большинства людей это довольно надежная мера того, насколько у них здоровый вес. ИМТ – это непрерывная величина, но его часто интерпретируют в терминах категорий, используя принятые промежутки. Интервалы для ИМТ приведены в табл. 4.3, согласно данным Центра по предупреждению и контролю заболеваний (ЦПКЗ, Centers for Disease Control and Prevention, CDC) и Всемирной организации здравоохранения (ВОЗ), в целом принятым как полезные и верные. Таблица 4.3. Категории ЦПКЗ и ВОЗ для ИМТ Интервал ИМТ Категория < 18.5 Пониженная масса тела 18.5–24.9 Нормальная масса тела 25.0–29.9 Избыточная масса тела 30.0 и выше Ожирение Теперь посмотрите на табл. 4.4, содержащую полностью выдуманные данные о классификации первокурсников по ИМТ. Таблица 4.4. Распределение ИМТ среди первокурсников в 2005 году Интервал ИМТ Число < 18.5 25 18.5 акопительной частоты) или верхние 5%. 125 Графические методы Кроме того, можно соорудить таблицу частот для сравнения между группами. Вас может интересовать, к примеру, сравнение распределений ИМТ среди юношей и девушек на первом курсе или сравнение поступивших в 2005 году и в 2000 или 1995 годах. В таких ситуациях сырые данные обычно менее полезны (из-за того, что размер курса может различаться), а относительные и накопительные частоты оказываются пригодными для сравнения. Другая возможность состоит в подготовке графических изображений, таких как диаграммы, описываемые в следующем разделе, которые могут сделать подобные сравнения более понятными. Столбчатые диаграммы особенно удобны для изображения дискретных данных с Столбчатые диаграммы небольшим числом категорий, как в случае нашего примера с ИМТ среди первокурсников. Столбцы в столбчатых диаграммах обычно отделяются друг от друга, чтобы не возникало ощущения непрерывности; хотя в нашем случае категории основаны на разбиении непрерывной переменной, они с тем же успехом могут быть истинными категориями, такими как любимый спорт или область специализации в учебе. На рис. 4.19 приведена информация об ИМТ среди первокурсников в виде столбчатой диаграммы. (Если не сказано иное, диаграммы, показанные в этой главе, были созданы с помощью Microsoft Excel.) Группы, BMI categories выделенные for Freshman по ИМТ, среди первокурсников Class, 2005 2005 года 600 студентов 400 Count 200 Число 0 Повышенная Пониженная Нормальная Underweight выше 125.0–29.9 тела тела Overweight тела Ожирение 24.9 18.5–24.9 30.0 above 25.0-29.9 Normal 18.5 <18.5 18.5– Obese масса масса масса и and < 30.0 BMI category Категория ИМТ Рис. 4.19. Абсолютные частоты категорий ИМТ среди первокурсников Абсолютные частоты используют тогда, когда надо знать число человек в определенной категории, тогда как относительные частоты – если необходимо понять соотношение чисел испытуемых, попавших в разные категории. Относительные частоты особенно удобны, что мы увидим дальше, при сравнении множества групп, к примеру чтобы понять, увеличивается или уменьшается год от года доля студентов с ожирением. В случае простой столбчатой диаграммы решение об использовании абсолютных или относительных частот не так важно, что можно видеть, сравнив столбчатую диаграмму с данными об ИМТ у студентов, представленную 126 Глава 4. Описательная статистика и графическое представление... относительными частотами на рис. 4.20, с теми же данными в виде абсолютных частот на рис. 4.19. Обратите внимание, что две диаграммы идентичны, за исключением подписей оси y (вертикальной оси), на которых указаны абсолютные частоты на рис. 4.19 и проценты на рис. 4.20. BMI categories for Freshman Группы, выделенные по ИМТ, среди первокурсников 2005 года Class, 2005 80% 60% 40% 20% 0% Underweight Повышенная Пониженная Нормальная Overweight выше 24.9 30.0 above тела тела тела 25.0-29.9 Ожирение 18.5–24.9 25.0–29.9 Normal 18.5 <18.5 Obese 18.5– масса масса масса и and < 30.0 Рис. 4.20. Относительные частоты категорий ИМТ среди первокурсников Использование относительных частот становится очень удобным, если мы сравниваем распределение студентов по категориями ИМТ в разные годы. Посмотрите на гипотетическую информацию о частотах в табл. 4.7. Таблица 4.7. Абсолютные и относительные частоты ИМТ в трех наборах студентов Интервал ИМТ 1995 2000 2005 Пониженная масса тела 50 8.9% 45 6.8% 25 3.3% <18.5 Нормальная масса тела 400 71.4% 450 67.7% 500 66.7% 18.5–24.9 Избыточная масса тела 100 17.9% 130 19.5% 175 23.3% 25.0–29.9 Ожирение 10 1.8% 40 6.0% 50 6.7% 30.0 и выше В сумме 560 100.0% 665 100.0% 750 100.0% Из-за того, что размеры курса различаются в разные годы, для поиска зависимостей в распределении студентов по ИМТ удобнее всего использовать относительные частоты (проценты). В данном случае наблюдалось явное уменьшение доли студентов с пониженной массой тела, тогда как доля студентов с повышенной массой тела или ожирением росла. Эту информацию также можно изобразить с помощью столбча Гистограмма с интервалами по 5 единиц 136 Глава 4. Описательная статистика и графическое представление... Это те же данные, но теперь гистограмма совсем не похожа на нормальное распределение, не так ли? На рис. 4.31 приведены те же данные с интервалами по 2 балла. 3 2 Frequency Частота 1 0 60 70 80 90 100 Результаты final_exam экзамена Рис. 4.31. Гистограмма с интервалами по 2 единицы Ясно, что выбор ширины интервалов очень важен для внешнего вида гистограммы, но как же определиться с их числом? Эта проблема подробно обсуждалась математиками, но осталась без однозначного ответа. (Если вас интересует очень специальное обсуждение, посмотрите статью Ванда (Wand), упомянутую в приложении В.) Нет единственно верного ответа на данный вопрос, но есть некоторые эмпирические правила. Во-первых, все интервалы вместе должны покрывать весь размах данных. Кроме того, одно из обычных эмпирических правил гласит, что число интервалов должно быть равно квадратному корню из числа наблюдений в данных. Другое — что оно никогда не должно быть меньше шести. Эти правила явно противоречат друг другу в данном случае, поскольку = 5,1, что меньше 6, √26 так что приходится использовать здравый смысл, а также пробовать разное число интервалов и их ширину. Если изменение этих величин сильно меняет визуальное отображение данных, стоит изучить их распределение подробнее. Двумерные диаграммы Диаграммы, содержащие информацию о связи двух переменных, называют двумерными: самый частый пример – это диаграмма рассеяния. В диаграммах рассея- 137 Двумерные диаграммы ния каждая точка в данных задается парой чисел, часто называемых x и y, каждую точку изображают в координатных осях; этот метод должен быть вам знаком, если вы когда-то использовали декартовы координаты в школе на уроках математики. Обычно вертикальную ось называют осью и на ней откладывают значения y, y для каждой точки. Горизонтальную ось называют осью и на ней откладывают x, значения для каждой точки. Диаграммы рассеяния – это очень важное средство x изучения двумерных связей между переменными, которые подробнее разбираются в главе 7. Диаграммы рассеяния Взгляните на данные, приведенные в табл. 4.9, содержащие результаты математической и речевой частей Академического оценочного школьного теста на способности (SAT, Scholastic Aptitude Test) гипотетической группы из 15 учеников. Таблица 4.9. Результаты теста для 15 учеников Математика Речь 750 750 700 710 720 700 790 780 700 680 750 700 620 610 640 630 700 710 710 680 540 550 570 600 580 600 790 750 710 720 Кроме того что все эти результаты достаточно высокие (этот тест калибруют таким образом, чтобы медианное значение составляло 500, а большинство результатов сильно выше этого числа), по сырым данным сложно сказать что-то про связь с результатами выполнения математической и речевой частей теста. Иногда результаты по математике выше, иногда речевая часть удается лучше, а часто результаты сходные. Однако построение диаграммы рассеяния двух переменных, такой как на рис. 4.32, с результатами по математике на оси (вертикальной) и речевыми на y оси (горизо збегать неверной трактовки читателем. 142 Глава 4. Описательная статистика и графическое представление... Как лгать при помощи статистики Даррел Хафф (Darrel Huff) был независимым писателем, который одновременно работал редактором изданий Look («Взгляд»), Better Homes and Gardens («Как улучшить ваш дом и сад») и Liberty («Свобода»). Однако его лучшей заявкой на известность стала классическая книга «Как лгать при помощи статистики» (How to Lie with Statistics), впервые опубликованная в 1954 году. Некоторые считают, что это самая читаемая книга по статистике в мире. Хафф не был профессиональным статистиком, его представление темы можно описать разве что как неформальное, а некоторые иллюстрации в этой книге сейчас бы посчитали оскорбительными, если бы их включили в современную книгу. Однако данная книга сохранила свою популярность в течение всех этих лет; она все еще переиздается и была переведена на много языков. Хафф берет многие из своих примеров «лжи», как он называет обманчивое представление информации, из СМИ, политических и рекламных текстов. Некоторые из его самых метких примеров приведены в главе про графическое представление данных, и они включают такие ошибки, как специально вводящий в заблуждение масштаб и полное отсутствие подписей по осям. Одна из причин такой популярности этой книги состоит в том, что многие из методов введения читателя в заблуждение, обнаруженные им в 1954 году, используются и по сей день. Упражнения Как и в случае любой другой области статистики, обучение какому-то методу описательной статистики требует практики. Здесь специально приведены очень простые данные, потому что если вы сможете правильно применить метод к 10 наблюдениям, вы сможете использовать его и для 1000 наблюдений. Мой совет состоит в следующем: попробуйте решить задачи несколькими способами, к примеру вручную, с помощью калькулятора и с помощью любых доступных вам программ. Даже программы для работы с электронными таблицами, такие как Microsoft Excel, предоставляют возможность воспользоваться многими математическими и статистическими функциями. (Хотя польза от применения этих функций для серьезного статистического анализа находится под вопросом, они могут быть полезны для первичного анализа; см. ссылки про Excel в приложении C, чтобы узнать об этом подробнее.) Кроме того, решение проблемы несколькими способами придаст вам уверенности в том, что вы корректно используете устройства и программы. Большинство графиков и диаграмм строят с помощью компьютерных программ, и хотя у каждого пакета есть преимущества и недостатки, большинство из них могут создавать большинство диаграмм, если не все, представленные в этой главе, как и множество других. Лучший способ вникнуть в методы графического представления данных – это изучить любую доступную вам программу и практиковаться в изображении данных, с которыми вы работаете. (Если вы в данный момент не работаете ни с какими данными, в Интернете доступно множество наборов данных, которые вы можете бесплатно скачать.) Помните, что графическое представление – это способ общения, и держите в голове то, зачем вы строите тот или иной график. 143 Упражнения Задача Какую из перечисленных мер центральной тенденции следует использовать в какой ситуации? Придумайте какие-нибудь примеры для каждой из них из вашей области работы или учебы. • Среднее. • Медиана. • Мода. Решение • Медиана подойдет для интервальных или характеризующих отношения непрерывных симметричных данных без сильных выбросов. • Медиана подойдет для непрерывных асимметричных данных, ранговых данных или данных с сильными выбросами. • Мода чаще всего применяется для категориальных данных или непрерывных данных, в которых одно из значений встречается сильно чаще остальных. Задача Найдите несколько примеров обманчивого применения статистической графики и объясните, в чем проблема с каждым из них. Решение Это не должно быть сложно ни для кого, если вы следите за новостными СМИ, но если вам не удается это сделать, поищите в Интернете по ключевой фразе «misleading graphics» (примерный перевод – обманчивые графики). Задача Один из следующих наборов данных следует изобразить в виде столбчатой диаграммы, а другой — в виде гистограммы; определите, какой метод подойдет для каких данных, и объясните, почему. 1. Данные о росте (в сантиметрах) 10 000 поступивших в университет. 2. Данные о специализациях, выбранных 10 000 поступившими в университет. Данные о росте следует изобразить в виде гистограммы, поскольку это непрерывная переменная, имеющая большое число возможных значений. 2. Данные о специализации лучше изобразить в виде столбчатой диаграммы, поскольку это категориальная переменная с ограниченным набором возможных значений (хотя если есть много вариантов специализации, то более редкие варианты придется объединить для большей ясности). Задача Только один из следующих наборов данных подходит для изображения в виде круговой диаграммы. Определите, какой, и объясните, почему. 1. Заболеваемость гриппом за два п атному корню из дисперсии, то есть 2. ГЛАВА 5. Категориальные данные Категориальная переменная – это такая переменная, у которой все возможные значения составляют фиксированный набор категорий, а не чисел, измеряющих величину на непрерывной шкале. Например, человек может описывать свой пол как мужской или женский, а деталь может быть или качественной, или бракованной. Также возможно наличие более двух категорий. К примеру, в Соединенных Штатах человека можно отнести к республиканцам, демократам или политически независимым. Категориальные переменные могут быть таковыми по своей природе (как принадлежность к определенной партии) без какой-либо числовой шкалы в основе измерений, так и их можно создать с помощью разбиения непрерывной или дискретной величины на категории. Давление крови – это мера давления, оказываемого кровью на стенки сосудов, и она измеряется в миллиметрах ртутного столба (мм. рт. ст.), но часто её анализируют с использованием категорий, таких как низкое, нормальное, прегипертензия, гипертензия. Дискретные переменные (то есть такие, которые могут принять определенные значения на промежутке) также можно сгруппировать в категории. Исследователь может собирать точную информацию о числе детей в семье (0 детей, 1 ребенок, 2 ребенка, 3 ребенка и т. д.), но после этого может сгруппировать эти числа в категории для каких- то целей анализа, к примеру так: 0 детей, 1–2 ребенка, 3 и более детей. Такой метод группирования часто применяется в случаях, когда вариантов значений переменной много и некоторые из них обеднены данными. В случае числа детей в семье, к примеру, в данных вполне может оказаться слишком мало семей с большим числом детей, и низкие частоты в таких категориях могут негативно повлиять на мощность исследования или сделать невозможным применение некоторых статистических методов. Хотя премудрости группирования непрерывных и дискретных переменных в категории обсуждаются (некоторые исследователи называют это выбрасыванием информации, поскольку такой подход приводит к потере информации о разбросе внутри каждой категории), это обычная практика во многих областях. Разбиение непрерывных данных проводят по многим причинам, включая как, например, то, что это принято в данной профессиональной области, так и для решения проблем с распределением в данных. 147 RґC-таблицы Методы работы с категориальными данными можно применять для анализа порядковых переменных, то есть таких, в которых значения можно упорядочить по величине, но расстояние между соседними элементами не обязательно одинаковое. (Подробнее порядковые переменные обсуждаются в главе 1.) Хорошо известная шкала Лайкерта (Likert), в которой испытуемые выбирают ответы из пяти упорядоченных категорий (таких как «Полностью согласен», «Согласен», «Затрудняюсь ответить», «Не согласен», «Полностью не согласен»), – это классический пример порядковой переменной. Существует целый набор аналитических методов для работы с порядковыми переменными, которые сохраняют информацию об их порядке. Если есть выбор, лучше использовать специальные методы для порядковых переменных, чем общие методы для категориальных, поскольку первые в целом мощнее. Для категориальных и порядковых данных существуют специальные методы анализа. В этой главе мы обсудим самые обычные подходы, используемые для таких переменных, и кроме того, некоторые из этих методов включены и в другие главы. Отношение вероятностей, отношение рисков и критерий Мантеля–Хензеля (Mantel–Haenszel) описаны в главе 15, кроме того, некоторые непараметрические методы из главы 13 применимы к порядковым или категориальным данным. R×C-таблицы В случае, когда анализ касается исследования связи между двумя категориальными переменными, их распределение в данных часто показывают с помощью которые чаще называют R в R×C-таблиR×C-таблиц, сопряженности. це относится к строкам, а C – к колонкам, или столбцам 1 , и конкретные таблицы тоже можно описывать по числу строк и столбцов, которые они содержат. Строки и столбцы всегда называют именно в таком порядке, договоренность, которую так- же соблюдают при описании матриц и в записях с индексом. Иногда отдельно выделяют таблицы 2×2, в которых показывают общее распределение двух переменных с двумя значениями каждая, и таблицы более высоких размерностей. И хотя можно считать таблицы 2×2 частным случаем R×C-таблиц, в котором и R, и C равны 2, эта классификация может быть полезной для обсуждения методов, разработанных именно под таблицы 2×2. Выражение R×C читается как «R на C», и то же применимо к конкретным размерам таблиц, то есть 3×2 читается как «3 на 2». Положим, нас интересует исследование связи между широкими категориями возраста и здоровья, а последнее определяется по известной пятибалльной шкале оценки общего здоровья. Мы решаем, на какие категории разбить возраст, и собираем данные о выборке испытуемых, классифицируя их по возрасту (используя выбранные категории) и состоянию здоровья (используя пятибалльную шкалу). Затем мы смотрим на эту информацию в виде таблицы сопряженности, организованной как табл. 5.1. 1 R – от англ. C – от англ. – Row, Column. Прим. перев. 148 Глава 5. Категориальные данные Таблица 5.1. Таблица сопряженности состояния здоровья и возрастных групп Великолепное Очень хорошее Хорошее Неплохое Плохое < 18 лет 18–35 лет 40–64 лет ≥ 65 лет Ее можно описать как таблица 4×5, поскольку она содержит 4 строки и 5 столбцов. Каждая ячейка показывает число людей из выборки с парой соответствующих исследуемых характеристик: число людей до 18 с великолепным здоровьем, число людей 18–39 лет с великолепным здоровьем и так далее. Меры согласия Описанные в этой книге меры надежности применимы в основном к непрерывным измерениям. В случае, когда измерения касаются деления на категории, например классификация деталей на качественные и бракованные, лучше подходят меры согласия. К примеру, мы хотим сравнить согласованность результатов двух диагностических тестов на определенное заболевание или проверить, одинаково ли три наблюдателя расклассифицируют школьников в классе по их поведению на приемлемое и недопустимое. В обоих случаях некто выбирает одну оценку из определенного набора категорий, и нам интересно, насколько хорошо результаты классификации соотносятся друг с другом. Процент согласия – это самая простая мера согласия; его можно рассчитать, разделив число случаев совпадения оценок на общее число оценок. К примеру, если из 100 оценок наблюдатели согласны в 80% случаев, то процент согласия составляет 80/100, или 0,8. Большой проблемой простого процента согласия является то, что высокий процент совпадения может получиться чисто случайно; таким образом, сложно сравнивать проценты согласия между разными ситуациями, когда согласованность по случайным причинам может заметно различаться. Однако этот недостаток можно обойти, используя другую обычную меру согласия, называемую или просто Изначалькаппой Коэна, каппа-коэффицент, каппа. но эту меру разработали для сравнения результатов двух оценщиков или тестов, но позднее расширили для использования на большем числе классификаторов. Использование каппы предпочтительно по сравнению с процентом согласия, по- скольку она включает поправку на случайные совпадения (хотя статистики спорят о том, насколько эта поправка успешна; подробнее смотрите во врезке ниже). Каппу легко получить с помощью сортировки результатов в гипотетической сетке и расчетов, как показано в табл. 5.2. Этот гипотетический пример связан с согласованностью двух видов тестов на наличие (З+) или отсу Кохом (Landis and Koch) в 1977 году: 150 Глава 5. Категориальные данные <0 Плохое 0–0,20 Слабое 0,21–0,40 Заметное 0,41–0,60 Среднее 0,61–0,81 Сильное 0,81–1,0 Почти идеальное По этим меркам у нас среднее согласование. Обратите внимание, что процент согласования составляет 0,80, а каппа – 0,58. Каппа всегда не больше процента согласования, поскольку она включает поправку на случайные совпадения. Для альтернативного взгляда на каппу (обращенного к более продвинутым статистикам) прочитайте следующую врезку. Неоднозначная каппа Каппу Коэна часто преподают и широко применяют, но ее использование не лишено противоречий. Каппу обычно определяют как величину, показывающую согласие сверх случайного, или, проще говоря, согласие с поправкой на случайность. У нее есть два применения: как статистика критерия для определения того, согласуются ли два набора оценок лучше, чем можно было бы ожидать случайно (двумя вариантами ответа: да или нет), и как мера силы согласования (которая выражается в числе от 0 до 1). Хотя у большинства исследователей нет проблем с первым применением каппы, некоторые возражают против второго. Проблема состоит в том, что расчет ожидаемого случайного согласия основан на том, что оценки независимы, условие, редко встречающееся на практике. Поскольку каппу часто применяют для оценки согласования между множеством отдельных оценок одного и того же наблюдения, будь это поведение ребенка в классе или результаты рентгена у человека с подозрением на туберкулез, мы бы ожидали чего-то большего, чем случайного совпадения. В таких случаях каппа переоценивает согласование между тестами, наблюдателями и тому подобное за счет недооценивания наблюдаемого согласования, которое на самом деле случайное. Критику каппы, включая длинный список относящейся к этому литературы, можно найти на веб-сайте доктора Джона Уеберсакса (John Uebersax). Распределение хи-квадрат При проверке гипотез о категориальных данных нам нужен какой-то способ оценить значимость наших результатов. В случае таблиц сопряженности часто лучшим вариантом статистики является один из тестов хи-квадрат, которые используют известные свойства распределения хи-квадрат. Распределение хи-квадрат – это непрерывное распределение, которое широко применяется в критериях значимости, поскольку многие из их статистик распределены по хи-квадрату в случае, если нулевая гипотеза верна. Умение соотносить статистику критерия с известным распределением делает возможным определение вероятности получить какое-то значение статистики. Распределение хи-квадрат – это частный случай гамма-распределения, который определяется только одним параметром, числом степеней свободы. В распредеk, 151 Распределение хи-квадрат лении хи-квадрат есть только положительные значения, поскольку оно основано на сумме квадратов квантилей, что вы увидите позже, и имеет правую асимметрию. Его форма изменяется в зависимости от особенно сильно при маленьких k, значениях параметра, что видно на четырех распределениях хи-квадрат на рис. 5.1. При приближении к бесконечности распределение хи-квадрат стремится (станоk очень похожим на) к нормальному распределению. Функция плотности распределения Функция плотности распределения вероятности Chi-Square хи-квадрат PDF (1 df) (1 df) вероятности Chi-Square хи-квадрат PDF (2 df) (2 df) 4 0.5 вероятности вероятности 0.4 Density Density 3 0.3 Probability 2 Probability 0.2 Плотность Плотность 1 0.1 0 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 X X Функция плотности распределения Функция плотности распределения Chi-Square PDF (5 df) Chi-Square PDF (10 df) вероятности хи-квадрат (10 df) вероятности хи-квадрат (5 df) 0.2 0.1 вероятности вероятности Density Density 0.15 0.075 Probability Probability 0.1 0.05 Плотность Плотность 0.05 0.025 0 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 X X Рис. 5.1. Функция плотности распределения хи-квадрат при различном числе степеней свободы На рис. D.11 представлен список критических значений распределения хи- квадрат, который можно использовать, чтобы определить значимость результатов критерия. К примеру, критическое значение для уровня значимости 0,05 для распределения хи-квадрат с одной степенью свободы составляет 3,84. Любой результат критерия со значением выше данного можно считать значимым для теста хи-квадрат на независимость таблицы 2×2 (описывается ниже). Обратите внимание, что 3,84 = 1,96 и то, что 1,96 – это критическое значение 2 для Z-распределения (стандартного нормального распределения) для двухстороннего критерия при уровне значимости 0,05. Это не просто совпадение, причина этого равенства лежит в математической связи между Z-распределением и распределением хи-квадрат. Говоря формально, если X – это независимые переменные, распределенные по i σ стандартному нормальному закону с μ = 0 и = 1, а случайная величина Q определяется как 152 Глава 5. Категориальные данные , то будет распределена по хи-квадрату с свободы. Q k-степенями Два важных момента, о которых стоит помнить, – это что для расчета значения хи-квадрата необходимо знать число степеней свободы и что критические значения в целом возрастают с ростом числа степеней свободы. При уровне значимости 0,05 критическое значение для одностороннего теста хи-квадрат с одной степенью свободы составляет 3,84, но при 10 степенях свободы оно уже равно 18,31. Тест хи-квадрат Критерий хи-квадрат – это один из наиболее распространенных способов изучения связей между двумя и более категориальными переменными. Проведение этого теста включает расчет статистики хи-квадрат и ее сравнение с распределением хи-квадрат, чтобы найти вероятность данного результата критерия. Есть несколько типов критерия хи-квадрат; если не сказано иное, в данной главе обозначение «тест хи-квадрат» относится к тесту хи-квадрат Пирсона, одного из наиболее обычных типов. Есть три разновидности критериев хи-квадрат. Первый из них называют критерием независимости хи-квадрат. В случае двух переменных этот критерий проверяет нулевую гипотезу о независимости переменных друг от друга, то есть об отсутствии связи между ними. Альтернативная гипотеза состоит в том, что они зависимы, то есть связаны между собой. К примеру, мы можем собрать данные о курении и наличии диагноза рака легких в случайной выборке взрослых. Каждая из этих переменных дихотомическая: человек или курит, или нет, и у него или диагностирован рак легких, или нет. Соберем наши данные в таблицу частот, представленную в табл. 5.3. Таблица 5.3. Курение и рак легких Диагностирован рак легких Не диагностирован рак легких Курят 60 300 Не курят 10 390 При взгляде на эти данные бросается в глаза, что, вероятно, есть связь между курением и раком легких: у 20% курящих диагностирован рак легких, однако у некурящих его обнаружили только у 2,5%. Впечатление может быть обманчиво, поэтому мы проведем тест хи-квадрат на независимость. Вот наши гипотезы: : курение и рак легких независимы; H 0 : курение и рак легких связаны. H 1 Хотя тесты хи-квадрат обычно рассчитывают с помощью компьютера, особенно в случае таблиц большего размера, стоит один раз просчитать все шаги вручную 153 Тест хи-квадрат в качестве простого примера. Критерий хи-квадрат основан на разнице между наблюдаемыми и ожидаемыми значениями в каждой из ячеек таблицы 2×2. Наблюдаемые значения – это просто те, которые мы получили из данных по выборке (пронаблюдали), тогда как ожидаемые значения – это те, которые мы бы ожидали увидеть в том случае, если эти переменные независимы. Для расчета ожидаемых значений воспользуйтесь формулой, приведенной на рис. 5.2. сумма i-й строки сумма j-го столбца общая сумма Рис. 5.2. Расчет ожидаемых значений для ячейки В этой формуле – это ожидаемое значение для ячейки а и обозначают E ij, i j ij соответственно строку и столбец ячейки. Эта запись с нижним индексом часто используется в статистике, так что стоит поговорить о ней сейчас. В табл. 5.4 показано, как такой способ записи используется для обозначения ячеек в таблице 2×2. × Таблица 5.4. Запись с нижним индексом для таблицы 2 2 Строка 1 (i = 1) Ячейка Ячейка 11 12 Строка 2 (i = 2) Ячейка Ячейка 21 21 Столбец 1 (j = 1) Столбец 2 (j = 2) В табл. 5.5 добавлены суммы по столбцам и строкам к примеру с курением и раком легких. Таблица 5.5. Данные о курении и раке легких с суммами по строкам и столбцам Диагностирован рак легких Не диагностирован рак легких Сумма Курят 60 300 360 Не курят 10 390 400 Сумма 70 690 760 Частота для ячейки составляет 60, для ячейки – 300, сумма по первой строке 11 12 равна 360, сумма по первой колонке составляет 70 и так далее. Используя запись с точкой, сумма по строке 1 обозначается как 1., сумма по строке 2 – как 2., сумма по колонке 1 – .1, и .2 для колонки 2. Логика этой записи состоит в том, что, к примеру, сумма по первой строке включает значения для обоих колонок, 1 и 2, так что значение номера колонки замещается точкой. Аналогичным образом сумма по столбцам включает значения обеих строк, так что обозначения строки замещаются точкой. В данном примере 1. = 360, 2. = 400, .1 = 70 и .2 = 690. Значения сумм по колонкам и столбцам называются покраевыми значениями, скольку их записывают по краям таблицы. Они отражают частоты одной переменной в исследовании безотносительно ее связи с другой переменной, так что краевая частота для наличия диагноза рака легк тся ниже, вместо критерия хи-квадрат. 158 Глава 5. Категориальные данные Тест хи-квадрат часто рассчитывают и для таблиц большего размера, чем 2×2, хотя для в таких ситуациях обычно используют компьютерные программы, по- скольку с ростом числа ячеек расчеты быстро становятся очень громоздкими. Нет никакого теоретического ограничения на число строк и столбцов, которые можно включить, но два фактора создают практические ограничения: возможность сделать адекватные выводы (попробуйте это сделать с таблицей 30×30!) и необходимость избегать пустых ячеек, что было сказано ранее. Иногда данные собирают в виде большого числа категорий, но потом их объединяют в меньшее число групп, чтобы избежать пустых ячеек. К примеру, информацию о семейном положении можно собирать в виде большого числа категорий (женат/замужем, холост/не замужем, в разводе, проживание с партнером, вдовец/вдова и т. п.), но для некоторых видов анализов исследователь может решить сократить число категорий (к примеру, до женат/замужем и холост/не замужем) из-за недостаточного числа испытуемых в более мелких категориях. Точный тест Фишера Точный тест Фишера (или просто тест Фишера) – это непараметрический критерий, аналогичный тесту хи-квадрат, но его можно применять с небольшим количеством данных или в случае разреженного распределения данных, которые не подходят под требования хи-квадрата. Тест Фишера основан на гипергеометрическом распределении и рассчитывает точную вероятность наблюдения такого распределения, как в данных, или более экстремального, отсюда и слово «точный» в названии. Это не асимптотический тест, так что он не ограничен правилами о разреженности, которые относятся к тесту хи-квадрат. Обычно для расчета теста Фишера используют компьютерные программы, особенно для таблиц большего размера, чем 2×2, из-за занудности расчетов. Ниже следует простой пример с таблицей 2×2. Положим, нас интересует связь между употреблением некоего уличного наркотика и внезапной остановкой сердца у молодых людей. Поскольку наркотик незаконный и новый для нашего района, и, кроме того, остановки сердца очень редко встречаются у молодых людей, мы не смогли собрать достаточно данных, чтобы провести тест хи-квадрат. В табл. 5.8 приведены данные для анализа. Таблица 5.8. Точный тест Фишера: расчет связи между употреблением нового уличного наркотика и внезапной остановкой сердца у молодых людей Остановка сердца Нет остановки сердца Сумма Употребляли наркотик 7 2 9 Не употребляли наркотика 5 6 11 Сумма 12 8 20 Наши гипотезы: 159 Точный тест Фишера H : риск внезапной остановки сердца у употреблявших и не употреблявших 0 наркотика одинаковый. H : риск внезапной остановки сердца у употреблявших новый наркотик выше. 1 Точный тест Фишера рассчитывает вероятность получить результат не менее экстремальный, чем тот, который был найден в исследовании. Более экстремальный результат в данном случае – это такой, в котором отличие в частоте внезапной остановки сердца у употреблявших и не употреблявших наркотик еще больше, чем в наших данных (при том же объеме выборки). Пример более экстремального результата приведен в табл. 5.9. Таблица 5.9. Более экстремальное распределение данных для примера с употреблением наркотика и внезапной остановкой сердца Остановка сердца Нет остановки сердца Сумма Употребляли наркотик 8 1 9 Не употребляли наркотика 4 7 11 Сумма 12 8 20 Формула точной вероятности для таблицы 2×2 приведена на рис. 5.7. Рис. 5.7. Формула точного теста Фишера В данной формуле «!» означает факториал (4! = 4 3 2 1), а ячейки и крае- × × × вые значения обозначены в соответствии с табл. 5.10. Таблица 5.10. Табличная запись b a r 1 d c r 2 c c n 1 2 В нашем случае = 8, = 1, = 4, = 7, = 9, = 11, = 12, = 8 и = 20. Почеa b c d r r c c n 1 2 1 2 му эта таблица более экстремальна, чем наши данные? Потому что если бы между употреблением наркотика и внезапной остановкой сердца не было бы связи, мы бы ожидали увидеть такое распределение, как на табл. 5.11. Таблица 5.11. Ожидаемые данные при условии независимости Остановка сердца Нет остановки сердца Сумма Употребляли наркотик 5.4 3.6 9 Не употребляли наркотика 6.6 4.4 11 Сумма 12 8 20 160 Глава 5. Категориальные данные В наших наблюдаемых данных связь между употреблением наркотика и внезапной остановкой сердца сильнее (больше смертей, чем ожидаемое значение для употреблявших наркотик), так что любая таблица, в которой связь еще сильнее, чем наблюдаемая в данных, более экстремальна и, таким образом, менее вероятна в случае, если употребление наркотика и остановка сердца независимы. Чтобы найти для точного теста Фишера вручную, нам бы пришлось p-значение найти вероятности всех более экстремальных таблиц и сложить их. К счастью, алгоритмы расчета теста Фишера включены практически во все статистические пакеты, и существует множество онлайн-калькуляторов, которые могут сделать этот расчет за вас. Используя калькулятор, доступный на странице, поддерживаемой Джоном С. Пеццуло (John C. Pezzullo), профессором фармакологии и биостатистики в отставке, мы находим одностороннее точного теста Фишера p-значение для данных из табл. 5.7, и оно составляет 0,157. Мы используем односторонний критерий, поскольку наша гипотеза односторонняя; нас интересует, не повышает ли новый наркотик риск внезапной остановки сердца. Используя уровень значимости 0,05, мы не можем считать этот результат значимым, так что мы не отвергаем нулевую гипотезу о том, что новый наркотик не связан с увеличением риска внезапной остановки сердца. Парный тест МакНемара (McNemar) – это вид теста хи-квадрат, который применяют Критерий МакНемара в тех случаях, когда данные получены из или в случае связанных выборок, парных Например, мы можем использовать тест МакНемара для анализа резульданных. опроса общественного мнения до и после просмотра испытуемыми политической рекламы. В данном примере от каждого человека мы получим два ответа, один до и второй после просмотра. Мы не можем использовать эти два ответа на один и тот же вопрос как независимые, так что не можем применять критерий хи-квадрат Пирсона; вместо этого мы предполагаем, что два ответа, полученные от одного и того же испытуемого, будут более сильно связаны, чем два ответа, полученные от случайных людей. Тест МакНемара также подойдет для анализа ответов пар муж-жена или братьев и сестер на один и тот же вопрос. В случае братьев и сестер или мужей-жен, хотя данные и получены от разных людей, каждый человек в паре настолько сильно связан с другим, что мы ожидаем, что они будут более похожими, чем случайные люди из генеральной совокупности. Критерий МакНемара также можно применять для анализа данных, собранных на группах испытуемых, настолько похожих по ключевым свойствам, что их больше нельзя считать независимыми. К примеру, в медицинских исследованиях иногда изучают встречаемость некоторого заболевания в зависимости от возраста, пола, расовой принадлежности или национальности и подобных характеристик и применяют такие тесты, как критерий МакНемара, поскольку испытуемые настолько сильно похожи, что их считают скорее связанными выборками, чем независимыми. Положим, мы хотим определить эффективность политической рекламы для влияния на мнение людей о смертной казни. Один из подходов сделать это со- 161 Парный тест МакНемара стоит в сборе мнения людей о том, поддерживают они высшую меру или нет, до и после просмотра 30-секундного ролика, пропагандирующего отмену смертной казни. Посмотрите на гипотетические данные в табл. 5.12. Таблица 5.12. Критерий МакНемара для мнения по поводу смертной казни до и после просмотра политической рекламы После просмотра ролика За смертную Против Сумма казнь смертной казни За смертную казнь 15 25 40 До просмотра 10 20 30 Против смертной казни ролика Сумма 25 45 70 Больше людей были против смертной казни после просмотра ролика, чем до того, но достоверно ли отличие? Мы можем это проверить с помощью критерия хи-квадрат МакНемара, который рассчитывается по формуле на рис. 5.8. Рис. 5.8. Формула для теста хи-квадрат МакНемара Эта формула использует метод указания ячеек с помощью буквенных обозначений по такой схеме, как в табл. 5.13 Таблица 5.13. Способ буквенного обозначения ячеек в таблице 2×2 a b c d Обратите внимание, что формула основана исключительно на распределении дискордантных пар (b и c), в данном случае тех, в которых человек изменил свое мнение после просмотра ролика. Статистика МакНемара распределена по хиквадрату с одной степенью свободы. Расчеты приведены на рис. 5.9. Рис. 5.9. Расчет критерия хи-квадрат МакНемара Как вы можете увидеть из таблицы значений хи-квадрат (рис. D.11 в приложении D), при уровне значимости 0,05 критическое значение распределения хи- квадрат составляет 3,84, так что наш результат свидетельствует о необходимости отвергнуть нулевую гипотезу о том, что просмотр ролика никак не влияет на мнение людей о смертной казни. Кроме того, с помощью компьютерного анализа я определила, что точная вероятность получить такую (6,43) или более экстремальную 162 Глава 5. Категориальные данные статистику хи-квадрат составляет 0,017, если бы мнение людей не менялось после просмотра ролика, что подчеркивает значимость результатов этого исследования и необходимость отвергнуть нулевую гипотезу. Пропорции: большие выборки Пропорция – это доля, в которой все случаи из числителя также входят и в знаменатель. К примеру, мы можем говорить о пропорции (доле) студенток в каком-то университете. В числителе будет стоять число студенток, а в знаменателе – число всех студентов университета, как мужского, так и женского пола. Или же мы можем говорить о доле студентов какого-то университета, специализирующихся на химии. В числителе будет число студентов-химиков, а в знаменателе – число всех студентов университета (вне зависимости от специализации). Пропорции более подробно обсуждаются в главе 15. Данные, которые можно описать в терминах пропорций, – это особый случай категориальных данных, в которых есть две категории: студенты мужского и женского пола в первом примере, химики и не химики во втором. Многие статистики, обсуждаемые в этой главе, такие как точный тест Фишера и критерии хи-квадрат, можно использовать для проверки гипотез о пропорциях. Однако в случае достаточного объема выборки можно применять некоторые дополнительные виды критериев, которые используют нормальное приближение биномиального распределения; это возможно из-за того, что, как говорилось в главе 3, биномиальное распределение начинает очень напоминать нормальное с ростом (объема выборки). Какого объема выборки достаточно? Эмпирическое n правило гласит, что как так и должны быть не меньше 5. np, n(1 – p) Поставьте себя на место менеджера на фабрике, который утверждает, что 95% шурупов определенного вида, выпускаемых на фабрике, имеют диаметр между 0,50 и 0,52 сантиметра. Один из клиентов жалуется, что в недавней поставке было слишком много неразмерных шурупов, так что вы решили взять выборку из 100 шурупов и измерить их, чтобы посмотреть, сколько из них соответствует стандарту. Вы проведете одновыборочный Z-критерий, чтобы проверить вашу предполагаемую гипотезу о том, что 95% шурупов соответствуют указанным стандартам, со следующими гипотезами: π H : 0,95; ≥ 0 π H : < 0,95, 1 π где – это доля шурупов, соответствующих стандартам, в генеральной совокупности (диаметр между 0,50 и 0,52 см). Обратите внимание, что это односторонний критерий; вы будете рады, если хотя бы 95% шурупов соответствуют стандарту, и счастливы, если даже больше, чем 95%. (Лучше всего было бы, если бы 100% соответствовали стандартам, но не бывает идеально точного производственного процесса.) В вашей выборке 91 шуруп соответствовал указанным размерам. Достаточен ли этот результат для того, чтобы при уровне значимости 0,05 отвергнуть нулевую гипотезу о том, что хотя бы 95% шурупов этого типа, произведенных на вашей фабрике, соответствуют стандартам? 163 Пропорции: большие выборки Формула для расчета одновыборочного Z-теста пропорций приведена на рис. 5.10. Рис. 5.10. Формула для одновыборочной Z-статистики для пропорций π В этой формуле – это предполагаемая пропорция в генеральной совокуп0 – это пропорция в выборке и – это объем выборки. p n Подстановка чисел в эту формулу дает Z-значение, равное –1,835, как показано на рис. 5.11. Рис. 5.11. Расчет одновыборочной Z-статистики для пропорций Критическое значение для одновыборочного Z-критерия при нашей гипотезе и уровне значимости составляет –1,645. Наша статистика –1,835 более экстремальна, чем это значение, так что мы отвергаем нулевую гипотезу и заключаем, что меньше 95% шурупов этого вида, произведенных на нашей фабрике, соответствуют указанным стандартам. Кроме того, мы можем проверять отличия между пропорциями в генеральных совокупностях в случае большого объема выборок. Предположим, нас интересует доля курящих старшеклассников, и мы хотим сравнить этот показатель у двух стран. Нашей нулевой гипотезой будет то, что пропорции в двух странах одинаковы, так что мы проведем двухсторонний тест со следующими гипотезами: π π H : = ; 0 1 2 π ≠ π H : . 1 1 2 Считая, что предположения об объеме выборок выполнены (np 5, 5 n(1 – p) ≥ ≥ для обеих выборок), мы можем применить формулу с рис. 5.12 для расчета Z-статистики для разницы между пропорциями для двух генеральных совокупностей. Рис. 5.12. Формула для расчета Z-статистики равенства пропорций В этой формуле p – это пропорция в выборке 1, p – это пропорция в выборке 2, 1 2 – это объем выборки 1, – это объем выборки 2 и ˆ – это объединенная проn рассчитанная как сумма успехов в обеих выборках (в данном случае число курильщиков), разделенная на сумму объемов выборок. 164 Глава 5. Категориальные данные Предположим, мы взяли выборки по 500 старшеклассников в каждой из стран; в стране 1 выборка включала 90 курильщиков; в стране 2 обнаружилось 70 курящих испытуемых. Достаточно ли нам этих данных, чтобы отвергнуть нулевую гипотезу о равенстве пропорций курящих старшеклассников в двух странах? Мы можем проверить это с помощью двухвыборочного Z-теста, как показано на рис. 5.13. Рис. 5.13. Расчет Z-статистики для разницы двух пропорций Обратите внимание: наша объединенная пропорция составляет (90 + 70)/(500 + 500) = 160/1000 = 0,16. Это Z-значение менее экстремально, чем 1,96 (значение, необходимое для того, чтобы отвергнуть нулевую гипотезу при уровне значимости 0,05; вы можете проверить это с помощью таблицы нормального распределения (рис. D.3 в приложении D)), так что мы не можем отвергнуть нулевую гипотезу о равенстве долей курильщиков среди старшеклассников в двух странах. Корреляции для категориальных данных Самая обычная мера связи двух переменных, коэффициент корреляции Пирсона (обсуждается в главе 7), требует того, чтобы переменные были хотя бы интервальными. Тем не менее были разработаны меры связи для категориальных и порядковых данных, и они имеют смысл, сходный с коэффициентом корреляции Пирсона. Эти меры часто рассчитывают с помощью статистических программ или онлайнкалькуляторов, хотя можно это сделать и вручную. Как и в случае коэффициента корреляции Пирсона, корреляции, обсуждаемые в этом разделе, – это исключительно меры связи, и ни в кое случае нельзя делать выводы о причинно-следственных взаимодействиях только на основании коэффициента корреляции. Есть огромное множество подобных мер, некоторые из которых известны под несколькими названиями; здесь описаны некоторые из самых часто используемых статистик. Хороший подход в случае, если вы используете статистический пакет, – это посмотреть, какие из мер он поддерживает, а затем изучить, что из них подходит для ваших данных, поскольку существует очень большое разнообразие видов корреляций. Бинарные переменные – это мера степени связи между двумя бинарными переменными (двумя катеФи переменными, каждая из которых принимает только два значения). Фи рассчитывают для таблиц 2 2; (Cramer’s V) аналогична фи для табV Крамера × 165 Корреляции для категориальных данных лиц большего размера. Используя метод указания ячеек как в табл. 5.10, формула для расчета фи приведена на рис. 5.14. Рис. 5.14. Формула для фи-статистики Мы можем рассчитать фи для данных по курению/раку легких из табл. 5.3, как показано на рис. 5.15. Рис. 5.15. Расчет фи-статистики Кроме того, фи можно рассчитать, разделив статистику хи-квадрат на n и взяв квадратный корень из полученного значения, как показано на рис. 5.16. Рис. 5.16. Альтернативная формула для фи-статистики Обратите внимание, что первый метод расчета может дать как положительный, так и отрицательный результат, тогда как второй – только положительный, по- скольку статистика хи-квадрат всегда положительна 3 . Значение фи, полученное с помощью статистики хи-квадрат по второму методу, можно считать за абсолютное значение результата расчета по первой формуле. Это хорошо видно при анализе данных из табл. 5.14. Таблица 5.14. Пример для фи 10 20 20 10 Рассчитав фи по первой формуле, мы получили –0,33, а по второй – 0,33. Вы можете проверить это с помощью компьютерного пакета или онлайн-калькулятора, или же проведя расчеты вручную. Разумеется, если бы мы поменяли порядок следования колонок, мы бы получили положительный результат с помощью обоих методов. Если у колонок нет естественного порядка (к примеру, если они представляют из себя неупорядоченные категории вроде цвета), нас может не заботить направление связи, а только ее сила. В других случаях ситуация может быть иной, к примеру если колонки представляют из себя наличие или отсутствие болезни. В последнем случае надо быть внимательными к расположению данных в таблице, чтобы избежать неверной интерпретации результатов. 3 Кроме того, если не учитывать мнимых чисел, квадратный корен рем выборку мужчин и женщин и рассчи- 167 Порядковые переменные тываем точечно-бисериальный коэффициент корреляции с помощью формулы, приведенной на рис. 5.19. Рис. 5.19. Формула для точечно-бисериального коэффициента корреляции В этой формуле – это средний рост женщин, – средний рост мужчин, X X 1 0 – доля женщин, – стандартное отклонение p s X. x Предположим, в нашей выборке средний рост мужчин составляет 69,0 дюйма 4 , 64,0 дюйма 5 – средний рост женщин, стандартное отклонение роста составляет 3,0 дюйма 6 , и в выборке 55% женщин. Мы рассчитываем корреляцию между полом и ростом у взрослых, как показано на рис. 5.20. Рис. 5.20. Точечно-бисериальная корреляция между полом и ростом Корреляция на уровне –0,829 – это показатель сильной связи, что говорит о том, что рост и пол каким-то образом тесно взаимосвязаны в популяции США. Корреляция отрицательная, поскольку мы закодировали женщин (которые в среднем ниже) как 1, а мужчин – как 0; если бы мы закодировали эту переменную наобо- рот, корреляция бы составляла 0,829. Обратите внимание, что средние и стандартное отклонение, использованные в этом подсчете, близки к реальным данным по США, так что сильная связь между полом и ростом существует не только в этом упражнении, но и в жизни. Порядковые переменные Самая обычная статистика для корреляции порядковых данных (то есть тех, в которых данные упорядочены в смысле «меньше-больше», но нет равного расстояния между значениями) – это ранговая корреляция Спирмена (Spearman’s rank-order coefficient), также называемая или иногда обозначаемая . ро Спирмена r Спирмена, r s Спирмена основана на рангах данных по величине (первый, второй, третий и так Ро далее), а не на самих значениях. Ранжирование класса – это пример порядковых данных; ученику с наибольшим средним баллом присваивают номер один, со вторым по величине средним баллом – номер два и так далее, но при этом вы не знаете, такая же ли разница между первым и вторым учениками, как между вторым и третьим. Даже если данные на самом деле измеряются на непрерывной шкале, как средний балл в школе, часто при поступлении в колледжи используются именно ранги из-за сложностей в сравнении оценок в разных классах и школах. 4 Примерно 175 см. – Прим. перев 5 Примерно 162 см. – Прим. перев. 6 7.62 см. – Прим. перев. 168 Глава 5. Категориальные данные Для расчета ро Спирмена проранжируйте все значения каждой переменной по отдельности, поставив в соответствие равным значениям усредненный ранг. Затем посчитайте разницу в рангах для каждой пары значений и рассчитайте Спирмеро с помощью формулы, приведенной на рис. 5.21. Рис. 5.21. Формула для ро Спирмена Положим, нас интересует связь между временем, проведенным за учебой в неделю, и результатом итогового экзамена. Мы собираем данные об обеих переменных, как показано в табл. 5.15 (данные упрощены для иллюстрации, чтобы минимизировать ручные расчеты). Таблица 5.15. Число часов, потраченных на учебу каждую неделю, и результат экзамена Время учебы Результат 2 Студент Ранг Ранг d d (часы) экзамена i i 1 10 7 93 7 0 0 2 12 9 98 8 1 1 3 8 5 99 9 –4 16 4 15 10 100 1 0 0 5 4 1 92 6 –5 25 6 11 8 90 5 3 9 7 6 3 80 2 1 1 8 7 4 82 3 1 1 9 9 6 84 4 2 4 10 5 2 75 1 1 1 Похоже, что большие затраты времени на учебу связаны с более высокой оценкой, однако связь не идеальная (студент № 3 получил высокую оценку, хотя потратил среднее количество времени на учебу, а студент № 5 получил хорошую оценку, хотя занимался относительно немного). Мы рассчитаем Спирмена, чтобы полуро более точную оценку этой связи. Обратите внимание на то, что мы возводим разницу в рангах в квадрат, так что не имеет значения, вычитаете вы ранг времени обучения из ранга оценки (как сделали мы) или же наоборот. Сумма d 2 составляет i 58, а Спирмена для этих данных показана на рис. них меньше, а – это объем выборки. n 171 Шкала Лайкерта и шкалы семантического дифференциала d Сомерса (Somers’s d) – это асимметричный вариант гаммы, так что расчет статистики меняется в зависимости от того, какую из переменных мы считаем независимой, а какую – зависимой. Кроме того, Сомерса отличается от гаммы в том, d что она включает поправку на число пар с равным рангом в независимой переменной. Если гипотеза заключается в том, что предсказывает значение Сомерса X Y, d будет поправлено на число равных рангов в Если, наоборот, предсказывает X. Y X, то поправка будет касаться равных рангов в Y. Как и в тау-b, равные ранги в d Сомерса удаляются из знаменателя. Используя обозначения X = число уникаль0 рангов в а = число уникальных рангов в Сомерса рассчитывают, как X, Y Y, d 0 показано на рис. 5.27. P–Q по d(предсказание Y X) P + Q + X 0 P–Q по d(предсказание X Y) P + Q + Y 0 Рис. 5.27. Формулы для d Сомерса Симметричное значение для Сомерса можно получить, взяв среднее от двух d асимметричных значений, полученных по этим формулам. Шкала Лайкерта и шкалы семантического дифференциала Исследователи разработали несколько типов шкал для измерения свойств, у которых нет естественной единицы измерения, таких как мнения, отношения и впечатления. Самая известная из таких шкал – это шкала Лайкерта, предложенная Ренсисом Лайкеротом (Rensis Likert) в 1932 году и широко используемая по сей день в самых различных областях от образования до здравоохранения и менеджмента. В типичном вопросе, построенном по шкале Лаймерта, испытуемому дают утверждение и предлагают выбрать из упорядоченного списка возможных ответов. К примеру: Мои занятия в Высшей школе Линкольна (Lincoln East High School) подготовили меня к занятиям в университете. 1. Полностью согласен. 2. Согласен. 3. Затрудняюсь ответить. 4. Не согласен. 5. Полностью не согласен. Это классическая порядковая шкала; мы можем быть достаточно уверены, что «Полностью согласен» показывает более сильное согласие, чем «Согласен», а «Согласен» – более сильное, чем «Затрудняюсь ответить», однако мы не знаем, одинаково ли отличие между «Согласен» и «Полностью согласен» с отличием между «Затрудняюсь ответить» и «Согласен», и одинаковы ли они для разных испытуемых. 172 Глава 5. Категориальные данные Методы работы с категориальными и порядковыми данными, описанные в этой главе, подходят для анализа данных, собранных с помощью шкалы Лайкерта, как и некоторые непараметрические методы, описанные в главе 13. Тот факт, что ответы в шкале Лайкерта часто обозначают номерами, иногда приводит к использованию исследователями методов, разработанных для интервальных данных. К примеру, вы можете найти опубликованные статьи, где указаны среднее и дисперсия для данных, собранных с помощью шкалы Лайкерта. Исследователь, выбирающий такой путь (использования данных, собранных с помощью шкалы Лайкерта, как интервальных), должен понимать всю противоречивость этого подхода и что многие издатели не примут подобного анализа, а задача по доказательству возможности отхода от порядковых и категориальных методов в случае анализа таких данных целиком и полностью лежит на самом исследователе. В шкале Лайкерта часто используют пять уровней реакции испытуемого, по- скольку, как считается, три уровня не дают достаточного числа вариантов ответа, тогда как семь предоставляют слишком большой выбор. Кроме того, есть данные, что люди не любят выбирать крайние значения из многих вариантов. Однако некоторые исследователи вообще предпочитают четное число вариантов ответа, обычно четыре или шесть, чтобы убрать среднюю категорию, которую испытуемые могут выбирать по умолчанию. Шкала семантического дифференциала похожа на шкалу Лайкерта, за тем исключением, что отдельные варианты ответа не имеют названия, а обозначены только крайние значения. Предыдущий вопрос из шкалы Лайкерта можно переформулировать в стиле семантического дифференциала следующим образом: Пожалуйста, оцените вашу академическую подготовку в Высшей школе Линкольна в отношении требований университетского обучения: Великолепная подготовка 1 2 3 4 5 Недостаточная подготовка Из-за отсутствия необходимости давать названия отдельным точкам в шкалах семантического дифференциала часто используют больше вариантов ответа. Пользуется популярностью десятибалльная шкала, поскольку людям знакома десятибалльная система оценки (отсюда и популярная в английском языке фраза «a perfect 10», обозначающая высшую оценку чего-либо; дословно переводится как «идеальная десятка»). Как и в случае шкалы Лайкерта, шкалы семантического дифференциала по своей природе порядковые, хотя в случае большого числа предложенных вариантов некоторые исследователи считают, что можно анализировать их как интервальные. Ренсис Лайкерт (1903–1981) Ренсис Лайкерт (произносится с ударением на первый слог) был американским социологом, специализировавшимся на исследовании организации и теории управления. Лайкерт получил степень бакалавра (BA) социологии в Мичиганском университете в 1926 году, а степень кандидата психологических наук (PhD) в Колумбийском университете в 1932 году; он разработал шкалу Лайкерта как часть своей диссертации. Лайкерт был основателем Института социологии Мичиганского университета и был его директором с 173 Упражнения 1946 до 1970 года; последние годы своей жизни он консультировал корпорации и писал книги по теории управления. Главный вывод его работы делает его очень популярным среди мотивированных студентов и работников по всему миру: Лайкерт разработал основы управления на основе участия и методов организации, ориентированных на человека, на базе своих исследований, показавших, что существует обратная связь между принуждающим стилем управления и эффективностью работы сотрудников. Упражнения Вот несколько вопросов на повторение тем, обсужденных в этой главе. Задача Каковы измерения таблиц 5.18 и 5.19? Сколько будет степеней свободы в критерии независимости хи-квадрат для таких данных? Таблица 5.18. R×C-таблица (а) Таблица 5.19. R×C-таблица (б) Решение Размерности таблиц равны 3×4 (таблица а) и 4×3 (таблица б). Помните, что таблицы описывают как то есть (число строк)×(число столбцов). Число R×C, степеней свободы для первой таблицы равно (3 – 1)(4 – 1) = 6 и (4 – 1)(3 – 1) = 6 для второй, поскольку число степеней свободы для хи-квадрата рассчитывают как (r – 1)(c – 1). Задача Рассчитайте процент согласия и каппу по данным из следующей таблицы. Таблица 5.20. Согласие двух оценщиков Оценщик 2 + – Оценщик 1 + 70 15 85 – 30 25 55 100 40 140 174 Глава 5. Категориальные данные Решение Процент согласия = 95/140 = 0,68. Каппа = 0,30. = (70 + 25)/140 = 0,68. P o = (85*100)/(140*140) + (40*55)/(140*140) = 0,54. P e Рис. 5.28. Расчет каппы Задача Какова нулевая гипотеза критерия независимости хи-квадрат? Решение Переменные независимы, что одновременно означает, что совместные частоты можно точно предсказать с помощью краевых частот. Задача Какова нулевая гипотеза критерия равенства пропорций хи-квадрат? Решение Нулевая гипотеза состоит в том, что две или более выборки, взятые из разных генеральных совокупностей, имеют одинаковое распределение изучаемых переменных. статистическая мера подойдет для оценки связи между двумя независимыми переменными, приведенными в табл. 5.21? Каково значение этой статистики, какие выводы можно из него сделать? Таблица 5.21. Две независимые переменные D+ D– E+ 25 10 E– 2 5 Решение Поскольку это таблица 2 2 и в двух ячейках ожидаемые значения меньше 5 × (ячейки и следует использовать точный тест Фишера. Значение, полученное c d), с помощью компьютерной программы, составляет 0,077, что не дает оснований для того, чтобы отвергнуть нулевую гипотезу об отсутствии связи между и E D. Задача Каковы ожидаемые значения для табл. 5.22? Чему равна статистика хи-квадрат? Каковы ваши выводы по поводу связи между вхождением в группу риск спользовать для неквадратных таблиц)? ГЛАВА 6. t-критерий было впервые описано химиком, работавшим над контролем t-распределение качества в пивоварне Гинесс (Guiness) в Ирландии, Уилльямом Сили Госсетом (William Sealy Gosset). Госсет представил t-распределение в статье под псевдонимом Стьюдент (Student); именно поэтому также часто назыt-распределение распределением Стьюдента, а — критерием Стьюдента. Есть t-критерий три основных типа все они имеют отношение к проверке разницы t-критериев, в средних значениях и включают сравнение статистики теста с t-распределением для определения справедливости полученной величины статистики в случае верности нулевой гипотезы. Однофакторный дисперсионный анализ (ANOVA) с двумя факторами математически эквивалентен но наt-критерию, t-критерий столько часто применяется, что заслуживает отдельной главы. Кроме того, понимание логики должно помочь в понимании более сложной логики t-критерия дисперсионного анализа. t-распределение Если вы незнакомы со статистикой вывода, то, прежде чем читать дальше, вам может быть полезно сначала ознакомиться с главой 3. Статистические выводы о реальных данных основываются в том числе и на знании распределения вероятности. В главе 3 мы обсуждали нормальное и биномиальное распределения; в данной главе мы познакомимся с t-распределением. Как и нормальное распределение, t-распределение непрерывное и симметричное. В отличие от нормального распределения, форма зависит от числа степеней свободы выt-распределения то есть числа параметров, которые могут изменяться. В случае t-распределения основной эффект на число степеней свободы оказывает размер выборки, и у тестов для более крупных выборок в целом больше степеней свободы, чем в случае небольших выборок. Расчет числа степеней свободы для различных типов t-критериев будет обсуждаться в разделах, посвященных соответствующим типам критериев. Как отмечалось выше, Госсет разработал для практических заt-распределение Будучи работником отдела контроля качества в пивоварне Гинесс, он пытался разрешить проблему использования выборки ограниченного размера. Главное 180 Глава 6. t-критерий наблюдение Госсета касалось влияния объема выборки на вероятность того, что среднее по генеральной совокупности лежит не дальше определенных границ от среднего выборки. Существует две основные причины использования t-распределения при проверке различий в средних: работа с совокупностью, которая, как мы считаем, распределена нормально, и неизвестное стандартное отклонение генеральной совокупности, когда нам приходится использовать стандартное отклонение выборки как замену отклонению генеральной совокупности. Если мы работаем с выборкой слишком маленького объема, чтобы применить центральную предельную теорему, и мы не уверены в нормальности распределения генеральной совокупности, из которой мы взяли выборку, то нам придется применять непараметрические тесты (обсуждаются в главе 13). Функция плотности t -распределения Функция плотности t -распределения (1 ñòåïåíü ñâîáîäû) (10 ñòåïåíåé ñâîáîäû) t PDF (1 df) t PDF (10 df) 0.4 0.4 âåðîÿòíîñòè âåðîÿòíîñòè Density Density 0.3 0.3 Probability Probability 0.2 0.2 Ïëîòíîñòü Ïëîòíîñòü 0.1 0.1 0 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 X X Функция плотности t -распределения Функция плотности t -распределения t PDF (20 df) t PDF (30 df) (20 ñòåïåíåé ñâîáîäû) (30 ñòåïåíåé ñâîáîäû) 0.4 0.4 âåðîÿòíîñòè âåðîÿòíîñòè Density Density 0.3 0.3 Probability 0.2 Probability 0.2 Ïëîòíîñòü Ïëîòíîñòü 0.1 0.1 0 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 X X Рис.6.1. Четыре t-распределения Как показано на рис. 6.1, напоминает нормальное распределеt-распределение причем главное отличие состоит в более «тяжелых» хвостах, что говорит о том, что крайние значения в t-распределении встречаются чаще, чем в нормальном. С ростом объема выборки (и, соответственно, числа степеней свободы) t-распределение становится все более похожим на нормальное. Госсет обнаружил, что в случае выборки из нормально распределенной совокупности и использования стандартного отклонения выборки для оценки дисперсии совокупности распределение средних выборок из этой совокупности по переменной x можно описать ными и теоретическими исследованиями. 182 Глава 6. t-критерий Одновыборочный t-критерий Одно из возможных применений состоит в сравнении средних выборки t-критерия и совокупности с известным средним. Например, вас интересует влияние свинца на умственное развитие детей. Вы знаете, что в среднем пятилетние дети в США получают 100 баллов в определенном тесте на умственное развитие. У вас есть выборка из 15 пятилетних детей, контактировавших со свинцом, и вы хотите узнать, не повлияло ли это на их умственные способности, измеряемые при помощи упомянутого теста. Вы также знаете, что в целом результаты теста в генеральной совокупности распределены по нормальному закону. Ваша нулевая гипотеза состоит в том, что нет разницы между выбранной группой и генеральной совокупностью в целом, и вы проводите двухсторонний t-тест с уровнем значимости 0,05. Формула для одновыборочного t-критерия показана на рис. 6.3. Рис. 6.3. Формула одновыборочного t-критерия В этой формуле обозначает выборочное среднее, μ – это среднее для сравx (средний уровень умственного развития для всех 5-летних детей в США), s – это стандартное отклонение вашей выборки, и n – это ее объем. Формулы для расчета среднего и стандартного отклонений выборки показаны на рис. 6.4 и 6.5. Рис. 6.4. Расчет выборочного среднего Рис. 6.5. Расчет выборочного стандартного отклонения В этой формуле x – это отдельное значение x, x – это выборочное среднее, s – i это выборочное стандартное отклонение, а – это объем выборки. n Также существует расчетная формула для стандартного отклонения выборки, математически идентичная формуле с рис. 6.4, но более простая для ручного расчета; она приведена на рис. 6.6. 183 Одновыборочный t-критерий Рис. 6.6. Расчетная формула для выборочного стандартного отклонения Если вам хочется попрактиковаться в использовании этих формул, то в конце главы приведен полностью разобранный пример. Для его решения предположите, что выборочное среднее равно 90, стандартное отклонение равно 10, а объем выборки – 15, и используйте эти данные для расчета как показано на t-статистики, рис. 6.7. Рис. 6.7. Расчет одновыборочного t-критерия Число степеней свободы для одновыборочного равно – 1; в данном t-критерия n примере = 15 – 1 = 14. Из таблицы верхних критических значений df t-распределения (рис. D.7 в приложении D) мы видим, что для двухстороннего t-критерия с 14 степенями свободы и уровнем значимости 0,05 оно равно 2,145. Поскольку абсолютное значение t-статистики в наших данных превосходит верхнее критическое значение (|–3,87| > 2,145), мы отвергаем нулевую гипотезу о том, что в среднем контактировавшие со свинцом дети выполняют тест на умственное развитие столь же успешно, как и все дети их возраста в популяции. Из-за того, что разность среднего и отрицательна, мы также можем утверждать, что в среднем t-статистики их умственные способности ниже, чем в генеральной совокупности всех детей их возраста. Доверительный интервал для одновыборочного t-критерия Кроме статистики критерия и величины достоверности, нам часто нужно рассчитать и доверительный интервал. (ДИ 1 ) – это диапазон Доверительный интервал значений вокруг среднего: если мы будем брать бесконечное число выборок того же размера из той же генеральной совокупности, раз истинное среднее генеx% совокупности будет попадать в доверительный интервал, рассчитанный из выборок. Если мы рассчитаем 95%-ный доверительный интервал (самый часто применимый), то x = 95, так что мы можем утверждать, что 95% всех доверительных интервалов, рассчитанных из бесконечного числа выборок этой генеральной 1 Или CI, от англ. – confidence interval. Прим. пер. 184 Глава 6. t-критерий совокупности, будут включать в себя ее истинное среднее. Говоря более общо, доверительный интервал говорит нам об аккуратности точечной оценки, такой как выборочное среднее. Широкий доверительный интервал указывает на то, что если бы мы взяли другую выборку, то могли бы получить отличающееся выборочное среднее, тогда как если он узкий, то, взяв другую выборку, мы, скорее всего, получили бы достаточно близкое значение выборочного среднего. Формула для расчета двухстороннего доверительного интервала для среднего в случае одновыборочного t-критерия приведена на рис. 6.8. Рис. 6.8. Формула доверительного интервала для одновыборочного t-критерия В нашем примере, = 0,05, x = 90, df = n – 1 = 14, s = 10, t = 2,145 (из таблиα на рис. D.7 в приложении D), и = 15. n Подстановка этих значений в формулу дает нам ответ, приведенный на рис. 6.9. Рис. 6.9. Расчет доверительного интервала для одновыборочного t-критерия 95%-ный доверительный интервал для нашей оценки истинного среднего составляет (84,46, 95,54). Заметим, что эти числа иногда называют нижней и верхней границами доверительного интервала; в этом примере нижняя граница составляет 84,46, а верхняя – 95,54. При расчете одностороннего доверительного интервала замените ± либо на +, либо на –, в зависимости от необходимости. Для расчета доверительного интервала с другой вероятностью попадания среднего в него используйте соответствующее критическое значение из таблицы Например, для одностороннего t-значений. 90%-го доверительного интервала с 20 степенями свободы верхнее критическое значение составляет 1,325. t-распределения t-критерий для независимых выборок для независимых выборок, также называемый двухвыборочным t-критерий t-критерием, сравнивает средние двух выборок. Задача этого теста состоит в проверке, равны ли средние генеральных совокупностей, из которых были взяты выборки. Предполагается, что члены двух выборок не связаны (никто не измерен дважды, нет братьев и сестер и т. п.) и выбраны из своих совокупностей независимо. Кроме того, мы предполагаем, что генеральные совокупности имеют приблизительно нормальное распределение, если только объемы выборок недостаточно велики, чтобы применить центральную предельную теорему, и дисперсии двух совокупнос- 185 t-критерий для независимых выборок тей приблизительно равны. Этот критерий часто применяют во многих областях, и обычно для его расчета используют компьютерные программы, которые также включают критерий равенства дисперсий совокупностей (например, тест Левене, тест Брауна–Форсайта (Brown–Forsythe test) или тест Бартлетта (Bartlett’s test)) и методы для исправления ситуации, если это предположение оказывается неверным. для расчета t-критерия для независимых выборок приведена на рис. 6.10. где Рис. 6.10. Формула для расчета t-критерия для независимых выборок В этой формуле и – это средние двух выборок, x x 1 2 μ и μ – это средние двух генеральных совокупностей, 1 2 s 2 – это объединенная дисперсия, p и – это объемы двух выборок, а n n 1 2 21 и 22 – это дисперсии двух выборок. s s Заметим, что часто нулевая гипотеза для независимых выборок соt-критерия в том, что разница между истинными средними равна 0, тогда выражение (μ – μ ) можно опустить. 1 2 Число степеней свободы для двухвыборочного составляет t-критерия (n + n – 2), то есть на 2 меньше, чем общее число элементов двух выборок. 1 2 Это сложная формула, но стоит сделать шаг назад и посмотреть на ее общую форму до того, как застрять в деталях. Формула для двухвыборочного t-критерия для независимых выборок сходна с таковой для одновыборочного в t-критерия том, что числитель – это разница между средними, а знаменатель – мера разброса, включающая как разброс внутри выборок, так и их объем. Статистика парного теста тоже будет следовать этой общей форме, хотя и будет отличаться в некоторых тонкостях. Давайте рассмотрим пример. Стар как мир вопрос о том, кто находится в лучшей форме – мужчины-футболисты или мужчины-танцоры в балете; поэтому спортивный физиолог организует исследование для ответа на него совместно с местной группой исследователей из госпиталя. Две группы – это независимые совокупности, поскольку ни один из футболистов не танцует в балете. Два списка танцоров и футболистов ведутся их соответствующими профессиональными ассоциациями, из них следует, что и футбо цы между средними двух совокупностей; 188 Глава 6. t-критерий • для значения мы берем верхнее критическое для и полоt df α ,df — 2 вины заданного значения альфа из таблицы такой как на t-распределения, рис. D.7 в приложении D; • если бы это был односторонний доверительный интервал, мы бы использоα верхнее критическое для а не для , и поставили бы знак t-значение α, 2 «плюс» или «минус», а не ±, в зависимости от направления интервала; • формула включает ранее рассчитанный делитель из формулы t-критерия для независимых выборок. Для наших данных мы используем = 0,05 и рассчитываем 95%-ный двухстоα доверительный интервал; результат показан на рис. 6.14. Рис. 6.14. Расчет 95%-го двухстороннего доверительного интервала для t-критерия для независимых выборок Заметьте, что этот интервал включает 0, который является нашим нулевым значением (значением, с которым мы сравнивали выборочные средние, согласно нашей нулевой гипотезе); такой результат ожидаем для этих данных, поскольку мы не увидели статистически значимые различия и не отвергли нулевую гипотезу ранее. t-критерий для парных измерений Для проведения для повторных измерений, также известного как t-критерия t-критерий для зависимых выборок, или парный t-критерий, элементы двух выборок должны быть не независимы, а связаны каким-то образом. Иногда данные в выборках – это измерения, сделанные дважды на одних и тех же людях, например кровяное давление до и после приема лекарства. Иногда данные собирают для людей, родственных каким-то образом, например мужей и жен или чьих-то потомков. Иногда данные получают из выборок разных людей, но слишком сходных по другим характеристикам, так что их уже нельзя рассматривать как независимые выборки. Измерения рассматриваются как парные, то есть выборки должны быть одного размера. Формула для расчета для парного основана на разноt-статистики рассчитанных для каждой пары элементов выборок. Статистика теста приведена на рис. 6.15. Рис. 6.15. Формула для парного t-критерия 189 t-критерий для парных измерений В этой формуле d = средняя разница, μ и μ – это средние двух совокупностей, 1 2 s – это стандартное отклонение разниц, а n – число пар. d Нулевая гипотеза для парного обычно состоит в том, что средняя t-критерия разница (d) равна 0, тогда как альтернативная гипотеза говорит, что она отлична от 0. Как и с двухвыборочным часто величина (μ – μ ) предполагаt-критерием, 2 ется равной 0, и в таком случае ее можно опустить. Под разницей понимается просто отличие в значениях парных измерений, например кровяное давление до лечения минус кровяное давление после лечения. Мы рассчитываем эту разницу для каждой пары, а затем вычисляем их среднее и стандартное отклонение для расчета Заметим, что в контексте t-статистики. n парного относится к числу пар, а не числу измерений. Число степеней t-критерия свободы – 1. df = n Вы можете разобраться в этом лучше, если посмотрите на пример. Предположим, мы хотим проверить эффективность программы диеты с физическими упражнениями в снижении общего уровня холестерина у мужчин среднего возраста. Мы решили использовать парный поскольку мы будем измерять уроt-критерий, холестерина дважды для каждого подопытного, до начала программы и еще раз после ее окончания. Этот метод иногда называют «использование объектов как их собственные контроли», поскольку, измеряя каждого человека дважды, мы надеемся убрать или минимизировать влияние всех индивидуальных особенностей, не относящихся к тому, что нас интересует, то есть тому, как уровень холестерина испытуемого изменяется в зависимости от диеты и программы упражнений. Мы считаем, что изменения уровня холестерина в ответ на условия эксперимента в генеральной совокупности распределены приблизительно нормально, и у нас всего лишь 10 испытуемых, так что парный – это подходящий метод. t-критерий Экспериментальные данные приведены в табл. 6.2. Таблица 6.2. Уровень холестерина до и после диеты и упражнений До После Разница (d) (После – До) 220 200 –20 240 210 –30 225 210 –15 180 170 –10 210 220 10 190 180 –10 195 190 –5 200 190 –10 210 220 10 240 210 –30 Очевидно, что у большинства испытуемых уровень холестерина понизился после окончания программы, но была ного интервала для парного t-критерия 191 t-критерий для выборок с неравной дисперсией Расчеты для данных из нашего примера приведены на рис. 6.18. Рис. 6.18. Расчет двухстороннего 95%-го доверительного интервала для парного t-критерия Обратите внимание, что этот доверительный интервал не включает 0; этого следовало ожидать, поскольку мы увидели значимый результат, применив t-критерий, то есть отвергли нулевую гипотезу о том, что средняя разница равна 0. t-критерий для выборок с неравной дисперсией Одно из допущений, лежащих в основе для независимых выборок, соt-критерия в приблизительном равенстве дисперсий генеральных совокупностей, из которых взяты выборки; это также называют предположением об однородности дисперсии, или, проще, предположением об однородности. Если это условие не выполняется и дисперсии генеральных совокупностей в реальности различаются, возрастает риск ошибок как первого, так и второго рода. Это связано с объединением дисперсий выборок при проведении для независимых выборок, и t-теста результаты этого теста сильно искажаются, если выборки взяты из совокупностей с отличающейся дисперсией. Задача проверки гипотезы о двух независимых выборках с различающейся дисперсией известна под названием проблемы Беренса–Фишера (Behrens–Fisher), и было предложено несколько ее решений. Если вы используете статистическую программу для проведения для t-теста независимых выборок, то, скорее всего, она включает алгоритм проведения одного или нескольких тестов на однородность дисперсии. Примеры такого рода тестов включают тест Левене, тест Брауна–Форсайта и тест Бартлетта. Тест Левене основан на среднем, а критерий Брауна–Форсайта – это расширение теста Левене, использующее усеченное среднее либо медиану. Тест Бартлетта наиболее чувствителен к отклонениям от нормальности (это не то же самое, что равенство дисперсий), так что его следует применять, только если вы уверены в примерно нормальном распределении совокупностей, из которых взяты выборки. Важно тут, однако, использовать любой из этих тестов, если это вам доступно, чтобы проверить условие однородности. Технические детали различных тестов со ссылками на профессиональную литературу про них доступны в Руководстве по инженерной статистике национального института стандартов и технологий (Engineering Statistics Handbook of the National Institute for Standards and Testing), документ свободно доступен в Интернете (http://itl.nist.gov/div898/handbook/index.htm). Если предположение об однородности не выполнено, вы можете использовать один из непараметрических аналогов для независимых выборок (обt-критерия в главе 13) или применить t-критерий для выборок с неравной диспер- 192 Глава 6. t-критерий сией, также известный как t-тест Велча (Welch’s t-test). Выбор одного из этих вариантов особенно важен, когда вы работаете с небольшими выборками, или когда вы хотите быть очень аккуратными с выводами. Велча использует неt-критерий отличающуюся формулу для расчета и сложную формулу для t-статистики расчета числа степеней свободы. Для расчета тест Велча использует формулу, приведенную на t-статистики рис. 6.19. Рис. 6.19. Формула для t-критерия Велча В этой формуле и – это выборочные средние, 12 и 22 – это выборочные x x s s 1 2 дисперсии, а и – объемы выборок. n n 1 2 Обратите внимание, что формула для критерия Велча не включает объединенную дисперсию. Серьезное усилие требуется при подсчете числа степеней свободы для теста Велча, что видно на рис. 6.20. Рис. 6.20. Формула для расчета числа степеней свободы для критерия Велча Рассчитав и число степеней свободы, вы продолжаете анализ так t-статистику же, как и с любой другой t-статистикой, сравнивая ваш результат с таблицей критических значений t-распределения (такой как на рис. D.7 в приложении D) и принимая решение в соответствии с ней. Упражнения Хотя вы могли бы использовать статистический пакет, такой как Minitab, SPSS, STATA или SAS, для расчета и его уровня значимости, поработав с t-критерия некоторыми примерами вручную, можно лучше понять внутреннее устройство этого критерия. Далее, если вам понадобится изучить ситуации, связанные с работой или учебой, включающие небольшие выборки, вы можете начать тренироваться в работе с ними, используя Если вы понимаете детали расчета t-критерий. вручную, тогда использование статистического пакета станет для вас t-критерия значительно проще. Кроме того, многие статистические пакеты выдают довольно запутанные результаты, если вы не знаете, на что в них смотреть; так что самостоя- 193 Упражнения тельная проработка некоторых примеров может поспособствовать обнаружению нужной информации в море чисел. Задача Менеджер на фабрике обеспокоена высоким числом несчастных случаев на предприятии, которым она управляет, поэтому она организует программу безопасности, включающую образование рабочих, улучшение освещения на фабрике и назначение премий бригадам, улучшившим свои показатели по этой проблеме. Среднее число инцидентов в неделю до программы было равно 5, а распределение было приблизительно нормальным. Она хочет знать, изменилось ли оно после начала программы. Она берет выборку из 15 недель после программы и использует служебные записи для определения числа происшествий, случившихся в течение каждой из этих недель. Данные представлены в табл. 6.3. Какой тест следует применить, чтобы определить, изменилось ли среднее число происшествий в неделю после начала программы? Какова статистика критерия и что она говорит об эффективности программы? Таблица 6.3. Число происшествий за неделю Номер недели 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Число 5 6 6 4 5 3 2 7 5 4 1 0 3 2 5 происшествий Решение Она должна использовать одновыборочный сравнивая среднее t-критерий, число происшествий в неделю, рассчитанное для 15 недель после программы, со средним по совокупности недель до программы. Она должна использовать двухсторонний критерий, поскольку существует вероятность, что частота инцидентов увеличилась после начала программы, и ей точно стоит узнать об этом. Таким образом, она проведет двухсторонний одновыборочный с нулевой гипоt-критерий о том, что нет достоверной разницы между средними выборки и генеральной совокупности, и она будет использовать стандартный уровень значимости 0,05. Вот информация, необходимая для расчета статистики: μ = 5 (дано) 0 = 15 (дано) n x = 3,87 s = 2,00 Сначала мы рассчитываем выборочное среднее и стандартное отклонение, как показано на рис. 6.21 и 6.22. едними? щейся дисперсией нормальность ГЛАВА 7. Коэффициент корреляции Пирсона Коэффициент корреляции Пирсона – это мера линейной связи между двумя интервальными или характеризующими отношения переменными. Хотя существуют другие типы корреляции (некоторые из них обсуждаются в главе 5, включая коэффициент ранговой корреляции Спирмена), коэффициент корреляции Пирсона наиболее обычен, а слово «Пирсона» часто опускают, и мы просто говорим про «корреляцию» или «коэффициент корреляции». Если не сказано иное, в данной книге «корреляция» относится к коэффициенту корреляции Пирсона. Корреляции часто рассчитывают в разведочной фазе исследовательского проекта, чтобы увидеть, как связаны друг с другом различные непрерывные переменные, также часто для исследования этих связей строят диаграммы рассеяния (обсуждаются в главе 4). Тем не менее некоторые корреляции являются интересными сами по себе, их можно проверять на достоверность, и их логично использовать как отдельные величины. Понимание коэффициента корреляции Пирсона – это основа для понимания линейной регрессии, так что стоит потратить время на изучение этой статистики и как следует понять, что она вам говорит о связи между двумя переменными. Самое главное в корреляции – то, что это мера наблюдаемой связи, сама по себе она никак не может выявить причину. Многие переменные в реальном мире сильно коррелируют друг с другом, но эти связи могут объясняться случаем, влиянием других переменных или другими неизвестными причинами. Даже если между величинами есть причинно-следственная связь, она может работать в другую сторону, чем мы предполагаем. Поэтому даже самая сильная корреляция сама по себе не может свидетельствовать о причинно-следственной связи; она может быть подтверждена только с помощью постановки эксперимента (обсуждается в главе 18). В этой главе мы обсуждаем общее значение связи в контексте статистики и затем подробно разбираем коэффициент корреляции Пирсона. Связь Повседневная жизнь полна переменными, которые кажутся ассоциированными или связанными друг с другом, и обнаружение этих связей и есть основная задача 197 Связь науки. Однако ничего сложного или загадочного в понимании взаимосвязей между величинами нет; люди все время думают в терминах связей и часто ассоциируют с ними причинно-следственные взаимодействия. Родители, которые наставляют детей питаться больше овощами и меньше – нездоровой пищей, вероятно, делают это, поскольку думают, что есть связь между рационом и здоровьем, а атлеты, которые тратят много часов на тренировки, скорее всего, делают это, потому что считают, что интенсивные тренировки приведут их к успеху. Иногда такие здравые мысли поддерживаются экспериментальными данными, иногда – нет, но людям, похоже, свойственно замечать, что некоторые события вроде бы происходят одновременно, и верить, что одно из них вызывает другое. Как ученые (или просто люди, понимающие в статистике) мы должны привыкнуть задаваться вопросами, является ли кажущаяся связь реальной, и если да, то есть ли в ней причинно- следственные взаимоотношения. Вот несколько примеров выводов, основанных на наблюдениях, но, очевидно, неверных: • Есть сильная связь между продажами мороженого и числом утонувших, так что причина этого в том, что люди идут купаться слишком рано после того, как съели мороженое, у них сводит мышцы, и они тонут. • Есть сильная связь между результатом теста на словарный запас и размером обуви, что можно объяснить тем, что у высоких людей мозг больше, и поэтому они могут запомнить больше слов. • Число аистов в регионе сильно связано с уровнем рождаемости, так что, очевидно, аисты и правда приносят детей. • Мэр города заметил сильную корреляцию между победами местной спортивной команды в соревнованиях и парадами 1 и решил проводить больше парадов, чтобы улучшить результаты местных команд. Вот настоящие объяснения: • И потребление мороженого, и плавание более обычны в теплое время года, так что очевидная связь объясняется влиянием третьего фактора, температуры (или времени года). • Исследование проводили на школьниках, а их возраст не учитывали. Вероятно, старшие дети окажутся выше (с большим размером обуви) и будут иметь более обширный словарный запас, чем младшие дети; таким образом, наблюдаемая связь обусловлена третьей переменной, возрастом. • Аисты чаще встречаются в сельской местности, а рождаемость также обычно выше вне городов, так что связь объясняется влиянием другого фактора, типа местности. • Это обращенная причинно-следственная связь – парады проводят после побед в чемпионатах, так что успешный сезон для команд – это причина парадов, а не проведение парадов улучшает их результаты. 1 В оригинале – то есть парады, сопровождающиеся посыпанием конфетти и нареticker-tape parades, занной бумагой с близлежащих зданий. – Прим. пер. 198 Глава 7. Коэффициент корреляции Пирсона Стоит заметить, что даже если логичная причина связи двух переменных отсутствует, связь между ними можно обнаружить просто по случайности. Это особенно важно для исследований очень больших выборок, когда даже слабая корреляция может оказаться статистически значимой, но при этом не иметь никакого практического значения. Также стоит отметить, что даже в случаях сильных связей между переменными, таких как курение и рак легких, она может проявляться очень по-разному на уровне отдельных случаев. Некоторые люди курят на протяжении многих лет и никогда не заболевают, в то время как некоторые несчастные получают рак легких, даже если не курили никогда в своей жизни. Диаграмма рассеяния Диаграмма рассеяния – это полезное средство для изучения взаимоотношений между переменными, и обычно создание таких диаграмм для непрерывных переменных проводится на разведочной стадии работы с данными. Диаграмма рассеяния – это диаграмма для двух непрерывных переменных. Если идея эксперимента подразумевает, что одна из переменных является независимой, а вторая зависит от нее, то первую откладывают по оси x (горизонтальной), а вторую – по оси y (вертикальной); если такие взаимоотношения неизвестны, то не имеет значения, какая переменная отложена на какой оси. Каждому члену выборки соответствует одна точка на графике, описываемая набором координат (x, если вы когда-либо y); использовали картезианские координаты 2 в школе, то вы уже знакомы с этим процессом. Диаграммы рассеяния дают вам возможность почувствовать общие свойства связи между переменными, включая такие, как направление (положительное или отрицательное), силу (сильная или слабая) и форму (линейная, квадратичная и т. п.). Кроме того, диаграммы рассеяния – это хороший способ получить общее впечатление о разбросе данных и увидеть, есть ли какие-то выбросы, случаи, которые на первый взгляд не похожи на остальные. Важно исследовать двумерные связи (связи между двумя переменными), по- скольку многие часто используемые методы предполагают, что они линейные, предположение, совсем не обязательно соблюдаемое для произвольной пары переменных из каких-то данных. Линейность в данном контексте означает «расположение на прямой линии», в то время как любые другие взаимосвязи считаются нелинейными, хотя мы можем охарактеризовать другие типы связи и более конкретно, например как квадратичную или экспоненциальную. Разумеется, мы не ожидаем, что в реальности данные идеально подходят под какую-то математическую модель; под линейной связью мы подразумеваем ситуацию, когда данные кажутся расположенными поблизости от прямой линии. Кроме того, мы можем создать матрицу диаграмм рассеяния, в которой представлено множество таких диаграмм, так что мы можем легко увидеть связи между парами переменных. На рис. 7.1 показана такая матрица диаграмм рассеяния, созданная Ллойдом Курье (Lloyd Currie) из Национального института стандартов и технологии (National Institute of Standards and Technology) для изучения свя2 Картезианские координаты также часто называют декартовыми. – Прим. пер. 199 Диаграмма рассеяния зей между четырьмя загрязнителями: калием, свинцом, железом и оксидом серы. Диаграммы рассеяния для каждой пары переменных расположены на пересечении соответствующих столбцов и строк, так, в ячейке (1, 2) (первая строка, второй столбец) показана связь между калием и свинцом, а в ячейке (1, 3) – между калием и железом и так далее. Данные о загрязнении Калий Свинец Железо Оксид серы Рис. 7.1. Матрица диаграмм рассеяния для четырех загрязнителей Взаимосвязи между непрерывными переменными В линейной алгебре мы часто описываем связи между двумя переменными с помощью уравнения вида: y = ax + b. В этой формуле – это зависимая переменная, – независимая переменная, y x a – коэффициент наклона, b – константа. Заметим, что иногда вместо a в данном уравнении используют m – это другой способ записи, никак не меняющий смысла уравнения. Как так и могут быть a, b положительными, отрицательными или равняться нулю. Для нахождения значения для заданного значения вам надо просто умножить на а затем прибаy a, вить Такие уравнения, как это, описывают идеальную связь (зная значения b. x, a и b, мы можем найти точное значение y), тогда как уравнения, описывающие реальные данные, обычно включают также величину ошибки, показывая наше понимание того, что уравнение дает нам предсказанное значение y, которое может не совпадать с истинным. Тем не менее стоит посмотреть на графики, точно заданные уравнениями, чтобы почувствовать, как при построении выглядят идеальные связи; это должно помочь замечать схожие тенденции в реальных данных. На рис. 7.2 показана взаимосвязь между двумя переменными, и которые x y, связаны идеальной положительной связью: x нейную зависимость между переменными. 205 Коэффициент корреляции Пирсона Коэффициент корреляции Пирсона Диаграммы рассеяния – это важное средство визуального изучения связей между парами переменных. Тем не менее мы также можем захотеть получить статистическую оценку этих связей и проверить их на значимость. Для двух непрерывных или характеризующих отношения переменных самая важная мера связи – это коэффициент корреляции Пирсона, также называемый линейным коэффициентом корреляции, обозначаемый как (греческая буква «ро») для генеральной совокупρ и – для выборки. r Этот коэффициент может принимать значения в интервале (–1, 1), где 0 свидетельствует об отсутствии связи между переменными, большие абсолютные значения показывают более сильную связь (если никакая из переменных не является константой, как в случае данных на рис. 7.5 и 7.7). Значение коэффициента корреляции может вводить в заблуждение, если на самом деле связь нелинейная, из- за чего всегда следует строить график для ваших данных. Такие характеристики связи, как «сильная» и «слабая», не имеют строгого численного соответствия, но связь, описываемая как сильная, будет ближе к линейной, с точками, лежащими ближе к прямой, чем в случае слабой связи. В некоторой степени определения сильных и слабых связей зависят от области исследований или традиции, так что вам придется узнать, что как называют в вашей области науки. Несколько примеров диаграмм рассеяния данных с разной величиной приведены на рис. 7.12, 7.13 r и 7.14, чтобы показать, как выглядят связи различной силы. 50 40 30 20 10 0 0 5 10 15 20 25 -10 Рис. 7.12. Диаграмма рассеяния (r = 0.84) 206 Глава 7. Коэффициент корреляции Пирсона 25 20 15 10 5 0 0 5 10 15 20 25 30 35 Рис. 7.13. Диаграмма рассеяния (r = 0.55) 25 20 15 10 5 0 0 5 10 15 20 25 30 35 Рис. 7.14. Диаграмма рассеяния (r = 0.09) Хотя коэффициенты корреляции часто рассчитывают с помощью компьютерных программ, их так же легко рассчитать вручную. Формула для коэффициента корреляции Пирсона представлена на рис. 7.15. Рис. 7.15. Ф статистический термин, характеризую- 210 Глава 7. Коэффициент корреляции Пирсона щий число величин, которые могут меняться в определенной ситуации. Это также число, которое нам надо знать, чтобы использовать правильное t-распределение для оценки наших результатов. Рис. 7.21. Формула для проверки статистической значимости коэффициента корреляции Пирсона В рис. 7.21 – это коэффициент корреляции Пирсона для выборки, – это ее r n объем. Для наших данных расчет приведен на рис. 7.22. Рис. 7.22. Расчет теста на значимость корреляции между баллами за математическую и вербальную части Академического оценочного теста В соответствии с таблицей (рис. D.7 в приложении D) критиt-распределения значение для двустороннего с 8 степенями свободы при = 0,05 t-критерия α равно 2,306. Поскольку наше расчетное значение, равное 5,02, превосходит критическое, мы отвергаем нулевую гипотезу о том, что результаты в математической и вербальных частях не связаны. Мы также рассчитали точное p-значение для этих данных с помощью онлайн-калькулятора и получили двустороннее p-значение, равное 0,0011, что также показывает, что наши результаты очень маловероятны, если на самом деле эти переменные не связаны в генеральной совокупности, из которой мы брали выборку. Коэффициент детерминации Коэффициент корреляции показывает силу и направление линейной связи между двумя переменными. Вам также может понадобиться узнать, какую долю дисперсии одной переменной можно связать с другой переменной. Для нахождения этой величины вы можете рассчитать коэффициент детерминации, который равен просто 2 . В нашем примере с тестом 2 = 0,87 2 = 0,76. Это означает, r r что 76% дисперсии в результатах вербальной части можно связать с результатом для математической части, и наоборот. Мы еще поговорим о коэффициенте детерминации в главах, посвященных регрессии, потому что очень часто одной из задач при построении регрессионной модели является поиск набора независимых переменных, которые могут объяснять большую долю дисперсии зависимой переменной. 211 Упражнения Упражнения Задача Какие из приведенных диаграмм рассеяния (рис. 7.23, 7.24 и 7.25) указывают на то, что две переменные линейно связаны? Установите для них направление связи и оцените ее силу, то есть коэффициент корреляции Пирсона для соответствующих данных. Учтите, что никто не ожидает от вас определения точного значения коэффициента корреляции на глаз, однако полезно уметь его правдоподобно предсказывать. 35 30 25 20 15 10 5 0 -10 10 15 20 25 35 Рис. 7.23. Диаграмма рассеяния (a) 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.1 0.1 0 0 10 10 15 20 25 30 35 Рис. 7.24. Диаграмма рассеяния (b) 212 Глава 7. Коэффициент корреляции Пирсона 90 80 70 60 50 40 30 20 10 -15 -10 -5 0 5 10 15 Рис. 7.25. Диаграмма рассеяния (c) Решение a) Сильная положительная связь (r = 0,84). b) Слабая связь (r = 0,11). c) Нелинейная квадратичная связь. Заметьте, что r = –0,28 для этих данных – это достаточно большой коэффициент корреляции, так что без диаграммы рассеяния мы могли легко не заметить нелинейную природу связи между этими двумя переменными. Задача Найдите коэффициенты детерминации для каждого набора данных из предыдущей задачи, если это имеет смысл, и проанализируйте их. Решение a) 2 = 0,84 2 = 0,71; r 71% дисперсии одной переменной может быть объяснен дисперсией другой переменной. b) 2 = 0,11 2 = 0,01; r 1% дисперсии одной переменной может быть объяснен дисперсией другой переменной. Этот результат указывает на то, насколько слабой на самом деле является корреляция величиной в 0,11. c) r и r 2 не применимы для переменных, связь между которыми нелинейна. Задача Некоторые исследования выявляли слабую положительную корреляцию между ростом и умственными способностями (последние измеряются величиной IQ), то есть более высокие люди в сре щены исследования роста и интеллекта. ГЛАВА 8. Введение в регрессию и дисперсионный анализ Регрессия и дисперсионный анализ (ANOV A) 1 – два метода, использующие общую линейную модель (GLM) 2 . Если идея линейной функции вам не до конца ясна, просмотрите обсуждение коэффициента корреляции Пирсона в главе 7. В главах с 8 по 11 мы опишем статистические методы, в том числе достаточно сложные, основанные на простейшем принципе линейной связи между двумя или более переменными. Эта глава представляет самые простые линейные модели, простые регрессии и однофакторный дисперсионный анализ; в главах с 9 по 11 я опишу более сложные методы из семейства общих линейных моделей. Методы обработки данных, описанные в этих главах, почти всегда реализуются с использованием компьютерных программ; к счастью, большинство из этих методов достаточно обычны, так что они присутствуют в любом статистическом пакете. Кроме того, обычно несложно разобраться, как использовать определенный пакет, если вы понимаете теоретические аспекты, лежащие в основе модели. По этой причине мы сконцентрируемся на объяснении того, как эти модели работают, но оставим советы достаточно общими, так чтобы их можно было применить к большинству программ. Общая линейная модель В основе всех методов из семейства общих линейных моделей лежит предположение о том, что зависимая переменная является функцией одной или более независимых переменных. Мы часто рассуждаем в терминах предсказания или объяснения зависимой переменной, используя набор независимых переменных, но давайте сделаем шаг назад, чтобы разобраться, что же значит, что одна переменная является функцией другой (или их набора, но, чтобы упростить задачу, для начала мы остановимся на простейшем случае одной зависимой и одной независимой переменной). Вы, возможно, помните функции типа = с уроков алгебры; это y f(x) 1 От англ. – ANalysis Of Variance. Прим. пер. 2 От англ. не следует путать с обобщенной линейной моделью – Generalized General Linear Model, Linear model. – Прим. пер. 216 Глава 8. Введение в регрессию и дисперсионный анализ уравнение говорит о том что, зная значение x, мы можем вычислить значение y, следуя процедуре, определенной в функции f(x). Вот несколько примеров функций: что значение всегда такое же, как и значение так что y = x y x, (x, = (1, 1), (2, 2), (3, 3). Запись вида (x, = (1, 1), (2, 2) и так далее – это y) y) просто короткий способ сказать: «Если = 1, то = 1; если = 2, то = 2» x y x y и так далее; • y = ax означает, что значение y является произведением значения x и константы a. Если a = 3, то (x, y) = (1, 3), (2, 6), (3, 9) и так далее; значение y всегда в три раза больше значения x. Если a = 0,5, то (x, y) = (1, 0,5), (2, 1), (3, 1,5) и так далее. В этом типе модели часто называют коэффициентом a наклона уравнения; • означает, что значение всегда является суммой произведения y = ax + b y x на константу и константы Заметьте, что сначала умножается на а a b. x a, затем к произведению прибавляется b. Если a = 1 и b = 5, то (x, y) = (1, 6), (2, 7), (3, 8) и так далее. В этом типе модели b часто называют константой уравнения, потому что его значение не меняется; каково бы ни было значение значение всегда одно и то же; x, b • 2 означает, что значение равно квадрату значения то есть значению y = x y x, умноженному само на себя. Таким образом, (x, = (1, 1), (2, 4), (3, 9) и x, y) так далее. В этой главе мы рассмотрим случай уравнений только с двумя переменными; этот тип уравнений всегда может быть описан как y = ax + b (помните, что b – это константа, а не переменная). Запись линейных уравнений Существует несколько способов записать линейное уравнение, но основные его части остаются неизменными. Для описания простого линейного уравнения с одним предиктором и константой достаточно записать его как y = ax + b. В этом уравнении y – это зависимая переменная, a – это коэффициент наклона и b – константа 3 . Константа определяет величину, которой соответствует точка пересечения прямой с осью y; то есть соответствует значению y при x = 0. Коэффициент наклона определяет связь между x и y: насколько изменяется y при изменении x на одну единицу? Вы можете помнить описание этого коэффициента из учебника алгебры как «подъем на пробег»; в данном случае подъем относится к изменению величины y, а пробег – изменению x. Если вы чувствуете, что нужно вспомнить алгебру линейных уравнений, прочитайте обзор «Взаимосвязи между непрерывными переменными» на стр. 199 в главе 7 и попробуйте решить несколько практических задач из приложения А на эту тему. Другой способ записи чаще используется в статистике при описании линейных уравнений, особенно для уравнений с множеством независимых переменных. В этой записи простое линейное уравнение записывается в виде y = + x + e, где – это константа, β β β 0 1 1 0 β – коэффициент наклона, а e – остаток или ошибка, которая включается из-за того, 1 3 В английском языке для существует термин аналога которому нет в русском, означающий b intercept, «пересечение»: эта константа определяет место пересечения прямой с осью ординат; аналогично a по-английски называют slope, то есть «склон», потому что именно наклон прямой определяется этим коэффициентом. – Прим. пер. 217 Линейная регрессия что при работе с настоящими данными (в противоположность манипуляциям с алгебраическими выражениями) мы не ожидаем абсолютно точного предсказания значения y по уравнению. Остаток или ошибка представляет из себя разницу между наблюдаемым и вычисленным из уравнения значениями y. В статистике термин «коэффициент» в отношении β используется чаще, чем «коэффи1 наклона», поскольку мы нередко работаем с уравнениями со многими независимыми переменными (множественная линейная регрессия), когда ни одна из независимых переменных не определяет целиком наклона прямой. Значение коэффициента во множественном линейном уравнении определяет предсказываемое изменение в значении y при изменении значения x на одну единицу при условии, что все остальные независимые переменные постоянны. Таким образом, в уравнении y = β + B x + B x + B x + e есть три 0 1 1 2 2 3 3 независимые переменные (x , x и x ), а коэффициент B определяет предсказываемое 1 2 3 1 изменение y при изменении x на одну единицу при постоянных x и x . 1 2 3 Линейная регрессия Предположим, что модель описывает связь между двумя переменными, y = ax + b и В алгебре эта зависимость может быть идеальной, то есть значение абx y. y солютно точно предсказывается значением Приведенные ранее примеры соотx. как раз такому типу моделей. Если мы скажем, например, что = 2x + 7, y мы знаем, что при значении x = 0, то y будет равен 7. В этом случае коэффициент корреляции всегда будет 1,00, показывая идеальную связь, мы всегда можем безошибочно предсказать значение по значению y x. Как бы то ни было, в статистике мы часто пытаемся подобрать уравнение для реального набора данных. В этом случае мы не ожидаем получить идеальную связь между и То есть мы не предполагаем, что мы всегда сможем предсказать значеx y. ние y по значению x без ошибки. Жизнь гораздо более разнообразна, чем закрытая система математики, и даже самые сильные наблюдаемые в реальном мире связи крайне редко идеальны с математической точки зрения. Рассмотрим взаимосвязь между ростом и массой тела у взрослых людей. Интуитивно понятно, что эти две переменные должны быть сильно положительно связаны; в целом более высокие люди весят больше, чем более низкие. И тем не менее эта связь не идеальна; мы все можем вспомнить низких, но довольно полных людей и высоких, но очень легких. Аналогично мы ожидаем увидеть положительную связь между числом лет получения образования и заработком среди людей трудоспособного возраста; в целом более образованные люди зарабатывают больше. Однако эта связь тоже не идеальна; один из богатейших людей в мире, Билл Гейтс, не закончил колледж, и многие университетские города полны людей с учеными степенями на низкооплачиваемой работе. При работе с реальными данными мы не ожидаем получить идеальные связи, но пытаемся найти полезные. Например, мы не можем получить уравнение для точного предсказания человеческого роста на основе веса (даже с помощью гораздо более сложного выражения, включающего множество других переменных). Вместо этого мы хотим создать уравнение, которое было бы полезно для наших целей и улучшало бы наши предсказательные способности, в том смысле что, зная рост человека, мы могли бы, используя урав- 218 Глава 8. Введение в регрессию и дисперсионный анализ нение, сделать лучшее предсказание массы его тела, чем мы сделали бы, не зная его роста. Мы могли бы изучать взаимосвязь между ростом и массой тела с помощью диаграмм рассеяния и коэффициента корреляции, но линейная регрессия позволяет нам сделать шаг вперед. Регрессионный анализ можно представить как проведение прямой линии (регрессионной прямой), изображающей взаимосвязь между двумя переменными; эту линию часто накладывают на диаграмму рассеяния для дальнейшего уточнения связи. Посмотрите на диаграмму рассеяния на рис. 8.1. килограммах в тела Масса Рост в метрах Рис. 8.1. Диаграмма рассеяния роста в метрах и массы тела в килограммах для 436 взрослых американцев Это диаграмма рассеяния роста (в метрах) и массы тела (в килограммах) для 436 взрослых американцев; данные получены с помощью случайного выбора из данных системы наблюдения за поведенческими факторами риска 2010 года 4 , медицинского исследования, проводимого в Америке ежегодно. (Вы можете подробнее узнать о ней и скачать данные для собственного анализа с этого сайта: http:// www.cdc.gov/brfss/technical_infodata/surveydata/2010.htm.) Как и ожидалось, связь положительная и в целом линейная (данные более или менее концентрируются вдоль линии), но далека от идеала: большинство точек не лежит на регрессионной прямой (линии, наложенной на диаграмму), и некоторые достаточно далеки от нее. Это типичный результат, который можно получить для реальных данных; связи не идеальные, но если ваша модель хорошая, они могут оказаться достаточно сильными, чтобы быть полезными. 4 Behavioral Risk Factor Surveillance System (BRFSS) – американская программа Центра за контролем и профилактикой заболеваний по мониторингу за поведенческими рисками, проводимому по телефону. Самая большая п е будем обсуждать этот анализ дальше. 228 Глава 8. Введение в регрессию и дисперсионный анализ ИНП Женское население (тысячи) Рис. 8.8. Диаграмма рассеяния женского населения (в тысячах) и индекса неравенства полов Дисперсионный анализ (ANOVA) Дисперсионный анализ (ANOV A) – это статистическая процедура, используемая для сравнения средних значений определенной переменной в двух и более независимых группах. Ее так называют, потому что расчет включает разделение дисперсии, соотнесение наблюдаемой в данных дисперсии с различными причинами или факторами, включая групповую принадлежность. Тем не менее из-за того, что эту процедуру применяют для сравнения средних между группами, многие студенты думают, что настоящее название должно быть A-MEAN-A . И все же ANOV A – это 6 полезный метод, особенно при анализе данных продуманных экспериментов (таких как изучение разницы между контролем и экспериментальными группами в клинических испытаниях). Основная статистика для ANOV A – это F-отношение, которое может быть использовано для определения статистической значимости различий между группами. Например, нас может интересовать проверка эффективности трех лекарств, которые должны понижать кровяное давление; мы можем сформировать четыре группы гипертоников и дать каждой из них одно из лекарств (и одна из групп будет служить контролем, то есть они либо не будут получать никаких лекарств, либо их будут лечить стандартными методами). Через некоторое время мы мо6 означает «среднее значение». – Mean Прим. пер. 229 Дисперсионный анализ (ANOVA) жем измерить кровяное давление пациентов, участвующих в исследовании, что- бы увидеть, повлияли ли на него достоверно какие-то из лекарств, а также есть ли достоверная разница между действием разных лекарств. ANOV A рассчитает для сравнения групповых средних, статистическую значимость коF-отношение мы проверим, используя заранее заданный стандарт, такой как < 0,01 или p < 0,05. p Простейший вариант ANOV A включает одну группирующую (независимую) переменную и одну предсказываемую; по этой причине он называется однофакторный дисперсионный анализ. Глава 9 описывает более сложные варианты ANOV A, включая двух- и трехфакторный дисперсионный анализ (многофакторный дисперсионный анализ) и анализ данных с учетом непрерывной ковариаты (ANCOV A 7 ). Однофакторный дисперсионный анализ Простейший вариант дисперсионного анализа – это однофакторный дисперсионный анализ, в котором при формировании групп для сравнения используется только одна переменная. Данную переменную часто называют «фактором», и этот термин еще более обычен при использовании более сложных вариантов ANOV A. Предположим, нас интересует эффективность нового лекарства, которое должно снижать сахар в крови у больных диабетом второго типа; мы можем проверить ее с помощью дисперсионного анализа, сравнив новое лекарство с другим уже используемым препаратом. Фактором в данном исследовании служит используемое лекарство, и у него есть два уровня: новый и старый препараты. Фактор в однофакторном дисперсионном анализе может иметь и более двух уровней: в предыдущем примере о сравнении трех препаратов для снижения давления и контроля у одного фактора было четыре уровня. Однофакторный дисперсионный анализ с двумя уровнями аналогичен t-критерию. Наша нулевая гипотеза в таком анализе обычно гласит о равенстве средних двух групп, тогда как альтернативная говорит о том, что средние различны (двусторонний тест) или различаются в определенном направлении (односторонний тест). Даже если есть значимое отличие в средних между двумя группами, мы не можем ожидать, что значения в двух группах не будут перекрываться; на самом деле отсутствие такого перекрытия очень необычно. Также мы ожидаем, что внутри каждой группы будет наблюдаться изменчивость, и однофакторный дисперсионный анализ принимает в расчет изменчивость внутри групп (например, изменчивость в уровне сахара среди пациентов, принимающих новое лекарство) и изменчивость между группами (разницу между пациентами, принимающими исследуемый и стандартный препараты). Дисперсионный анализ также подразумевает соблюдение некоторых условий для его правильного применения. Поскольку линейная регрессия и ANOV A – это на самом деле два способа исследовать данные, используя общую линейную модель, неудивительно, что некоторые из предположений дисперсионного анализа совпадают с предположениями для регрессии. 7 От англ Например, первая строка представляет 235 Расчет простой регрессии вручную сравнение группы 1 с группой 2 (приняты обозначения «группа I» и «группа J»). Разница в средних между этим группами составляет 7,80, и разница достоверна (p = 0,029). 95%-ный доверительный интервал для этой разницы средних составляет (0,067, 14,92); заметим, что он не включает нуль. Вторая строка табл. 8.7 представляет из себя сравнение групп 1 и 3; средняя разница составляет 4,17, и она не достоверна (p = 0,341). Заметим для сравнения, что доверительный интервал включает нуль (–2,95, 11,30). В третьей строке сравниваются группы 2 и 1; результат ровно тот же, что и в первой строке, с точностью до знака (поскольку в третьей строке среднее группы 1 вычитается из среднего группы 2, тогда как в первой строке среднее группы 2 вычиталось из среднего группы 1). В строке 4 показано сравнение средних групп 2 и 3; разница в средних составляет –3,62, и она не достоверна (p = 0,442). Строки 5 и 6 совпадают со строками 2 и 4. Столбцы табл. 8.8 соответствуют гомогенным наборам групп; в гомогенном наборе средние включенных групп не отличаются достоверно друг от друга. В данном случае группы 2 и 3 формируют гомогенную группу (столбец 1); группы 1 и 3 также гомогенны (столбец 2). Расчет простой регрессии вручную Коэффициенты регрессии можно рассчитать вручную, используя суммы квадратов, дисперсии X и Y и несколько других величин, которые можно вычислить без помощи компьютера. Проблема с ручным расчетом регрессии не в том, что он включает какие-то особенно сложные этапы, а в том, что с набором данных любого размера работа становится очень утомительной и способствующей ошибкам. Тем не менее пройти через модифицированную версию этого процесса может быть полезным для понимания смысла коэффициентов регрессии, и именно для этого приведен следующий раздел. Мы заметили ранее, что при работе с реальными данными мы не ожидаем получить идеальное предсказание по уравнению регрессии. На самом деле мы предполагаем, что будут некоторые различия между наблюдаемыми и предсказываемыми по модели значениями. Мы также обсуждали квадраты отклонений, которые являются квадратами разностей каждого наблюдаемого и предсказанного по уравнению значений. Сумма квадратов отклонений – это сумма квадратов ошибок, и она рассчитывается, как показано на рис. 8.10. Рис. 8.10. Сумма квадратов ошибок В этой формуле – это наблюдаемое значение, а – это предсказанное знаy (в соответствии с уравнением регрессии) для него. Поскольку значение ŷ i определяется по уравнению регрессии (ax сумма квадратов ошибок также + b), i может быть записана, как показано на рис. 8.11. 236 Глава 8. Введение в регрессию и дисперсионный анализ Рис. 8.11. Другой способ записи суммы квадратов ошибок Цель регрессии состоит в минимизации суммы квадратов, что будет означать, что предсказанные значения лежат максимально близко, насколько это возможно, к наблюдаемым. Формулы, необходимые для расчета простейшего регрессионного уравнения, приведены на рис. 8.12–8.15. Учтите, что S – это дисперсия x, а xx S – это ковариация x и y. xy Рис. 8.12. Расчет дисперсии x Рис. 8.13. Расчет ковариации x и y Рис. 8.14. Расчет коэффициента наклона простого уравнения регрессии Рис. 8.15. Расчет константы простого уравнения регрессии Предположим, что вам дали значения из рис. 8.16, рассчитанные на основе данных о связи IQ (y) с ростом в метрах (x); вы можете использовать эту информацию для расчета линии регрессии для этих данных. Вы также могли бы рассчитать эти величины вручную, но этот процесс крайне трудоемок даже для небольших наборов данных – настолько трудоемок, что на самом деле вы легко забудете, для чего вы вообще все это считаете. 237 Упражнения Рис. 8.16. Данные, необходимые для расчета простого уравнения регрессии Используя уравнения и данные из рис. 8.16, мы рассчитываем уравнение регрессии следующим образом: ∑ x/n = 33,25/21 = 1,58; ∑ y/n = 2486/21 = 118,38; = 53,01 – (33,25)2/21 = 0,36; S xx = 3973,04 – (33,25)(2486)/21 = 36,87; S xy = 36,87/0,36 = 102,42; a = 118,38 – [(102,42)(1,58)] = –43,44. b Уравнение регрессии представляет из себя следующее: = 102,42x – 43,44 + y e или IQ = 102,42(рост) – 43,44 + e. Для человека ростом 2 метра уравнение предсказывает IQ = 161,40 (гениальность!), поскольку: 102,42(2) – 43,44 = 161,40. Нет необходимости подчеркивать, что это искусственный пример, который иллюстрирует метод регрессии; у нас нет цели запятнать умственные способности кого-то, вне зависимости от роста. Упражнения Регрессия Первая группа вопросов использует данные программы развития ООН для изучения величин, связанных с подростковой рождаемостью (частотой родов женщин 15–19 лет в данной стране, выраженной как число родов на 1000 женщин этой 238 Глава 8. Введение в регрессию и дисперсионный анализ возрастной группы). Вы решили посмотреть на уровень образования в стране, включая такой показатель, как «средняя длительность обучения взрослых», предполагая, что в тех странах, где среднее число лет, потраченных на образование, выше, подростковая рождаемость должна быть ниже. Задача На рис. 8.17 представлена диаграмма рассеяния двух переменных (с использованием натурального логарифма подростковой рождаемости, как обсуждалось ранее в этой главе). Что она говорит об их взаимоотношении, и поддерживает ли она проведение простого регрессионного анализа с использованием этих двух переменных? число лет обучения у взрослых (годы) Рис. 8.17. Диаграмма рассеяния натурального логарифма подростковой рождаемости и средней длительности обучения взрослых Решение Диаграмма рассеяния показывает достаточно сильную отрицательную взаимосвязь. (Более высокий уровень образования связан с более низким уровнем подростковой рождаемости.) Обе переменные выглядят непрерывными и имеют значительный размах, что позволяет проводить регрессионный анализ. Задача Регрессионный анализ выдал результаты, показанные в табл. 8.9; заполните пропущенное значение для в квадрате и проинт а могут быть ассоциированы с нищетой. ГЛАВА 9. Многофакторный дисперсионный анализ и ковариационный анализ В главе 8 кратко обсуждались простая регрессия и дисперсионный анализ (ANOV A). В данной главе представлены более сложные варианты дисперсионного анализа: многофакторный дисперсионный анализ (дисперсионный анализ с несколькими группирующими переменными, или факторами) и ковариационный анализ (модель дисперсионного анализа, включающая непрерывную переменную, или ковариату). В главе 10 обсуждаются подобные расширения для модели простой регрессии. В большинстве исследований используются как минимум две группирующие переменные. Принципы таких моделей основаны на однофакторном дисперсионном анализе, но более сложная модель порождает дополнительные трудности: например, измерение взаимодействий между факторами. Такие типы анализа почти всегда выполняются в компьютерных статистических пакетах. К счастью, все пакеты имеют много общего, поэтому, обучившись понимать результаты выдачи одного пакета, легко понять и результаты, полученные в другой программе. Мы представляем данные анализа в общем виде, насколько это возможно, чтобы читатель мог понять их вне зависимости от того, какой программой он пользуется сам. Многофакторный дисперсионный анализ Влияние единственного фактора относительно редко интересует современного исследователя. Напротив, гораздо чаще нам интересно влияние нескольких факторов и, возможно, их взаимодействие. Многофакторные планы (дисперсионные анализы, включающие несколько факторов) дают возможность оценить совместный эффект, оказываемый несколькими факторами на зависимую переменную. Нас может интересовать как главный эффект – эффект каждого фактора самого по себе, так и эффект взаимодействия – эффект сочетаний факторов. Как и однофакторный дисперсионный анализ, многофакторный анализ лучше всего подхо- 246 Глава 9. Многофакторный дисперсионный анализ... дит для спланированных экспериментов и одинаковых размеров ячеек плана, то есть приблизительно одинакового числа объектов в каждой подгруппе или ячейке, сформированной всевозможными сочетаниями факторов. Главные допущения для многофакторного дисперсионного анализа те же, что и для однофакторного (см. главу 8). Особенно важны независимость наблюдений и однородность дисперсии. В основном статистические пакеты предоставляют статистические тесты на однородность дисперсии: например, тест Левина. Независимость наблюдений достигается на этапе планирования эксперимента. Самые обычные многофакторные планы: (двухфакторный) и a b a b c × × × (трехфакторный). Возможны и более сложные планы, но результаты их обработки становится очень сложно интерпретировать. Более высокие уровни сложности проще аппроксимировать моделью линейной регрессии. Как и в случае однофакторного дисперсионного анализа, каждый фактор является категориальной переменной как минимум с двумя уровнями, а зависимая переменная – непрерывной переменной, измеренной в абсолютной или интервальной шкале. Взаимодействие При исследовании более одного фактора приходится решать вопрос взаимодействия факторов. По определению, взаимодействие – это зависимость эффекта одной переменной от уровня другой переменной. Другими словами, эффект одной переменной зависит от величины другой переменной. Это проще понять, рассматривая графики предельных случаев взаимодействия и его отсутствия. Подобные графики редко получаются для реальных данных, но полезны в качестве иллюстрации. некоторые гипотетические данные по отношениям силы сжатия руки (данные эксперимента, измеренные в фунтах на квадратный дюйм) и двух факторов: пола и употребления алкоголя. Если между факторами нет взаимодействия, то график с данными может выглядеть похоже на рис. 9.1. Этот график демонстрирует отсутствие взаимодействия между потреблением алкоголя и полом: сила сжатия (ось уменьшается с ростом потребления алкоy) (ось как для женщин, так и для мужчин. Скорость уменьшения одинакова x) для обоих полов, поэтому линии параллельны, и мужчины имеют силу сжатия сильнее при любом уровне потребления алкоголя. Рисунок 9.2 отражает данные с взаимодействием, потребление алкоголя влияет на силу сжатия по-разному для мужчин и для женщин. По сути, эффект противоположный: потребление алкоголя увеличивает силу сжатия для женщин и уменьшает для мужчин. Линии не обязательно должны пересекаться при наличии взаимодействия: на рис. 9.3 показано взаимодействие, характеризуемое не параллельными, но расходящимися линиями; эффект алкоголя на силу сжатия больше для женщин, чем для мужчин. И на рис. 9.2, и на рис. 9.3 наблюдается зависимость эффекта алкоголя на силу сжатия от уровня или величины третье ,42) = 0,000, p = 0,986 (незначимый). 254 Глава 9. Многофакторный дисперсионный анализ... Одно из двухфакторных взаимодействий важно: Взаимодействие пол алкоголь: F(1,42) = 2,370, p = 0,078 (незначимый). × Взаимодействие пол возраст: F(1,42) = 7,407, p = 0,009. × Различие в силе сжатия для пьющих и непьющих у мужчин заметно зависит от возрастной группы, в то время как у женщин зависимость несильно меняется. Сила сжатия для мужчин возраста 40 и старше почти не зависит от того, принимают ли они алкоголь; для мужчин младше 40 употребление алкоголя связано со снижением в силе сжатия. Снижение силы сжатия при употреблении алкоголя больше для женщин в возрасте от 40 и старше, по сравнению с более молодыми женщинами, но это различие между возрастными категориями не так велико, как у мужчин. Взаимодействие алкоголь возраст: F(1,42) = 0,022, p = 0,883 (незначимо). × Трехфакторное взаимодействие значимо: Взаимодействие пол алкоголь возраст: F(1,42) = 4,893, p = 0,033. × × Эти результаты интересны тем, что хотя главный эффект возраста не значим, одно включающее возраст двухфакторное взаимодействие значимо (пол*возраст), так же как и трехмерное пол*алкоголь*возраст. Еще интересно, что взаимодействие пол*алкоголь не значимо в трехфакторной модели, но было значимо в двухфакторной. Это демонстрирует идею, применимую и к регрессии: при добавлении или удалении элементов модели значимость других переменных будет тоже меняться. При представлении результатов сложной модели всегда необходимо уточнять, какая именно модель была протестирована, так как предикторы часто взаимодействуют друг с другом; возможно, что при другом варианте анализа возраст будет значимым предиктором силы сжатия. Хотя возраст и не имеет значимого главного эффекта в данной модели, требуется оставить его в анализе, потому что обычно включается любая переменная, значимая во взаимодействии, так же как и в главном эффекте. Результаты данного анализа одновременно достаточно интересные и интригующие, чтобы обосновать необходимость дальнейших исследований. Еще одна возможность, которая может оказаться полезной, – переключиться на уравнение регрессии и включить возраст как непрерывный предиктор (использовать возраст в годах как предиктор, вместо того чтобы разбивать его на категории моложе/старше 40). Другая возможность – то, что двух категорий возраста недостаточно, и, возможно, 40 – не лучшая линия разделения; это можно также исследовать в будущем. ANCOVA Ковариационный анализ (ANCOV A) 1 – это разновидность многофакторного дисперсионного анализа, которая позволяет включать в модель непрерывную ковариату. Наиболее часто эту модель используют для контроля возможного эффекта ковариаты. Например, возможно, вас интересуют заработки выпускников колледжей в за1 От англ. — ANalysis of COvariance and VAriation. Прим. пер. 255 ANCOVA висимости от их области знаний (естественные науки, гуманитарные науки, бизнес и т. п.). Можно рассмотреть модель дисперсионного анализа (ANOV A) с зависимой величиной – заработной платой, – и категориальным фактором – областью знаний. Однако если ваши данные включают не только недавних выпускников, но и людей, работающих в данной сфере разное время, вы обнаружите, что это может влиять на заработную плату, так как в целом заработок увеличивается с возрастом и/или с количеством лет работы в данной области. Время работы или возраст можно контролировать добавлением одной из этих переменных в качестве непрерывной ковариаты в план дисперсионного анализа, таким образом получив план ковариационного анализа. При ковариационном анализе можно пользоваться несколькими ковариатами. Хотя добавление потенциально вмешивающихся факторов как ковариат для контроля – не самое лучшее решение, это правильнее, чем просто их игнорировать. Вот один из способов рассуждать о таком использовании ковариационного анализа: контролируя эффект непрерывной ковариаты (или ковариат), вы проверяете отношения между фактором и непрерывным результатом, считая значение ковариаты одинаковым во всех случаях. На примере области исследований и зарплаты, используя возраст как непрерывную ковариату, вы проверяете, в каком отношении были бы два фактора, если все объекты исследования были бы одинакового возраста. Другой типичный пример использования ковариационного анализа – уменьшение остаточной или ошибочной дисперсии в плане. Мы уже знаем, что одной из целей статистического моделирования является объяснение дисперсии в выборке данных; что модели, объясняющие больше дисперсии и имеющие меньшую остаточную дисперсию, в основном предпочтительнее, чем те, которые объясняют меньше. Если получается снизить остаточную дисперсию включением одной или более непрерывных ковариат в план, то обнаружить отношения между интересующими факторами и зависимой величиной может быть проще. Для ковариационного анализа используются те же допущения, что и для ANOV A, за исключением двух дополнительных: Подходящие данные Результирующая переменная и ковариаты должны быть непрерывными, измеренными в интервальной или характеризующей отношения шкале, иметь неограниченные или хотя бы колеблющиеся в широком диапазоне значения; факторы (группирующие переменные) должны быть дихотомическими или категориальными. Это допущение проверяется проверкой данных с помощью частотных таблиц, гистограмм и так далее. Независимость Каждое значение результирующей переменной должно быть независимым от других значений. Например, это условие может нарушаться, если присутствовала некоторая временная зависимость наблюдений, или измерения проводили у объектов, объединенных в бoльшие группы (члены одной семьи или одноклассники) таким образом, что они влияли на зависимую переменную. Это допущение контролируется знани пражнения 12.511 1 12.511 1.026 0.316 260 Глава 9. Многофакторный дисперсионный анализ... Сумма Средний Величина df F Значимость квадратов квадрат Пол 517.299 1 517.299 42.434 <0.001 Алкоголь 117.498 1 117.498 9.638 0.003 Пол*алкоголь 78.573 1 78.573 6.445 0.015 Ошибка 548.584 45 12.191 Сумма 42 135.000 50 Скорректированная сумма 1294.180 49 Оба фактора и их взаимодействия значимы, а ковариата – нет: • для пола F(1,45) = 42,434, p = <0,001; • для алкоголя = 9,638, = 0,003; F(1,45) p • для пол*алкоголь = 6.445, = 0,015; F(1,45) p • для упражнений = 1,026, = 0,316 (не значимо). F(1,45) p Так как мы не улучшили качество модели добавлением ковариаты, можно проверить, есть ли лучший способ измерить упражнения. Возможно, важен тип занятий: у тех, кто занимается тяжелой атлетикой, сила сжатия наверняка будет улучшена, по сравнению с теми, кто бегает большие дистанции, например. Возможно, упражнения лучше регистрировать в виде дихотомической или категориальной переменной; может быть, различие между теми, кто занимается и вообще не занимается, важнее, чем время, уделяемое упражнениям (в этом случае упражнения будут скорее фактором, чем ковариатой). Это демонстрирует, почему любой исследовательский проект обычно представляет собой непрекращающуюся работу: вы начинаете с какой-то идеи, проверяете её, улучшаете идею и тестируете снова. Намыливаете, смываете и повторяете, как говорится в мире рекламы – не ожидайте получить наилучшую модель с первого раза. Упражнения Задача Вы планируете провести двухфакторный дисперсионный анализ; как часть процесса вы проводите тест Левина, который дает = 0,045. Что это означаp-значение для вашего анализа? Решение Тест Левина является тестом на однородность при дисперсионном анализе: проверкой того, что в каждой группе приблизительно одинаковые дисперсии. Нулевая гипотеза состоит в том, что дисперсии равные, так что если тест Левина не значим, допущение о равенстве дисперсий принимается, ANOVA можно продолжить. В данном случае, используя стандартный уровень значимость = 0,05, α тест Левина значим, то есть допущение об однородности нужно отвергнуть, ANOVA продолжать нельзя без изменения входных данных или иного решения проблемы. 261 Упражнения Задача Вы работаете с двухфакторным дисперсионным анализом; один из ваших факторов имеет два, другой – три уровня. В ходе анализа данных вы строите график средних, изображенный на рис. 9.8. Интерпретируйте график и его значение для статистического анализа. Оценка пределов средних зависимой переменной фактор 2 средних пределов Оценка фактор 1 Рис. 9.8. График средних для дисперсионного анализа Решение Взаимодействие между факторами возможно. В целом уровни 1 и 3 фактора 1 ассоциированы с низкими результатами, а уровень 2 фактора 1 – с высокими. Тем не менее этот эффект больше для случаев с уровнем 1 фактора 2, так что, возможно, эффект фактора 1 частично зависит от уровня фактора 2. Задача В табл. 9.9 представлены результаты двухфакторного дисперсионного анализа, график средних которого был рассмотрен в предыдущей задаче. Какие выводы о взаимодействии факторов и результирующей величине можно сделать при одновременном рассмотрении таблицы и графика средних? Ис вок силы F(1, 45) = 7,509, p = 0,009. ГЛАВА 10. Множественная линейная регрессия В главе 8 была представлена простая линейная регрессия, в которой одна независимая переменная использовалась для предсказания, или объяснения, значений зависимой переменной. Эта модель полезна для ознакомления с принципами линейной регрессии, но в реальности простая регрессия используется редко. Гораздо шире распространена множественная линейная регрессия, в которой две или более независимых переменных связаны с одной зависимой переменной. Множественная регрессия является обычным исследовательским методом, который используется во многих областях, включая естественные и социальные науки, медицину и образование. Одна из привлекательных сторон множественной регрессии – гибкость; переменные предикторов могут быть непрерывными, категориальными или дихотомическими, при этом в одном уравнении возможно использование любой комбинации типов. При использовании категориальной переменной она должна быть переведена в набор дихотомических фиктивных переменных. Этот метод тоже будет освещен в данной главе. При увеличении сложности множественных независимых переменных требуется выполнение дополнительных допущений, и они также обсуждаются в данной главе. И наконец, методы построения моделей с множественными предикторами полезны для получения наилучшей модели в конкретном случае; эти методы тоже обсуждаются в данной главе. Модели множественной регрессии Исследование моделей простой линейной регрессии, коэффициента двумерной регрессии и его квадрата (коэффициента детерминации) используются для введения в общие понятия регрессионного анализа; в реальности на работу с уравнениями регрессии с двумя переменными тратят время только в некоторых областях исследований. Рассмотрим модели предсказания изменений климата, такие как глобальные климатические модели 1 и даже более сложные атмосферно-океанические модели общей циркуляции (МОЦ) 2 . Эти модели были разработаны за 1 General Circulation Models (GCMs). – Прим. пер. 2 Atmosphere-Ocean General Circulation Models (AOGCM). – Прим. пер. 266 Глава 10. Множественная линейная регрессия последние 30 лет для увеличения точности предсказания погодных закономерностей. В этих моделях учитываются и оцениваются возможные соотношения между сотнями и тысячами самых разных переменных. Например, в середине 70х модели были сосредоточены на переменных состояния атмосферы, тогда как в ближайшем будущем будут доступны модели, основанные на данных об атмосфере вместе с информацией о поверхности земли, океаническом и морском льде, наличии сульфатных и несульфатных аэрозолей, геохимическом цикле углерода, динамике растительности и химии атмосферы. При объединении этих дополнительных источников изменчивости в крупномасштабную статистическую модель стало возможным предсказание качественно разных типов погодной активности в разных пространственных и временных масштабах. В данной главе мы будем работать с множественной регрессией в гораздо меньшем масштабе. В реальности это вполне естественно. На самом деле полезная регрессионная модель может быть построена с использованием относительно малого числа переменных-предикторов (скажем, от 2 до 10), несмотря на то что при построении моделей люди, возможно, рассматривают гораздо больше предикторов перед выбором тех, которые останутся в конечной модели. Существует много способов построения регрессионной модели и много целей; нет одного наилучшего способа построения, но возможен лучший способ построения данной модели для данной цели. В этой главе будет предложен общий совет, поэтому вам придется самостоятельно разбираться с тем, что принято и ожидается в вашей профессиональной сфере. Вот простой пример: регрессионная модель может быть построена по принципу парсимонии (включение относительно малого числа переменных, каждая из которых объясняет большую долю дисперсии) или по принципу объяснения максимального количества дисперсии (скорее всего, в этом случае модель будет включать больше переменных, из которых каждая будет объяснять некоторую дополнительную небольшую долю дисперсии). Ни один из подходов не является лучшим при любых обстоятельствах, так что лучше всего заранее знать, что ожидается в вашей области исследования или работы. В разных областях знаний различается степень того, насколько теоретическая обоснованность и трактовка моделей управляет работой статистиков. В научном сообществе теоретическое объяснение ценится высоко, и построение модели по одной частной выборке не одобряется. Однако в деловом мире построение моделей автоматизированными методами (например, методы с включением или исключением переменных, обсуждаемые дальше в этой главе) может быть полностью приемлемым. При обсуждении я больше склоняюсь к теоретическому подходу, так как провела большую часть карьеры в научном мире. Тем не менее существуют особые ситуации, в которых может потребоваться и более практический подход. Повторюсь, суть состоит в осознании традиций и ожиданий статистического анализа в конкретно вашей сфере деятельности, а также того, что и почему вы делаете. При регрессионном моделировании важны два основных принципа. Во-первых, каждая включенная в модель переменная должна иметь свой собственный вес, то есть она должна объяснять уникальну Чтение 2.863 1.279 0.454 2.239 0.060 291 Упражнения Нестандартизованные Стандартизованные Модель коэффициенты коэффициенты Музыкальность –1.179 0.775 –0.161 –1.522 0.172 Мышление –0.785 0.399 –0.179 –1.968 0.090 4 Константа 68.274 5.524 12.360 0.000 Вычисление 3.149 1.122 0.601 2.806 0.023 Чтение 2.476 1.352 0.393 1.831 0.105 Мышление –0.294 0.253 –0.067 –1.161 0.279 5 Константа 64.655 4.649 13.908 0.000 Вычисление 2.765 1.093 0.528 2.529 0.030 Чтение 2.945 1.316 0.467 2.239 0.050 Окончательная модель регрессии, полученная с помощью метода с исключением (модель № 5 в табл. 10.14), следующая: IQ = 64,655 + 2,765(Вычисление) + 2,945(Чтение) + e. Эта модель объясняет 97,2% дисперсии IQ, что немного больше, чем модель метода с включением (95,6%). Хотя обе модели объясняют почти одинаковое количество дисперсии, интересно отметить отличие коэффициентов. Модель, полученная методом включения, имеет большую константу и больший коэффициент для навыка вычислений. Эти различия, скорее всего, объясняются тем, что некоторое количество дисперсии, объясненной навыком «Счет» в первой модели, объясняется навыком «Чтение» во второй и что включение второго предиктора естественно уменьшает константу, так как каждый результат IQ теперь объясняется двумя оценками умственных способностей, а не одной. Упражнения Множественная линейная регрессия может быть использована для изучения разных типов исследовательских задач, как показано в нижеследующих примерах. 1 Как специалист по кадрам вы заинтересованы в мотивационных факторах, связанных с продуктивностью (результирующая переменная) ИТ-групп (групп, занимающихся разработкой информационных технологий), основанной на метрике KLOC (kilolines of code) – тысячи строк кода, написанного за неделю. Считается, что на продуктивность влияют четыре мотивационных фактора: они могут быть основаны либо на внутренней, либо на внешней мотивации и быть либо самооценочными, либо оцениваемыми со стороны. Для измерения этих факторов разработаны четыре шкалы, которые используются как предикторные переменные в модели (в скобках оригинальные названия): 292 Глава 10. Множественная линейная регрессия • самооценка внутренней мотивации (IS – intrinsic self-report); • внешняя оценка внутренней мотивации (IO – intrinsic observed); • самооценка внешней мотивации (ES – extrinsic self-report); • внешняя оценка внешней мотивации (EO – extrinsic observed). KLOC выражен в тысячах строк кода; четыре предиктора измерены в шкале от 0 до 100. Описательная статистика для этих переменных представлена в табл. 10.16. Таблица 10.16. Описательная статистика для четырех типов мотивационных факторов и KLOC Переменная n Среднее Станд. ошибка Продуктивность (KLOC) 50 3.5 2.3 Самооценка внутренней мотивации (IS) 50 41.3 14.8 Наблюдение внутренней мотивации (IO) 50 54.7 19.4 Самооценка внешней мотивации (ES) 50 27.1 16.5 Наблюдение внешней мотивации (EO) 50 40.7 25.5 Верхний треугольник корреляционной матрицы для этих переменных показан в табл. 10.17; корреляции с 0,05 или менее обозначены звездочкой (*). p-value Таблица 10.17. Корреляционная матрица для четырех типов мотивационных факторов и KLOC Внут. Внут. Внеш. Внут. KLOC самооц. (IS) наблюд. (IO) самооц. (ES) наблюд. (EO) KLOC 1.00 0.25 0.12 0.43* 0.67* Внут. самооц. (IS) 1.00 –3.70* –1.70 0.35* Внут. наблюд. (IO) 1.00 0.18 –0.18 Внеш. самооц. (ES) 1.00 0.61* Внут. наблюд. (EO) 1.00 Задача Что вы заметили в корреляционной матрице такого, что могло бы помочь в определении регрессионной модели для этих данных? Решение Во-первых, два из четырех предикторов имеют значимую парную корреляцию с результирующей переменной: самооценка внешней мотивации (r = 0,43, p = 0,002) и внешняя оценка внешней мотивации (r = 0,67, p < 0,001); отдельные p-value не были включены в табл. 10.17, но взяты из компьютерной выдачи. Во-вторых, некоторые из наших предикторов имеют значительную корреляцию друг с другом, и это нужно держать в голове при построении нашей модели. Пары близких предикторов: самооценка внешней мотивации и внешняя оценка внутренней мотивации (r = –0,37, p = 0,008), самооцен чением производительности переменной. ГЛАВА 11. Логистическая, мультиномиальная и полиномиальная регрессия Множественная линейная регрессия – это мощный и гибкий метод, способный справиться со многими различными типами данных. Однако существует много других видов регрессии, более подходящих для определенных видов данных или для описания определенных связей между переменными. Мы обсудим некоторые из этих видов регрессии в данной главе. Логистическая регрессия подходит для таких ситуаций, когда зависимая переменная дихотомическая, а не непрерывная, мультиномиальная – работает в случае категориальных зависимых переменных (с более чем двумя категориями), а полиномиальная – больше подходит для случаев, когда связь между независимой и зависимой переменными описывается с помощью уравнения, включающего многочлен (например, с x 2 или x 3 ). Если вам незнакомо понятие «отношение вероятностей», вам было бы полезно сначала прочесть посвященный ему раздел главы 15, поскольку отношение вероятностей играет ключевую роль в интерпретации результатов логистической регрессии. Логистическая регрессия Множественную линейную регрессию можно использовать для поиска связей между одной непрерывной зависимой переменной и набором независимых переменных, которые могут быть непрерывными, дихотомическими или категориальными; в случае категориальных независимых переменных их необходимо перекодировать в набор дихотомических фиктивных переменных. Логистическая регрессия во многом напоминает множественную линейную регрессию, но ее применяют в том случае, если зависимая переменная дихотомическая (то есть может принимать только два значения). Ее значение может быть как дихотомическим по своей природе (человек либо закончил школу, либо нет), так и может представлять разбиение непрерывной или категориальной переменной на две группы (кровяное давление измеряется на непрерывной шкале, но для целей анализа испытуемых можно разбить на две группы: с повышенным давле- 297 Логистическая регрессия нием и с нормальным). Зависимую переменную в логистической регрессии традиционно кодируют как 0–1, где 0 обозначает отсутствие какой-то характеристики, а 1 – ее наличие. Зависимая переменная в логистической регрессии – это логит, что есть преобразованная вероятность данного значения исследуемой характеристики; можно легко преобразовать логиты в вероятности и наоборот, что мы увидим позже. Вы можете задаться вопросом, почему нельзя просто использовать множественную линейную регрессию с категориальной зависимой переменной. На то есть две причины: 1. Для категориальных переменных не выполняется условие гомоскедастичности (равенства дисперсий). 2. Множественная линейная регрессия может выдавать значения за пределами допустимого интервала 0–1 (наличие или отсутствие). Логит также называют логарифмом вероятностей по причинам, очевидным из его определения. Если – это вероятность того, что объект исследования будет p обладать данным свойством, то логит для этого объекта определяется, как показано на рис. 11.1. логит Рис. 11.1. Определение логита (логит-функции) Для преобразования вероятностей в логиты используют натуральный логарифм (с основанием e). Не считая использования логита как зависимой переменной, уравнение для логистической регрессии с независимыми переменными записывается очень сходn с уравнением для линейной регрессии, что можно видеть на рис. 11.2. логит Рис. 11.2. Уравнение логистической регрессии Как и в случае линейной регрессии, существуют показатели качества модели для всего уравнения (сравнивающие ее с нулевой моделью, в которой все коэффициенты нулевые) и тесты для каждого отдельного коэффициента (проверяющие для каждого из них нулевую гипотезу о том, что коэффициент незначимо отличается от нуля). Смысл коэффициентов, однако, иной; вместо их интерпретации в ключе линейных изменений зависимой переменной мы говорим в терминах отношения вероятностей (обсуждается в данной главе и в главе 15; обратите внимание, что отношение вероятностей часто используется в медицинской и эпидемиологической статистике). Как и в случае линейной регрессии, логистическая регрессия требует выполнения нескольких ус грамм страхования в США. – Прим. пер. 303 Мультиномиальная логистическая регрессия Преобразование логитов в вероятности Люди, незнакомые со статистикой, вряд ли будут понимать, что такое логит, так что, как правило, лучше представлять результаты в единицах, которые они поймут. Для логистической регрессии очевидным выбором будут вероятности. К счастью, логистическое уравнение для любого набора независимых переменных можно преобразовать, используя вероятности, по следующей формуле: уравнение логистической регрессии e . = Предсказанная вероятность уравнение логистической регрессии (1 + ) e Продолжив наш пример с данными BRFSS, мы можем найти вероятность того, что у человека есть страховка, подставив его или ее значения в наше уравнение, а затем преобразовав его по формуле, представленной выше. К примеру, для мужчины (x = 1) в возрасте 40 лет (x = 40), предсказанный логит равен: 1 2 Предсказанный логит(p) = 0,118 + 0,030(1) + 0,035(40) = 1,548. Затем мы подставляем это значение в формулу для предсказанной вероятности: / (1+ ) = 0,825, или 82,5%. Предсказанная вероятность e 1,548 e 1,548 Мультиномиальная логистическая регрессия Если у вас есть данные, по всем параметрам подходящие под логистическую регрессию, но только с зависимой категориальной переменной (более чем с двумя категориями), то использование мультиномиальной логистической регрессии может оказаться тем, что нужно. Возвращаясь к данным BRFSS, нас интересует, какие переменные могут предсказать состояние здоровья. К счастью, данные этого опроса включают переменную, характеризующую состояние здоровья по шкале, часто применяемой в медицине и здравоохранении. Нередко характеризуемая как «самооценка общего здоровья», эта переменная включает ответы людей о том, какая из пяти категорий лучше всего описывает их состояние здоровья в целом: 1. Великолепное. 2. Очень хорошее. 3. Хорошее. 4. Неплохое. 5. Плохое. Ответы на этот вопрос в нашей выборке представлены в табл. 11.5. 304 Глава 11. Логистическая, мультиномиальная и полиномиальная... Таблица 11.5. Самооценка общего здоровья Частота Процент Суммарный процент Великолепное 64 14.7 14.7 Очень хорошее 149 34.3 49.0 Хорошее 136 31.3 95.2 Неплохое 65 14.9 80.2 Плохой 21 4.8 100.0 Мы будем использовать возраст (непрерывная переменная) и пол (дихотомическая) в уравнении мультиномиальной логистической регрессии для предсказания самооценки состояния здоровья. Поскольку у нас довольно мало испытуемых попало в одну из категорий в зависимой переменной, мы составим таблицу сопряженности с полом, чтобы проверить, не будет ли какая-то из ячеек пустой или почти пустой; если так, это окажется проблемой по той же причине (полное или почти полное разделение), которая обсуждалась при разборе логистической регрессии. Результаты показаны в табл. 11.6. Таблица 11.6. Таблица сопряженности общего состояния здоровья и пола Состояние здоровья Женщины Мужчины Великолепное 36 28 Очень хорошее 92 57 Хорошее 80 56 Неплохое 45 20 Плохой 15 6 Тут есть как хорошие новости, так и плохие: несмотря на то что пустых ячеек не оказалось, в одной из них всего лишь 6 испытуемых (мужчин с плохим здоровьем), что может привести к довольно широким доверительным интервалам. Мы решаем объединить две нижние категории и продолжить наш анализ. Нам необходимо выбрать одну из категорий как категорию сравнения для анализа; компьютерный алгоритм затем сравнит каждую из остальных категорий с этой, чтобы понять, есть ли достоверные различия с какой-то из них. Мы выбираем категорию «Великолепное». Качество модели в мультиномиальной логистической регрессии можно оценить теми же методами, что и в биномиальной логистической регрессии. –2 логарифма правдоподобия для данной модели равны 660,234 (это может быть полезно знать для сравнения с более сложными моделями), и наша модель достоверно лучше нулевой модели без независимых переменных (χ 2 (6 df) = 19,194, = 0,004). Статистики псевдо-R 2 говоря 562 1 0.454 1.255 0.693 2.274 пол = 1 306 Глава 11. Логистическая, мультиномиальная и полиномиальная... 95% ДИ для Exp(B) Общ. Станд. Нижняя Верхняя категория B Вальд df Знач. Exp(B) ошибка граница граница здоровья Хорошее Константа –0.142 0.542 0.068 1 0.794 Возраст 0.015 0.009 2.836 1 0.092 1.015 0.998 1.033 Мужской 0.095 0.307 0.096 1 0.057 1.100 0.602 2.009 пол = 1 Неплохое/ Константа –1.766 0.638 7.740 1 0.005 плохое Возраст 0.030 0.010 8.701 1 0.003 1.030 1.010 1.051 Мужской 0.559 0.348 2.581 1 0.108 1.748 0.884 3.457 пол = 1 Наши опасения при виде низких значений псевдо-R 2 в данной модели оправдались: только одна независимая переменная значима для одного из сравнений, а именно «возраст» для сравнения «Неплохого/плохого» против «Великолепного» здоровья. Поскольку коэффициент положителен (0,030), а Exp(B), или отношение вероятностей, выше единицы, мы можем утверждать, что больший возраст связан с более высокой вероятностью иметь «Неплохое/плохое» здоровье, чем «Великолепное». Обратите внимание, что 95%-ный доверительный интервал для «возраста» в этом сравнении (1,010, 1,051) не включает нулевого значения 1,0, результат, который можно ожидать из значимой статистики хи-квадрат Вальда для данной независимой переменной в этом сравнении. Полиномиальная регрессия До сих пор вы много узнали о подборе моделей, где связь между зависимой переменной и одной или несколькими независимыми линейная, то есть значение зависимой переменной можно предсказать с помощью взвешенной линейной суммы независимых переменных плюс константа. На плоскости такие отношения выглядят как прямые линии с ненулевым наклоном. Однако многие явления описываются нелинейными законами, и вам нужно уметь моделировать и такие связи. Любая связь, не являющаяся строго линейной, по определению нелинейна, так что обсуждение нелинейного моделирования должно быть очень широким. В этом разделе вы узнаете о двух из наиболее часто используемых моделях регрессии, основанных на квадратичных и кубических многочленах . 2 В квадратичной модели есть как линейный, так и квадратичный член для независимых переменных, тогда как кубическая включает линейный, квадратичный и кубический члены; принцип состоит в том, что вы включаете как все более низкие степени, так и наивысшую. У каждой кривой есть набор экстремумов, 2 Также на английский манер их называют «полиномами» (англ. отсюда и название меpolinomials), полиномиальной регрессии. – Прим. пер. 307 Полиномиальная регрессия число которых на один меньше наивысшего показателя степени 3 , таким образом, у квадратичной модели будет один максимум 4 , а у кубической – один максимум и один минимум. На рис. 11.3 приведена квадратичная зависимость (y ), а на = x 2 рис. 11.4 – кубическая (y 3 ). = x 40.00 30.00 20.00 Y 10.00 .00 -5.0 -2.5 .0 2.5 5.0 X Рис. 11.3. Квадратичная зависимость (y = x 2 ) 300.00 200.00 100.00 x3 .00 -100.00 -200.00 -300.00 -5.0 -2.5 .0 2.5 5.0 X 3 Рис. 11.4. Кубическая зависимость (y = x ) 3 Точнее говоря, число экстремумов не превышает эту величину; простейший пример несоответствия – . У кривой, соответствующей этому уравнению, нет ни одного экстремума. – y = x 3 а результаты в спорте. – Прим. перев. 310 Глава 11. Логистическая, мультиномиальная и полиномиальная... Переподгонка Одна из самых поразительных возможностей современных статистических пакетов состоит в том, что вы можете автоматически выбрать и провести любое число сложных статистических тестов по нажатию одной кнопки. Применение этих возможностей при построении моделей может быть полезным, если вы просто смотрите на данные с разных сторон, или ваша первоначальная гипотеза оказалась неверной, и вы пытаетесь разобраться, что же на самом деле происходит в данных. Тем не менее многие статистики хмурятся при построении моделей исключительно на основании ваших данных и сравнивают это с «выуживанием» закономерностей наугад, а если используется нелинейная регрессия, называют это произвольной подгонкой под кривые. Мы обсуждали опасности, которые таит механистичное построение моделей, в главе 10, но все предостережения здесь еще более актуальны, поскольку вы не просто добавляете и убираете переменные, но еще и трансформируете их. Тем не менее такой метод построения моделей допустим в некоторых областях, так что, если так и обстоят дела в вашей области, нет причин не использовать все возможности, которые предоставляют современные статистические пакеты. Некоторые из них позволяют произвести расчет множества линейных и нелинейных моделей связи между двумя переменными, а дальше просто выбирать ту, которая лучше всего объясняет ваши данные. Если вы решите попробовать применить такой метод построения моделей, вам стоит знать, какие при этом существуют опасности. Мы проиллюстрируем это простым примером. Вообразите, что вы врач, которого интересует связь между курением и кровяным давлением, и результаты вашего небольшого эксперимента приведены в табл. 11.11. Вы знаете, что между этими переменными существует связь, но как эксперту в суде вам надо установить наиболее сильную связь между ними. Часть данных, касающихся диастолического давления и числа сигарет в день, приведена в табл. 11.11. Таблица 11.11. Взаимосвязь между диастолическим кровяным давлением и числом выкуриваемых сигарет за день Диастолическое кровяное давление Сигарет в день 80.0 0.0 75.0 0.0 90.0 1.0 80.0 0.0 75.0 0.0 95.0 10.0 90.0 20.0 100.0 25.0 110.0 30.0 140.0 35.0 311 Переподгонка Сводка результатов построения нескольких моделей (с диастолическим давлением как независимой переменной, а числом сигарет в день как независимой) представлена в табл. 11.12. Как вы можете видеть из нее, кроме линейной, возможно еще много видов связи между двумя переменными. Еще более удивительно, что модель, включающая линейный и кубический члены, объясняет 97% дисперсии диастолического давления. Никто до того не отмечал кубическую связь между этими переменными, так что вы думаете, что нашли очень убедительный аргумент. Таблица 11.12. Связь между диастолическим кровяным давлением и числом выкуренных за день сигарет Информация о модели Оценки параметров Зависимость R 2 F df1 df2 Знач. Константа b b b 1 2 3 Линейная 0.781 28.518 1 8 0.001 78.423 1.246 Квадратичная 0.869 23.118 2 7 0.001 80.984 –0.386 0.053 Кубическая 0.970 64.155 3 6 0.000 79.069 3.975 –0.299 0.007 Составная 0.813 34.853 1 8 0.000 79.007 1.013 Рост 0.813 34.853 1 8 0.000 4.370 0.012 Экспоненциальная 0.813 34.853 1 8 0.000 79.007 .0120 Имеют ли R 2 , рассчитанные при таком подходе, какое-то реальное значение? И да, и нет; один из рисков при таком «выуживании результатов» – это переподгонка (или переобучение – overfitting). Это означает, что ваша модель слишком хорошо аппроксимирует данные и объясняет не только достоверные зависимости, но и случайные отклонения. Поскольку задачей статистического анализа являются обобщение результатов и перенос их на другие выборки из той же генеральной совокупности, переподгонка мешает достижению этой цели. Вы можете получить модель, которая замечательно описывает ваши данные, но она совсем не обязательно подойдет для каких-то других данных, так что она не привносит новых полезных знаний в вашу область. Лучшая защита от переподгонки – построение моделей на основании теории. Если вы решите строить свою модель с помощью механистичных подходов, следует проверять ее на многих выборках, чтобы быть уверенным, что вы моделируете важные взаимосвязи в данных, а не случайный шум. Если доступно только ограниченное число выборок, например в случае, когда получение данных сопровождается уничтожением образца, можно применять методы создания повторных выборок (resampling), или создания искусственных выборок на основе имеющихся данных, таких как бутстреп (bootstrapping) или «складной нож» (jackknife); они обсуждаются в книге Ефрона (Efron), упомянутой в приложении C. 312 Глава 11. Логистическая, мультиномиальная и полиномиальная... Упражнения Задача Вы сравниваете две вложенных модели логистической регрессии (модели, где в большей есть все независимые переменные, включенные в меньшую). У модели А –2 логарифма правдоподобия равны 200,465; у модели – 210,395. Какая из модеБ лучше описывает данные? Решение Модель лучше подходит под данные; при сравнении двух вложенных моделей А лучше та, у которой –2 логарифма правдоподобия меньше. Задача Вы планируете проведение логистической регрессии с одной дихотомической и одной категориальной независимой переменными. Следующая таблица показывает таблицу сопряженности значений y и двух независимых переменных (x и x ). Вас ничего не напрягает при ее просмотре? Если да, как бы вы исправили 1 2 проблему? X = 1 X = 2 X = 3 1 1 1 Y =0 X = 1 25 32 20 2 X = 2 27 17 32 2 Y =1 X = 1 34 6 23 2 X = 2 41 36 5 2 Решение Хотя пустых ячеек тут нет, но есть две с очень небольшим числом наблюдений (6 и 5), что может привести к большим доверительным интервалам. Если возможно (и теоретически это можно обосновать, в соответствии со смыслом переменной ), лучшим решением было бы объединить вторую и третью категории этой x 1 переменной. Задача Вы провели логистическую регрессию для предсказания вероятности исключения старшеклассников на основании их GPA и пола как независимых переменных. Вот ваше уравнение регрессии: = 4,983 + 1,876(Мужской пол) – 2,014(GPA) + Логит(p) e. Исключение (y) закодировано как 1 = исключен, 0 = не исключен. GPA – это непрерывная переменная со значениями от 0,00 до 4,00. Мужской пол (переменная, кодирующая пол учеников) закодирован как 0 = женский пол, 1 = мужской пол. Какова предсказанная вероятность быть исключенной у девушки с GPA = 3,0? 313 Упражнения Решение Для расчета вероятности подставьте значения для женского пола и GPA в уравнение логистической регрессии и затем пересчитайте результат по следующей формуле, чтобы получить вероятность быть исключенным: уравнение логистической регресси e . Предсказанная вероятность = уравнение логистической регресси (1 + e ) Предсказанный логит равен: = 4,983 + 1,876(0) – 2,014(3.0) = –1,059. Логит(p) Предсказанная вероятность быть исключенным равна: = –1,059 /(1 + –1,059 ) = 0,258 = 25,8%. Предсказанная вероятность e e Задача Продолжая вопрос предсказания вероятности исключения из старшей школы, вы решили включить в анализ еще одну переменную: то, окончила ли мать ученика старшую школу (0 = не окончила, 1 = окончила). После проведения необходимых проверок данных вы строите модель и получаете коэффициенты и результаты проверок значимости, показанные в табл. 11.13. Эта модель достоверно лучше, чем нулевая модель для предсказания исключения из старшей школы (хи-квадрат (3) = 28,694, p < 0,001); значение R 2 Кокса и Снелла составляет 0,385, а R 2 Нагелкерке – 0,533. Таблица 11.13. Коэффициенты уравнения логистической регрессии, предсказывающей вероятность исключения из старшей школы по полу, GPA и образованию матери 95% ДИ для Exp(B) Станд. Нижняя Верхняя B Вальд df Знач. Exp(B) ошибка граница граница Мужской пол 2.107 0.770 7.495 1 0.006 8.224 1.819 37.170 GPA –1.599 0.756 4.466 1 0.035 0.202 0.046 0.890 Мать закончила –2.430 1.104 4.847 1 0.028 0.088 0.010 0.766 старшую школу Константа 5.021 2.420 4.305 1 0.038 151.526 Проанализируйте информацию в этой таблице, включая то, какие из независимых переменных значимы для этой модели, в каком направлении влияют и что означают столбцы Exp(B) и 95%-ный доверительный интервал. Решение Все независимые переменные в этой модели достоверно связаны с вероятностью того, что школьника исключат из рно предсказывают значение зависимой. ГЛАВА 12. Факторный, кластерный и дискриминантный анализы Сейчас используется больше статистических методов, чем можно описать в одной книге. На самом деле существует больше методов статистического анализа, чем кто бы то ни было смог бы освоить за свою жизнь. Тем не менее часто полезно быть знакомым с методом, даже не умея его применять. Вам может, к примеру, понадобиться прочитать статью с описанием приема, которым вы не владеете, или вы можете решить, что вам необходимо освоить метод или нанять консультанта, владеющего им, после того как вы прочитали, как кто-то другой использовал этот метод в своих исследованиях. Эта глава рассказывает о применении нескольких продвинутых статистических методов на конкретных примерах; при этом обучения самим методам не будет, поскольку цель главы – в том, чтобы помочь читателю понять, когда один из этих методов можно применить в определенном исследовании. Приёмы, описанные в данной главе, включают факторный, кластерный и дискриминантный анализ. Факторный анализ В факторном анализе (ФА) используются стандартные переменные для сокращения набора данных с помощью анализа главных компонент (АГК) (Principal Component Analysis) – наиболее широко применяемого метода сокращения размерности. Он основан на исходной матрицы для сопрямоугольном разложении здания выходной матрицы, состоящей из набора ортогональных компонент (или факторов), которые учитывают наибольшую долю разброса переменных начальной матрицы. Этот процесс обычно выдает меньшее число выходных компонент. В терминах линейной алгебры АГК работает с матрицей ковариаций для создания набора собственных векторов и собственных значений. Компоненты выходной матрицы – это линейные комбинации входных переменных; компоненты создаются так, чтобы первая из них учитывала наибольший разброс данных, а каждая последующая – максимально возможную величину остаточного разброса при условии нескоррелированного направления в пространстве. Более общий вариант АГК – канонический корреляционный анализ Хотеллинга (ККА) (Hotelling’s 316 Глава 12. Факторный, кластерный и дискриминантный анализы canonical correlation analysis (CCA)), который, подразумевая многомерное нормальное распределение, может быть использован для проверки независимости двух наборов переменных. В первую очередь АГК применяется для достижения трёх основных целей: 1. Для создания ортогональных переменных при проверке гипотез с использованием методов, основанных на общей линейной модели. 2. Для сжатия большого числа переменных до числа, с которым легче работать. Для нахождения скрытых переменных в больших массивах данных, которые представлены высоко скоррелированными входными переменными. Хотя первые две задачи обычно решаются с помощью АГК, к третьей чаще приступают с использованием факторного анализа (ФА), который также основан на прямоугольном разложении, но может включать более сложные приемы, в частности такой, как максимизирующее дисперсию вращение (varimax). О некоторых из подобных приемов вы узнаете из этой главы. Заметьте, что в ФА выбранные главные компоненты называются общими факторами, а корреляции с исходными переменными называются нагрузками факторов. Посмотрим на пример из области психометрики. Исторически ФА использовался для проверки различных теорий умственной деятельности и интеллекта, включая гипотезу о едином общем факторе, лежащем в основе интеллекта и соперничающей с ней гипотезы о множестве таких ортогональных факторов. В свою очередь, общие выводы, полученные в ходе обширных исследований интеллекта и сознания в популяции, позволили надежно выделять индивидуальные различия с помощью набора тестов. На процесс понимания индивидуальных отличий и их компенсации сильно повлияли идеи Карла Фридриха Гаусса, первооткрывателя распределения Гаусса, или нормального распределения, развитые более поздними работами Бесселя, который открыл уравнение своего имени для внесения поправок в наблюдения, сделанные разными астрономами. Ранние попытки изучить интеллект с помощью количественных переменных начались с исследований таких ученых, как Джеймс Каттел (James Cattell), которые пробовали измерять интеллект наборами ментальных тестов, таких как скорость реакции, скорость движения и сила хватки. Более поздние работы показали, что результаты выполнения этих тестов не были скоррелированы с реальной академической успеваемостью. Как бы то ни было, работа Чарльза Спирмена (Charles Spearman) об общем факторе интеллекта, g, извлеченном из результатов группы психологических тестов, привела к широкому распространению в психометрике методов, схожих с ФА и АГК. Более поздние работы Луиса Леона Тёрстоуна (Louis Leon Thurstone) и других дали основание предполагать наличие как минимум двух независимых факторов сознания, лежащих в основе интеллекта: вербальный (речевой) фактор – и фактор L счёта (arithmetic) – Даже сейчас такую характеристику интеллекта можно увиQ. в стандартных тестах, таких как Академический оценочный тест на способности (SAT, Scholastic Aptitude Test), который проходят многие американские студенты, планирующие поступать в университет, и Пространственная диаграмма компонент 323 Кластерный анализ Таблица 12.9 описывает выходную матрицу после процедуры ФА. Она показывает результаты для трёх компонент первых пяти участников тестирования, если это тесты GRE (вузовский оценочный тест) или SAT (академический оценочный тест) – это те самые результаты, которые можно сообщать участникам тестирования. Заметим, что точность результатов зависит от вашей компьютерной программы. 12.9. Результаты по трём компонентам для каждого участника Компонента 1 Компонента 2 Компонента 3 Участник (L) (Q) (Спорт) 0.518 1.132 –0.095 1 –1.170 –0.128 0.084 2 –1.396 –1.207 1.619 3 1.094 1.198 1.128 4 0.706 –1.049 0.014 5 Так же как и все другие техники обработки данных, о которых вы узнали из этой книги, АГК и ФА имеют ряд базовых предварительных условий, которые должны выполняться, если требуется получить обоснованные и/или надёжные результаты. Для АГК и ФА наиболее часто используются большие базы данных, потому что, как правило, чем больше набор данных, тем надёжнее результаты. В случае психометрики удается добиться постоянной надёжности, если тестирование проводится на сотнях тысяч испытуемых из разных лингвистических и национальных групп. Другое основное условие – число объектов превосходит число переменных во входной матрице. Как правило, тесты на статистическую значимость не используют АГК, поэтому пиковые и другие потенциально возможные источники отклонений не представляют столь существенной проблемы, как, скажем, при работе с ANOV A. АГК также предполагает линейную корреляцию – это означает, что ни одна из переменных не может быть ни нулём, ни абсолютно скорреллированной с другой. Кластерный анализ Кластерный анализ (КА) представляет собой набор технических приёмов, который позволяет сгруппировать объекты на основе их значений для одной и более переменных. Некоторые методы кластерного анализа размещают объекты по группам путём разделения, в то время как другие методы создают иерархические деревья, которые показывают систематические связи между группами и их прототипами. Связанный с КА метод – дискриминантный анализ (ДА) (Discriminant Function Analysis, DFA) – может быть использован для уточнения правил распределения объектов по группам, основываясь на понимании параметрической структуры групп. ДА лучше работает для прогнозирования групповой принадлежности, чем кластерный анализ без ДА. Зачастую эти два метода применяют- 324 Глава 12. Факторный, кластерный и дискриминантный анализы ся совместно. Кластерный анализ полезен тогда, когда число групп изначально неизвестно. Если же это число установлено, то ДА может быть использован для прогнозирования принадлежности к группе для каждого объекта по отдельности. весьма полезен при двух сценариях. В первом случае вам может быть известно, сколько групп вы ожидаете найти в каждом наборе данных, и вы передаёте это число алгоритму, который и определяет размещение объектов по группам (метод к-средних, или k-means). В другом случае число групп, которое существует в действительности, неизвестно, и тогда вы хотите при помощи этого метода определить его. является в высокой степени эмпирическим инструментом; Кластерный анализ его успех в значительной степени зависит от качества поставляемых данных. КА работает путём выбора входного вектора Y c n объектами и р переменными, располагая каждый из n объектов в одну из k групп. Каждая из р переменных измеряет одно направление изучаемого объекта. Если продолжить рассмотрение примера из психометрики, каждая переменная там может представлять результат по определённому типу тестируемых способностей (чтение, письмо и т. д.). Алгоритм создаёт на вероятностной основе кластеров, устанавливая (или центры k центроиды тяжести кластеров) и направляя каждый объект к ближайшему центроиду. Объекты перемещаются между кластерами для минимизации внутрикластерных различий и максимизации межкластерных различий. Процесс продолжается до полного схождения в соответствии с заранее определённым критерием. Следует отметить, что поскольку в начальном назначении центроидов присутствует некоторая случайность, не всегда можно получить одинаковый ответ. Целью расчётов в кластерном анализе является подтверждение того, что все члены групп 1…k похожи на другие члены их групп и отличаются от членов других групп. Сходство или несходство определяется специфическими расстояниями. К ним относят следующие: Эвклидово расстояние Это геометрическое расстояние между двумя точками в многомерном пространстве. расстояние Поквартальное расстояние по типу Манхэттэна, где улицы перпендикулярны друг другу 1 . Расстояние Махаланобиса Расстояния между точками внутри кластера увеличиваются, а между кластерами уменьшаются. Рассмотрим ещё раз пример из психометрики. Показав, что способности испытуемых определяют три фактора, психолог теперь заинтересован в выяснении, имеется ли некоторое основание для классификации учащихся по разным группам обу1 расстояние между двумя точками определяется как сумм ывал всего лишь Спорт 15% дисперсии). 327 Дискриминантный анализ Таблица 12.14. Результаты дисперсионного анализа по способности к различению Кластер Ошибка F Значимость Ср. квадр. df Ср. квадр. df Чтение 28.893 2 1.745 7 16.558 0.002 Музыка 15.321 2 1.622 7 9.443 0.010 Счет 17.000 2 9.214 7 1.845 0.227 Речь 26.950 2 0.643 7 41.922 0.000 Спорт 2.771 2 4.122 7 0.672 0.541 Письмо 17.550 2 1.786 7 9.828 0.009 Геометрия 11.571 2 8.194 7 1.412 0.305 Дискриминантный анализ Дискриминантный анализ (ДА) (Discriminant Function Analysis, DFA) используется для формулировки правил, которые позволяют классифицировать объекты по двум или более группам, основываясь на линейной комбинации переменных; при этом сами группы известны перед началом анализа, а целью последнего является нахождение переменных, наиболее эффективных в прогнозировании принадлежности новых объектов к этим группам. Однажды мне пришлось участвовать в исследовании, целью которого был прогноз расового и этнического состава групп студентов университета, которые не смогли заполнить определённую часть анкеты (информацию, необходимую для отсылки федеральному правительству). В том случае мы знали, какие категории используются федеральными органами для расовой и этнической идентификации, и нам было нужно использовать другую информацию в заполненных частях анкет для распределения студентов по соответствующим группам. Цель ДА – определение функции или функций, которые максимизируют различия между группами, тем самым достигая наибольшей возможной точности при распределении объектов по группам. Как правило, эти функции представляют из себя линейные комбинации входных переменных и называются линейные дискри(linear discriminant functions, LDFs). Кластерный анализ и минантные функции классификационный анализ в некотором роде пытаются решить одну проблему разными средствами: оба ищут максимум различных функций (например, максимизируя расстояния или точность распределения). Опять вернёмся к примеру из психометрики. При известном расположении групп, полученном после кластерного анализа, ДА можно использовать для определения ряда дискриминантных функций, обеспечивающих максимальное разделение между группами. После этого можно проверить нулевую гипотезу равенства групповых средних для каждой переменной. В случае двух групп это можно 328 Глава 12. Факторный, кластерный и дискриминантный анализы сделать с помощью t-теста; при большем числе групп для этого нужен F-тест. Результаты из в табл. 12.15 указывают на то, что есть существенные различия: для чтения 7) = 16,558, = 0,002; для музыки 7) = 9,443, = 0,010; для речи F(2, р F(2, р 7) = 41,922, = 0,001; для письма 7) = 9,828, = 0,009. Таким образом, F(2, р F(2, р основываясь на значимости переменных для разграничения групп, можно оставить только тесты по чтению, музыке, речи и письму, сохраняя большие расстояния между группами. Таблица 12.15. Проверка равенства групповых средних Лямбда Уилкса F df df Значимость 1 2 Чтение 0.174 16.558 2 7 0.002 Музыка 0.270 9.443 2 7 0.010 Счет 0.655 1.845 2 7 0.227 Речь 0.077 41.922 2 7 < 0.001 Спорт 0.839 0.672 2 7 0.541 Письмо 0.263 9.828 2 7 0.009 Геометрия 0.713 1.412 2 7 0.305 Таблица 12.16 характеризует две канонические дискриминантные функции, необходимые для распределения объектов по группам. Интересно, что первая функция учитывает 96% дисперсии, в то время как вторая – только 4%. Таблица 12.16. Канонические дискриминантные функции Собственное Каноническая Функция % дисперсии Совокупный % значение корреляция 1 79.224 96.0 96.0 0.994 2 3.287 4.0 100.0 0.876 Таблица 12.17 показывает расчётные значения лямбды Уилкса, которая используется для оценки значимости дискриминантных функций в многомерном пространстве. В строке, обозначенной «от 1 до 2», приведены показатели значимости для обеих функций, а в строке, обозначенной «2», – только для второй функции. К сожалению, в этом виде анализа даже две функции совместно не в состоянии существенно дифференцировать группы. Вероятно, это отражает тот факт, что функция 1 забирает на себя слишком высокую часть дисперсии, а набор данных сравнительно мал, поэтому в данном случае анализу недостаёт мощности. Таблица 12.17. Значения лямбды Уилкса Тест функции Лямбда Уилкса Хи-квадрат df Значимость от 1 до 2 0.003 нтными функциями и центроидами групп. 330 Глава 12. Факторный, кластерный и дискриминантный анализы Таблица 12.20. Функции к центроидам групп Номер кластера для объекта Функция 1 4.804 –0.169 2 –14.483 –3.465 3 –9.573 2.324 Упражнения Найдите несколько профессиональных статей в вашей области, в которых используются методы, приведенные в этой главе, и посмотрите, как используется каждый метод и как объясняются результаты. Для начала ниже даны несколько примеров: А. Дэпкен и Даррен Грант. Калькуляция цен сервисных услуг в Главной бейсбольной лиге: анализ главных компонент. (Craig A., and Darren Grant. 2011. “Product pricing in Major League Baseball: A principal components analysis.” Economic Inquiry 49 (April): 474–488.) Дэпкен и Грант используют анализ главных компонент для исследования факторов, влияющих на стоимость концессий, билетов и парковки в Главной бейсбольной лиге США. • Ханна С. Уильямсон, Томас Н. Бредбери, Томас Е. Трэйл и Бенджамен Р. Карни. Факторный анализ шкалы оценок семейных отношений в штате Айова. (Williamson, Hannah C., Thomas N. Bradbury, Thomas E. Trail, and Benjamin R. Karney. 2011. “Factor analysis of the Iowa Family Interaction rating scales.” Journal of Family Psychology 25(6): 993–999.) Уильямсон и коллеги используют анализ главных компонент для выявления факторной структуры способа описания различных типов вербального и невербального поведения супругов в общении; новизна их подхода заключается в применении метода, использовавшегося для белых супругов среднего класса, к примерам расово разных пар с низким уровнем дохода. • Майкл Н. Тума, Рейнольд Декер и Сорен В. Шольц. Обзор проблем и скрытых препятствий при применении кластерного анализа в сегментации рынков. (Tuma, Michael N., Reinhold Decker, and Soren W. Scholz. 2011. “A survey of the challenges and pitfalls of cluster analysis application in market segmentation.” International Journal of Market Research 53(3): 391–414.) Тума, Декер и Шольц рассматривают некоторые методы кластерного анализа, использовавшегося при сегментации рынков за последние 50 лет, и предлагают лучшие практические решения этой проблемы. • Барабара К. Кайе и Томас Джонсон. Блог что надо: Кластерный анализ причин оценки разных типов блогов как заслуживающих доверия. (Kaye, Barbara K., and Thomas J. Johnson. 2011. “Hot diggity blog: A cluster analysis 331 Упражнения examining motivations and other factors for why people judge different types of blogs as credible.” Mass Communication and Society 14(2): 236–263.) Кайе и Джонсон используют кластерный анализ для выявления групп людей, которые оценивают различные типы блогов (общеинформативные, медиа/журналистика, военные и относящиеся к войне, корпоративные и персональные) в качестве источников информации, заслуживающих полного доверия. • Ричард Гонсалес. Распознавание пола детей по костям черепа с помощью дискриминантного анализа. (Gonzalez, Richard. 2012. “Determination of sex from juvenile crania by means of discriminant function analysis.” Journal of Forensic Sciences 57(1): 24–34.) ГЛАВА 13. Непараметрическая статистика Основа статистического анализа – оценка параметров распределения, то есть оценка свойств генеральной совокупности по информации, полученной из выборки, взятой из этой совокупности. Многие из самых обычных статистических методов полагаются на то, что исследуемое распределение принадлежит к какому-то известному типу, например оно нормальное, чтобы выводы, сделанные по результатам теста, были осмысленными; эти методы называются параметрическими 1 . Но что же делать, если вы знаете или подозреваете, что генеральная совокупность отнюдь не подходит под требования определенного статистического теста? В таких ситуациях используют другой набор статистических методов, называемых непараметрическими. Они не зависят от распределения, то есть делают мало или не делают вовсе никаких предположений о свойствах распределения данных; некоторые говорят, что они зависят от распределения меньше, поскольку отдельные непараметрические тесты все-таки требуют выполнения определенных требований к распределению генеральной совокупности, но в целом они менее строгие, чем в случае параметрических тестов. Непараметрические статистики часто применяют при исследовании данных, если их получали скорее как ранги, а не как чистые значения, или же при тестировании значения заменяются на ранги из-за опасений по поводу распределения сырых данных. Ранговые данные, по определению, являются порядковыми, что обсуждается в главе 1, и их нельзя анализировать методами, предназначенными для интервальных или характеризующих отношения данных. Знакомым примером может служить ранжирование класса по баллам 2 : учеников в школе можно ранжировать по баллам, и хотя мы можем быть уверены в порядке их следования в списке (студент № 1 всегда имеет более высокий балл, чем студент № 2), мы не можем быть уверены в промежутке между рангами (эти студенты могут иметь как и почти идентичный балл, так и сильно различающийся). Если ваше исследование предполагает использование определенной параметрической статистики, но данные не подходят под ее требования, то часто можно 1 Потому что они используют оценки параметров наперед заданного распределения. – Прим. пер. 2 В Америке и других западных странах нахождение в вершине списка класса – очень важное достижение при, например, поступлении в университет, поэтому всем знакомо ранжирование учеников по баллам. – Прим. пер. 333 Независимые выборки применить непараметрический аналог. Существует множество непараметрических статистик, кроме нескольких, описанных в этой главе, и учебник Вилльяма Коновера (William Conover) «Практическая непараметрическая статистика» (Practical Nonparametric Statistics), упомянутый в приложении C, включает схему, помогающую выбрать непараметрический тест для вашей комбинации данных и статистической задачи. Кроме того, вы можете найти такую схему и в Интернете; ссылка на ее вариант от министерства здравоохранения (Department of Health) Великобритании приведена в приложении C. В этой главе представлены медианный критерий, U-критерий Манна–Уитни (Mann–Whitney U test), ранговый парный критерий Вилкоксона (Wilcoxon matched pairs signed rank test), тест Краскелла–Уоллиса (Kraskal–Wallis test) и тест Фридмана (Friedman test). Несколько непараметрических тестов приведены в главе 5, включая тест хи-квадрат (chi-square test), точный тест Фишера (Fisher’s exact test), тест МакНемара (McNemar’s test), фи (phi), V Крамера (Cramer’s V), корреляция Спирмена (Spearman’s correlation), гамма Гудмана и Краскела (Goodman and Kruskal’s gamma), тау Кендалла (Kendall’s tau) и Сомерса (Somers’s d). Меd и межквартильный размах, которые часто используют при отличном от нормального распределении, обсуждаются в главе 4. Непараметрические методы более робастные, чем их параметрические аналоги, то есть на них слабее влияют отклонения от предположений модели или необычные значения в выборке (такие как выбросы), но обычно менее мощные, чем параметрические критерии. Из-за этого в том случае, если ваши данные подходят под параметрический критерий, используйте его; если же это не так, то используйте непараметрический метод (или преобразуйте данные, как описано в главе 3). Независимые выборки В этом разделе описаны некоторые часто использующиеся непараметрические критерии для сравнения независимых выборок, в общем основанные на ранговой сумме и ранговом среднем. Тест ранговой суммы Вилкоксона Для описания порядковых данных используют две основные статистики: ранговая сумма и ранговое среднее. Рассмотрим следующий пример их использования. Отборочный комитет Олимпийских игр должен выбрать лучшую команду по тэквондо из двух штатов (Калифорния и Невада), чтобы она представляла Соединенные Штаты. Поскольку, кроме индивидуальных зачетов, будут и групповые, к которым члены команд готовились вместе, команды нельзя перемешивать, чтобы получить составную команду из самых лучших спортсменов; вместо этого необходимо выбрать одну или другую команду как целое. Каждый член команд получил общий балл за свое выступление, основанный на числе кирпичей, который он сумел разбить за пять минут тестирования. Результаты приведены в табл. 13.1. 334 Глава 13. Непараметрическая статистика Таблица 13.1. Результаты членов команд по тэквондо из двух штатов Калифорния Невада 4 2 5 3 6 3 6 4 7 4 8 5 9 10 9 10 9 11 9 11 Более высокий балл указывает на более хорошие навыки (разбил больше кирпичей). Попытка проанализировать результаты на глаз дается трудно; баллы членов команды Калифорнии более сходны и сгруппированы в более узком диапазоне, тогда как результаты невадцев более разбросаны и включают как очень высокие, так и очень низкие баллы. Поскольку четыре спортсмена с самыми высокими баллами – выходцы из Невады, у вас может появиться соблазн выбора этой команды, но медиана для нее составляет всего лишь 4,5, тогда как у Калифорнии она равна 7,5. Нет никаких оснований предполагать, что данные происходят из нормального распределения, а объем выборки в 10 человек не дает возможности применить центральную предельную теорему. Также мы не можем считать, что данные равно интервальные; хотя два кирпича – это однозначно больше, чем один, мы не можем быть уверены, что у сумевших разбить два кирпича навыки по тэквондо в два раза лучше. (На самом деле подобная интерпретация наверняка была бы неправильной.) Нам гораздо удобнее думать, что разбить два кирпича – лучше, чем один, без уточнения, насколько лучше. Самым подходящим способом описания таких данных являются ранги, а отнюдь не значения. Мы припишем ранг каждому испытуемому и просуммируем все ранги для каждой из команд. Для подсчета рангов обе команды объединяют, каждый член каждой команды нумеруется по возрастанию (более высокий ранг означает большее число разбитых кирпичей). Таблица 13.2 показывает, как проходит этот процесс. Таблица 13.2. Ранжирование членов команд Калифорн 11 14 13 14 13 14 13 15 15.5 15 15.5 341 Зависимые выборки Мы используем H-критерий Краскела–Уоллиса с уровнем значимости 0,05, чтобы проверить, есть ли достоверные различия между работой этих трех групп. Формула для этого критерия приведена на рис. 13.8. Рис. 13.8. Формула для H-критерия Краскела–Уоллиса В этой формуле – это суммарный объем выборки (во всех трех выборках N вместе), – это объем выборки, n i-й i T – это сумма рангов i-й выборки, а i 12 и 3 – это константы. Как рассчитать для выборок, показано на рис. 13.9. T i Рис. 13.9. Расчет суммы рангов Подставим эти значения в формулу для H-критерия Краскела-Уоллиса, как показано на рис. 13.10. Рис. 13.10. Расчет H-критерия Краскела–Уоллиса Для проверки значимости полученного значения хи-квадрат мы сравниваем его со значением хи-квадрата с двумя степенями свободы (на один меньше числа групп) из приложения D. Наше значение ниже табличного (5,991) для уровня значимости 0,05 и = 2, так что мы не можем отвергнуть нулевую гипотезу о равенстве медианы df всех трех групп. Зависимые выборки В этом разделе мы рассмотрим несколько часто используемых непараметрических тестов для зависимых выборок. Парный критерий Вилкоксона Парный критерий Вилкоксона (Wilcoxon Signed Rank Test) можно использовать как непараметрический аналог парного Он подходит для тех ситуаt-критерия. 342 Глава 13. Непараметрическая статистика ций, когда данные представлены как парные измерения, то есть, к примеру, до и после воздействия для одного и того же испытуемого или измерения братьев и сестер или мужей и жен. Нулевой гипотезой для этого теста обычно является то, что средняя разница между членами пары равна 0. Парный критерий Вилкоксона не предполагает нормальности, но для него необходимо хотя бы симметричное распределение, так что нельзя применять его в случае очень асимметричных распределений. нас интересует влияние упражнений на умственную деятельность и настроение. У нас есть выборка из 40 малоподвижных взрослых, которые добровольно участвуют в программе упражнений и проходят через набор физиологических тестов до начала программы и после ее завершения. В данном конкретном исследовании нас интересует 100-балльная шкала настроения, в котором 0 соответствует апатии, а 100 – сильному эмоциональному переживанию. Мы анализируем настроение членов выборки до начала программы и после нее. Мы проведем двухсторонний тест с нулевой гипотезой об отсутствии разницы между настроением до и после упражнений с уровнем значимости 0,05. В табл. 13.8 мы приводим выдержку из данных этого исследования для иллюстрации процесса расчета этого критерия. (Процесс довольно механистичен и включает процедуру ранжирования, обсужденную ранее.) Для каждой пары значений мы рассчитываем разницу и ее абсолютное значение. Мы ранжируем абсолютные значения разницы, а затем уже снова приписываем им знак. Если для какого-то испытуемого разница равна 0, то он исключается из исследования, а если есть одинаковые значения разностей, то им будет соответствовать средний ранг (то есть если у испытуемых с рангами 3, 4 и 5 значения разностей равны, то мы припишем им всем ранг 4). Таблица 13.8. Упражнения и настроение До упраж- После Разница Модуль Ранг модуля Ранг со Испытуемый нений упражнений (после – до) разницы разницы знаком 1 60 68 8 8 5 5 2 65 70 5 5 3 3 3 52 50 –2 2 1 –1 4 74 85 11 11 6 6 5 65 60 –5 5 3 –3 ... ... ... ... ... ... ... 40 70 77 7 7 4 4 В пяти случаях разница равнялась 0, так что после удаления этих испытуемых = 35, что является достаточно большой выборкой (эмпирическое правило: n 25), чтобы использовать приближение парного теста Вилкоксона для больших n ≥ выборок для получения Z-значения, вероятность которого мы можем определить, используя стандартную таблицу нормальных значений. Сум е необходим непараметрический подход. 346 Глава 13. Непараметрическая статистика Упражнения Вот несколько упражнений, чтобы вспомнить темы, обсужденные в этой главе. Задача Положим, вы хотите провести тест Фридмана, но обнаруживаете, что в данных есть совпадающие значения. К примеру, некоторые спортсмены из примера про выступление команды по тэквондо в трех промежутках времени получили повторяющиеся баллы. В таком случае у вас появилась необходимость использовать средние ранги для этих испытуемых. В табл. 13.11 приведены результаты 8 спортсменов по шкале, обозначающей успешность выступления; измерения были сделаны после одного, двух и трех часов тренировочного соревнования. Проведите тест Фридмана для этих данных, используя нулевую гипотезу о постоянстве качества выступления спортсменов в течение этих трех часов с уровнем значимости 0,05, и решите, принять нулевую гипотезу или отвергнуть. Для равных значений задайте средний ранг; то есть для баллов (6, 6, 5) ранги будут (2,5, 2,5, 1). Таблица 13.11. Успешность выступления спортсменов на спарринге в трех промежутках времени (с равными значениями) Спортсмен 1 час 2 часа 3 часа 1 8 8 6 2 6 6 7 3 6 8 7 4 8 7 6 5 9 9 7 6 9 8 7 7 8 7 6 8 8 7 7 Решение В табл. 13.12 приведены рассчитанные ранги и суммы рангов. Таблица 13.12. Ранги успешности выступления на спарринге в трех часовых промежутках времени (с равными значениями) Спортсмен 1 час 2 часа 3 часа 1 2.5 2.5 1 2 1.5 1.5 3 3 1 3 2 4 3 2 1 5 2.5 2.5 1 6 3 2 1 347 Упражнения Спортсмен 1 час 2 часа 3 часа 7 3 2 1 8 3 1.5 1.5 Сумма рангов 19.5 17 11.5 Расчет критерия Фридмана показан на рис. 13.15. Рис. 13.15. Расчет критерия Фридмана с равными значениями Есть две степени свободы (df = – 1). Из таблицы значений распределения t хи-квадрат (рис. D.11 в приложении D) мы видим, что критическое значение для уровня значимости 0,05 при df = 2 составляет 5,991; наша статистика меньше этой величины, так что мы не можем отвергнуть нулевую гипотезу. Задача Маркетолог интересуется сбором информации о демографии фанатов различных футбольных команд. Поскольку часто разрабатывают специальные маркетинговые кампании для разных возрастных групп, важным является определение медианного возраста болельщика определенной команды. Вы отвечаете за статистику в этом проекте, и вы набираете случайную выборку членов клуба фанатов одной из двух команд (А и Б); вы собираете по телефону данные об этих людях, включая их возраст. Вы определили, что общий медианный возраст (в обеих группах вместе) равен 27,5 года, и разделяете болельщиков на старшую и младшую половины, проведя границу по медиане. Ваши данные приведены в табл. 13.13. Если вы проводите исследование с нулевой гипотезой об отсутствии различий в медианном возрасте между двумя группами с уровнем значимости 0,01, каково будет ваше решение? Таблица 13.13. Сравнение возрастов болельщиков двух футбольных команд Команда Выше медианы Ниже медианы Сумма по строкам A 30 70 100 Б 60 40 100 Сумма по столбцам 90 110 200 Решение Вы решили использовать медианный тест, поэтому рассчитали значение хиквадрата для данных, проверяя нулевую гипотезу о независимости (поскольку равенство медиан возрастов болельщиков обеих команд означает, что возраст не связан с тем, за какую команду человек бол более старших болельщиков команды Б. ГЛАВА 14. Статистика для бизнеса и контроля качества Многие статистические методы, используемые в бизнесе и контроле качества, основаны на базовых приемах, включая тест хи-квадрат (обсуждаемый в главе 5), тест Стьюдента (глава 6), регрессию и дисперсионный анализ (главы с 8 по 11). Однако для достижения специфических целей бизнеса и контроля качества разработаны другие методы, которые станут предметом обсуждения в этой главе. Индексы Индексы часто используются в бизнесе, чтобы измерить изменения во времени количества или цены определенного товара или набора товаров и услуг. Один широко известный пример – это индекс потребительских цен (ИПЦ), который равен средней цене определенного количества товаров и услуг, которое считается типичным для американской семьи. В США этот индекс вычисляется ежемесячно статистическим управлением министерства труда; этот показатель используется для оценки уровня инфляции и расчета прибавок к заработной плате и пенсии. Хотя ИПЦ много критикуется, он оказался весьма эффективным в качестве обобщенного показателя средней стоимости жизни и позволяет сравнивать этот показатель в разные эпохи и в разных регионах. ИПЦ или сходный индекс также вычисляется в Канаде, Китае, Израиле, Новой Зеландии, Австралии и многих европейских странах. Вычисление индексов может быть очень простым (если индекс отражает изменение цены или количества товара) или очень сложным (когда индекс отражает взвешенное среднее для ряда товаров и услуг, как это происходит в случае ИПЦ). Простой числовой индекс выражает изменение во времени цены или количества одного товара, такого как число телевизоров, проданных за одну унцию золота. Для вычисления простых индексов нужно выбрать базисный период, который используется для сравнения. Индекс будет характеризовать изменения цены или количества по отношению к этому базисному периоду. При вычислении простого индекса необходимы три этапа: 1. Узнать цену или количество товара в интересующий нас отрезок времени. 350 Глава 14. Статистика для бизнеса и контроля качества 2. Выбрать базовый период и узнать цену или количество для того года. 3. Вычислить значение индекса для каждого периода времени, используя формулу, приведенную на рис. 14.1. Рис. 14.1. Формула для вычисления простого индекса Здесь I = индекс в момент времени t, t = цена или количество в момент времени а Y t, t = цена или количество в базисный период. Y 0 Предположим, мы хотим провести мониторинг состояния автомобильной промышленности в США за последние 20 лет. В рамках этого исследования мы можем создать индекс, который отражает число собираемых за год автомобилей, по сравнению с первым годом. Если у нас есть данные за 1986–2005 годы, то 1986 год будет базисным, а число автомобилей, произведенных в этом году, будет обозначено как . Рассмотрите табл. 14.1, в которой приведены малые вымышленные числа Y 0 для иллюстрации вычисления простого индекса. Таблица 14.1. Данные для вычисления простого индекса Год Число выпущенных автомобилей 1985 5 000 2005 4 000 Вычисление индекса для этих данных показано на рис. 14.2. Рис. 14.2. Вычисление простого индекса Индекс, равный 100, свидетельствует о том же количестве или цене, как в базовый период. Индекс, превышающий 100, говорит о снижении количества или цены, а индекс больше 100 означает увеличение количества или цены, по сравнению с базовым периодом. Одно из существенных преимуществ индексов состоит в том, что они позволяют сравнивать характеристики, выраженные в разных величинах и с разным размахом величин. Например, используя индексы, мы можем легко сравнить относительное снижение или увеличение продукции автомобилей, мотоциклов и велосипедов за определенный период времени. совмещает информацию о цене или количестве нескольких тиСоставной индекс пов товаров или услуг. Например, мы можем подсчитать количество пива, продаваемого в Шотландии тремя крупнейшими пивоваренными компаниями, как сумму количества пива, проданного каждым изготовителем. Если мы будем производить эти подсчеты в течение нескольких лет оит в том, что нам нужно собирать эту 354 Глава 14. Статистика для бизнеса и контроля качества информацию (количество приобретенных товаров) для каждого отрезка времени, что может быть недопустимо дорого. Другой недостаток индекса Пааше – по- скольку и цены, и востребованность товаров меняются с течением времени, трудно сравнивать индекс Пааше для любых двух временных периодов, если один из них не является базовым. Критика в адрес индекса потребительских цен (ИПЦ) в США ИПЦ – это основной показатель динамики цен в США, который рассчитывается в некотором виде статистическим управлением министерства труда с 1919 года. Он используется во многих целях, включая характеристику инфляции и расчет социального пособия, пенсии и пособия по безработице. Неудивительно, что индекс, используемый для многих целей, подвергается разносторонней критике. К принципиальным возражениям, которые приводят к растущему игнорированию ИПЦ, относят следующие. Изменение качества и искажение показателей из-за недавно появившихся товаров ИПЦ не учитывает улучшение качества некоторых товаров, таких как электронные устройства. DVD-плеер, который стоит $150 в 2005 году, может быть существенно более качественным и, значит, более ценным для потребителя, чем тот, который стоил $100 в 2000 году, однако это повышение качества не отражено в ИПЦ. Аналогично, поскольку используется фиксированная потребительская корзина, новые новые товары своевременно не включаются в ее состав в ее состав. В результате снижение цены на начальной стадии (обычное для новых электронных устройств) не регистрируется этим индексом. Смещение результатов в результате замены продукта Использование фиксированной потребительской корзины (веса корректируются один раз в 10 лет) не позволяет зарегистрировать изменение покупательских предпочтений вследствие колебаний цен. Например, если цена мяса растет быстрее, чем цена другой белковой пищи, такой как птица или яйца, покупатели могут в основном перейти на эти продукты, однако такой сдвиг не отразится на значениях ИПЦ. Смещение в результате использования крупных магазинов Поскольку информация о ценах собирается при анализе продаж в обычных универмагах, новые способы продаж, такие как гипермаркеты или интернет-магазины, не достаточно учтены при вычислении ИПЦ. Временные ряды Временные ряды часто используются в бизнес-статистике для отображения изменения величин во времени. Строго говоря, временной ряд – это последовательность измерений некоторой величины, сделанных в разные моменты времени. Приведенный выше пример с числом автомобилей, произведенных в каждый год с 1986 по 2005, подходит под это определение, так же как и измерения, которые позже обсуждаются в этой главе в разделе, посвященном контрольным картам. Временные ряды могут быть использованы в целях описания или формулировки статистических выводов; последнее включает прогнозирование или предсказание величин для предстоящих периодов времени. Однако читатель должен помнить, 355 Временные ряды что анализ временных рядов – это сложная тема со многими специализированными приемами и что в этом разделе у нас есть возможность ввести лишь некоторые термины, проиллюстрировав их несколькими простыми примерами. Всем, кто планирует работать в этой области, следует ознакомиться с учебником по данной теме, такими как книга Роберта С. Шамвэя «Временные ряды и их использование с примерами на языке R» (Robert S. Shumway “Time Series and Its Applications: With R Examples”, изд-во Springer). Учтите, что некоторые авторы, например Табачник (Tabachnick) и Фидель (Fidell), считают, что правильное использование анализа временных рядов возможно, если у вас есть как минимум 50 точек. Одно из свойств временных рядов заключается в том, что данные во временной последовательности не независимы друг от друга, как это ожидается в стандартной обобщенной линейной модели, для них характерна Это автокорреляция. значит, что значение величины в данный момент времени связано со значениями, которые идут перед и после нее, а возможно, и с более удаленными значениями этого временного ряда. Считается, что данные временных рядов – это значит, что их свойстстационарные, такие как среднее, дисперсия и автокорреляционная структура, постоянны на всем протяжении временного ряда. Для достижения стационарности данные перед обработкой иногда подвергаются это значит, что значение для дифференцированию; данного момента времени вычитается из значения для какого-то предшествующего момента времени. Период времени между двумя соседними наблюдениями называется Методы, необходимые для определения нужного типа дифференцировалаг. и его автоматизированного проведения, входят в состав статистических пакетов, предназначенных для анализа временных рядов. Для стабилизации дисперсии перед началом анализа могут быть проведены другие преобразования данных, такие как извлечение квадратного корня или логарифмирование. Для описания составляющих временного ряда часто используются аддитивные модели, такие как Y = T + C + S + R . t t t t t В этой модели к составляющим тренда относятся: Y t T – долговременный тренд, общий тренд за все время исследований; t C – циклический эффект, колебания вокруг долговременного тренда из-за соt бизнеса или экономики, такие как периоды общей рецессии или экспансии экономики; – сезонный эффект, колебания из-за времени года (например, различия межS зимними и летними месяцами); – остаточный, или ошибочный эффект, который остается после того, как учR долговременный, циклический и сезонный эффекты; может отражать как случайные события, так и редкие, такие как ураганы или эпидемии. Значительная часть анализа временных рядов посвящена объяснению изменчивости этих составляющих во времени. Идея похожа на разбиение дисперсии на составляющие в моделях дисперсионного анализа, однако в ос меет все меньший вес по мере удаления 358 Глава 14. Статистика для бизнеса и контроля качества от анализируемого значения. Используя эту систему для вычисления ВСС для пяти дней, анализируемому дню будет присвоен вес 5, предыдущему дню – 4 и так далее до пятого дня с весом в 1. Эта взвешенная сумма делится на сумму весовых множителей, которая будет равна [n (n – 1)]/2. ВСС уместна в любой ситуации, когда предполагается, что идущие подряд значения будут наиболее тесно связаны, и эта связь убывает с увеличением расстояния между точками. Экспоненциальное скользящее среднее (ЭСС) также придает больше веса близко расположенным наблюдениям, однако веса, присваиваемые отстоящим дальше наблюдениям, убывают не в арифметической, а в экспоненциальной последовательности. Для вычисления ЭСС определяется константа экспоненциального сглаживания находящаяся в интервале от 0 до 1. Эта константа связана с шириα, окна, согласно формуле, приведенной на рис. 14.10. n, Рис. 14.10. Формула для вычисления константы для экспоненциального скользящего среднего В данном случае = 0,2 соответствует = 9, поскольку 2/10 = 0,2. Затем исn согласно формуле на рис. 14.11, в которую включаются новые члены, пока они не станут такими маленькими, что ими можно пренебречь. ЭСС Рис. 14.11. Формула для вычисления экспоненциального скользящего среднего В приведенной выше формуле – это измерение в тот момент времени, для p 1 которого вычисляется ЭСС, p – предыдущее измерение, p – предпредыдущее 2 3 измерение и так далее. Знаменатель стремится к 1/α по мере увеличения числа включенных в вычисление наблюдений, и 86% веса присваивается первым n наблюдениям. В данном случае – это не ширина окна при вычислении ЭСС, как n это было при вычислении ПСС и ВСС; последняя точка определяется значением α и представлением исследователя о величине значения, которым можно пренебречь. решений Мы принимаем решения ежедневно, однако как мы приходим к принятию наилучшего решения, особенно в ситуациях, когда многое (например, большая сумма денег) поставлено на кон? – это набор специальных приемов, метоАнализ решений дологий и теорий, которые используются для систематизации процесса принятия решений с целью повышения его качества. В рамках теории принятия решений существует много направлений, и каждое может быть полезным в определенной ситуации. Этот раздел посвящен нескольким наиболее распространенным мето- 359 Анализ решений дам анализа решений, которые помогут получить представление о его составляющих, а также помогут разобраться в реальных случаях принятия решений. Процесс анализа решений будет описан на примере финансовых убытков и прибылей, однако также может быть использован для других показателей (например, личной удовлетворенности или улучшения качества жизни), если их можно измерить. При анализе решений процесс принятия решения обычно выполняется в виде последовательности этапов, что не так уж и отличается от действий, предпринимаемых для проверки гипотез. Анализ решений также весьма похож – за исключением выбора и применения математической модели (шаги 5 и 6) – на обычный процесс принятия решений, в который мы вовлечены ежедневно. Помимо возможности принятия лучшего решения, выполнение описанных ниже шагов (а так- же их обоснование) должно облегчить объяснение причин принятия какого-либо решения человеку, который не принимал в этом участия. Вот основные этапы: 1. Охарактеризуйте ситуацию, включая (любые внешние обстоятельства процессы реального мира, которые могут повлиять на результат). Внешние обстоятельства должны быть изложены как взаимно исключающие и исчерпывающие события, например высокий/средний/низкий спрос или аномальное/нормальное количество осадков. 2. Перечислите возможные варианты, то есть альтернативные решения, которые могут быть приняты, они называются действия. 3. Укажите возможные исходы или последствия. 4. Выявите выгоды и затраты, связанные со всеми возможными сочетаниями решений и исходов. 5. Выберите подходящую математическую модель. 6. Примените модель, используя информацию из пунктов 2–4. 7. Примите решение, основываясь на лучшем ожидаемом, согласно предсказаниям модели, исходе. Выбор методологии анализа решений зависит частично от количества информации о ситуации. Есть три типа контекстов, в которых можно использовать теорию принятия решений: • принятие решений в условиях определенности; • принятие решений в условиях неопределенности; • принятие решений в условиях риска. предполагает, что внешние обстояПринятие решений в условиях определенности тельства в будущем известны, так что для принятия решения необходимо лишь указать возможные варианты и их выгоды, чтобы сделать выбор, который неминуемо приведет к оптимальному решению. Эту ситуацию мы не будем обсуждать далее, поскольку она не требует математического моделирования, и тут не может быть никаких сомнений о том, что является лучшим выбором. – это более распространенПринятие решений в условиях неопределенности ная ситуация; мы не знаем вероятность разных внешних обстоятельств и должны принять решение, основываясь только на анализе выгод и затрат, сопряженных с разными действиями при раз и может быть использовано для понима- 363 Улучшение качества ния результатов при разных комбинациях действий и внешних условий. Дерево решений, содержащее ту же информацию, что приведена в табл. 14.8, показано на рис. 14.12. Actions States of nature Payoffs Действия Внешние условия Результат Rain (0.6) -$50,000 Дождь (0.6) Мероприятие на Outdoor открытом Venue воздухе No Rain (0.4) $500,000 Нет дождя (0.4) Rain (0.6) $200,000 Дождь (0.6) Мероприятие Indoor Venue в помещении Нет No Rain дождя (0.4) (0.4) $200,000 Rain (0.6) $0 Дождь (0.6) Нет No вложений Investment No Rain (0.4) $0 Нет дождя (0.4) Рис. 14.12. Дерево решений для примера с выбором места проведения мероприятия Улучшение качества Концепция (УК) родилась в 1920-х годах, когда Вальтер Шеулучшения качества варт (Walter Shewhart) начал разработку статистического подхода к исследованию изменчивости в промышленности. Интерес к УК резко возрос в 1950-х годах после публикации работы В. Эдвардса Деминга (W. Edwards Deming), который разработал статистический метод, основываясь на результатах Шеварта. По иронии судьбы, метод Деминга был сначала не признан на его родине (США), но с энтузиазмом воспринят в Японии, где технологии УК были использованы на производстве с таким успехом, что японские компании смогли поспорить за превосходство, а некоторых случаях и одержать верх над американской промышленностью. В ответ на это американские компании стали использовать технологии УК в 1980-х годах; «Моторола» и «Дженерал Электрик» – одни из наиболее известных пионеров применения этих методов. Существует много подходов к УК, включая распространенную программу, известную под названием «Шесть сигм» (6σ), которая является частью общего подхода, называемого комплексное управление качеством. Этот раздел книги сфокусирован на основах УК, общих для многих таких программ, и не содержит жаргона и акронимов, специфичных для любой конкретной программы. Он также посвящен статистической методологии, используемой при УК, хотя читатель должен помнить о том, что большинство программ УК имеет много аспектов и включают психологические и организационные подходы наряду с методами измерения и статистического анализа. Хотя идея УК зародилась в производственном секторе, сейчас ее применяют в других областях, включая здравоохранение и образование. «Качество», наверное, 364 Глава 14. Статистика для бизнеса и контроля качества стало модным словом в наш век, так что рассмотрение основных аспектов измерения и улучшения качества может оказаться полезным для людей, которые работают в самых разных областях. Всюду, где качество может быть определено и измерено, концепция УК может предложить полезные инструменты. Первый шаг при измерении чего-либо – определить эту характеристику. Кав контексте УК обычно определяется с позиции покупателя; высококачестчество продукт удовлетворяет потребительским нуждам и предпочтениям. В производстве это может означать детали механизмов с определенными промерами и сроком службы. В здравоохранении это может означать визит к доктору, который удовлетворит жалобы пациента и не будет подразумевать долгого ожидания или других вызывающих отвращение моментов. Запросы и предпочтения потребителя нужно перевести в которые можно измерить. Если характеристики продукта, взять пример со здравоохранением, «отсутствие чрезмерного времени ожидания» можно операционализировать как «время ожидания составляет не более 10 минут». Это позволит оценить, удовлетворяет ли стандартам каждый визит. Аналогичным образом можно задать конкретные промеры для деталей механизмов и оценивать, выдерживаются ли промеры данных деталей в рамках диапазона, определенного заказчиком. Язык УК характерен для промышленности, в нем часто упоминаются продукты, которые создаются в результате процессов, являющихся частью системы. Например, компания может изготавливать болты (продукт) при помощи серии процессов (таких как разрезание, штамповка и полировка), и это является частью системы, которая преобразует сырье (такое как металл) в продукт (болты). Характеристики любого процесса – это Например, не любой изготовпеременные. болт будет обладать заданными параметрами. УК во многом имеет дело с определением допустимых пределов изменчивости, регистрируя изменчивость в ходе процесса, выявляя причины и находя решения, если продукт выходит за пределы допустимой изменчивости. Схемы прогона и контрольные карты Контрольные карты, разработанные Вальтером Шевартом в 1920-х годах, – это основной графический прием, позволяющий отслеживать вариации. Схема прогона – это улучшение базовой версии контрольной карты, которая представляет собой график временного ряда, на котором отображена некоторая характеристика продукта по оси и время или порядковый номер продукта по оси Часто изображенные y x. на графике точки являются статистиками, такими как среднее, вычисленными для небольших выборок продукта, а не отдельными значениями. Отображая на графике выборочные средние, мы можем вспомнить теорему о центральном пределе и подразумевать нормальное распределение значений на графике вне зависимости от типа распределения отдельных значений в генеральной совокупности. Это важно при использовании правил для определения, вышел ли процесс из-под статистического контроля. Если на графике приведены исходные значения, то эти правила можно использовать тольк От англ. – размах. – range Прим. пер. 371 Упражнения 1) выборочные средние для непрерывных данных (карта x); 2) число бракованных деталей в выборках равного размера (np-карта); 3) доля бракованных деталей в выборках разного размера (p-карта); 4) среднее число дефектов на деталь для выборок равного размера (c-карта); 5) среднее число дефектов на деталь для выборок разного размера (u-карта). В. Эдвардс Деминг и Япония Япония не всегда была промышленным центром, каким мы знаем ее сейчас. В первую половину XX века в Японии производились в основном недорогие товары, а промышленная инфраструктура страны сильно пострадала во время Второй мировой войны. Однако после войны победившие союзники отрядили группу инженеров, чтобы помочь Японии возродить ее экономику. Одной из составляющих мероприятий по возрождению было обучение японских производителей статистическим методам контроля качества. В 1950 году при содействии японского союза ученых и инженеров В. Эдвардса Деминга (1990–1993), статистика, который учился вместе с Вальтером Шевартом, пригласили прочесть курс лекций о контроле качества. Во время своего визита Деминг также встретился с руководством многих ведущих японских компаний. Деминг произвел такое впечатление на глав японских промышленных компаний, что они учредили две ежегодные награды за успехи в области улучшения качества его имени: приз Деминга для отдельных лиц (присуждается людям, которые внесли важный вклад в исследования, разработку методологии, распространение идей в области комплексного управления качеством) и приз за применение идей Деминга для компаний (присуждается за выдающееся улучшение результата при помощи применения идей комплексного управления качеством). Дальнейшую информацию об этих наградах можно найти на сайте института Деминга (http://deming.org). Упражнения Вот краткое повторение тем, затронутых в этой главе. Задача Рассчитайте простой индекс для 2000 года, используя каждый из приведенных в табл. 14.9 годов в качестве базового. Что вы узнали из этих результатов о влиянии выбора базового периода? Таблица 14.9. Данные для вычисления индекса с использованием различных базовых периодов Год Цена 1970 1000 1980 1500 1990 2000 2000 1500 372 Глава 14. Статистика для бизнеса и контроля качества Решение I = 150, если принять за базовый 1970 год, 100 – если сравнивать с 1980 годом, 2000 и 75, если базовый год – 1990. Это показывает важность выбора базового периода при вычислении индекса. Отсюда ясно также, почему важно не позволить политическим или иным посторонним соображениям повлиять на этот выбор. Индекс для 1970 года как базового вычисляется следующим образом: = (1 500/1 000) 100 = 150; I × 2000 для 1980 года как базового: = (1 500/1 500) 100 = 100; I × 2000 для 1990 года как базового: = (1 500/2 000) 100 = 75. I × 2000 Задача Вычислите индексы Ласпейреса и Пааше для 2000 года, используя данные из табл. 14.10 и выбрав 1990 год в качестве базового. Почему эти индексы различаются? 14.10. Данные для сравнения индексов Ласпейреса и Пааше Количество Цена Количество Цена Продукт в 1990 году в 1990 году в 2000 году в 2000 году Говядина 100 фунтов $3 /фунт 50 фунтов $5 /фунт Курица 100 фунтов $3 /фунт 150 фунтов $3.5 /фунт Решение Индекс Ласпейреса равен 141,67, индекс Пааше составляет 87,5. Наблюдаемая разница обусловливается разными правилами присвоения весов: при расчете индекса Ласпейреса используются веса базового года, а для индекса Пааше – веса индексного года. В данном случае в 1990 и 2000 годах общее количество мяса было равным, однако в 2000 году покупали меньше говядины и больше курицы, по сравнению с 1990. Оценка инфляции на основании индекса Ласпейреса не отражает этого изменения в поведении потребителей. Ход вычисления индекса Ласпейреса показан на рис. 14.22, а индекс Пааше вычисляется так, как показано на рис. 14.23. Рис. 14.22. Вычисление индекса Ласпейрес сторону от осевой линии (правило 6). ГЛАВА 15. Статистика в медицине и эпидемиологии Многие статистические показатели, используемые в медицине и эпидемиологии, включая тест Стьюдента (обсуждается в главе 6), коэффициент корреляции (глава 7) и разные типы регрессии и дисперсионного анализа (главы с 8 по 11), применяются также в других областях науки. Однако некоторые статистические показатели (такие как вероятность успешного исхода) были специально разработаны для нужд медицины и эпидемиологии, а другие (например, определение мощности и объема выборки), хотя и используются в других областях, так часто применяются в медицине и эпидемиологии, что рассматриваются именно в этой главе. Показатели заболеваемости Прежде чем перейти к специализированным показателям заболеваемости, стоит обсудить значения нескольких терминов, с которыми часто возникает путаница при использовании в повседневной речи. Мы всегда можем выразить частоту заболеваемости в числе случаев. Например, в прошлом году в городе зарегистрироA 256 случаев туберкулеза, а в городе – 471. Исходные числа полезны людям, B которые распределяют средства в настоящее время и планируют их распределение в будущем, поскольку им нужно знать, сколько случаев туберкулеза (и других заболеваний) ожидается в следующем году, чтобы соответственно распределить ресурсы. Однако для исследовательских задач и для планирования на национальном и международном уровне заболеваемость полезнее выражать в относительных, а не абсолютных величинах, поскольку нам часто хочется посмотреть на тенденции во времени или в разных регионах с разной численностью населения. Например, приведенные выше гипотетические исходные значения позволяют предположить, что ситуация в городе B хуже, чем в городе A, но если численность жителей города B в пять раз превышает численность жителей города A, то это утверждение выполняется с точностью до наоборот. Аналогичным образом число заболеваний может расти из-за роста численности населения, так что для проведения сравнений нам нередко нужно перевести число случаев в другие показатели. 377 Показатели заболеваемости Отношения, доли и частоты Три связанных показателя – это отношения, доли и частоты. (ratio) Отношение выражает величину одной переменной по сравнению с величиной другой переменной, эти числа не должны обладать какими-то определенными свойствами или относиться к одному объекту. Отношения могут быть выражены в виде A:B или A на B и обычно приводятся к стандартным единицам, чтобы облегчить сравнение, таким как 1:B или A на 10 000. Нас может интересовать отношение числа мужчин со СПИДом к числу женщин со СПИДом в США. Согласно данным центров по контролю и профилактике заболеваний, в 2005 году в США жило 769 635 мужчин и 186 383 женщины со СПИДом. Таким образом, отношение больных мужчин к больным женщинам составляет 769 635:186 383, что также можно записать как 4,13:1. Вторая формулировка яснее демонстрирует, что в США в 2005 году число мужчин со СПИДом более чем вчетверо превосходило число женщин со СПИДом. В эпидемиологии и здравоохранении обычно используют два типа отношений – это и которые обсуждаются отношения рисков отношения благоприятных исходов, позже в этой главе. Для вычисления отношений сравниваемые характеристики не обязательно должны быть выражены в одинаковых единицах измерения; широко использующийся показатель для сравнения доступности медицинской помощи в разных странах – это отношение числа больничных коек к численности населения. Этот показатель часто выражается в числе коек на 10 000 человек. Согласно данным Всемирной организации здравоохранения, в 2005 году в Англии было 39 коек на 10 000 человек, в Судане – 7, а в Перу – 11, из чего можно сделать вывод, что стационарное лечение более доступно в Англии, чем в двух других странах. Такой тип отношений часто называется частотой (rate), хотя он не соответствует строгому определению частоты (обсуждается ниже), поскольку в знаменатель не входят единицы измерения времени. (proportion) – это частный случай отношения, в котором все объекты, вхоДоля в числитель, также входят и в знаменатель. Возвращаясь к предыдущему примеру, если мы захотели узнать долю мужчин среди всех больных СПИДом в США, мы бы разделили число мужчин на общее число случаев заболевания (число больных мужчин плюс число больных женщин), как это показано на рис. 15.1. Рис. 15.1. Вычисление доли Доли часто выражаются в процентах, что означает буквально (cent на на сотню латыни – это 100). Для перевода в проценты доли нужно умножить на 100: 0,805 100 = 80,5%. × Долю мужчин от всех жителей США со СПИДом можно также ботающих людей показан на рис. 15.14. 388 Глава 15. Статистика в медицине и эпидемиологии наблюдаемое число заболеваний СПЗ , или ожидаемое число заболеваний Рис. 15.14. Стандартизованный показатель заболеваемости для работающих людей Для неработающих людей стандартизованный показатель заболеваемости равен 0,695, или 69,5%. Если этот показатель равен единице, то у нас наблюдаемое число заболеваний равно ожидаемому. В нашем примере стандартизованный показатель заболеваемости и для работающих людей, и для неработающих меньше единицы, это значит, что зарегистрировано меньше заболеваний, чем ожидалось. Стандартизованный показатель заболеваемости превосходит единицу, если регистрируют больше заболеваний, чем ожидали. Если мы имеем дело со смертями, а не с заболеванием артритом, то можно использовать тот же прием для вычисления стандартизованного показателя смертности, часто используемого для сравнения смертности в разных группах людей; разница состоит в том, что мы подсчитываем случаи смерти, а не заболевания. Отношение рисков Во многих медицинских и эпидемиологических исследованиях анализируют связь между двумя дихотомическими переменными. Распространенный пример, – это подверженность какому-либо фактору риска (такому как контакт с асбестом или курение табака) и развитие какого-либо заболевания или состояния (асбестоза или рака легких). Фактор может быть наследственным, таким как пол или этническая принадлежность, и не обязательно негативным; например, регулярная физическая активность положительно действует на здоровье. Связь между двумя дихотомическими переменными часто представляют в виде таблицы сопряженности, также называемой таблицей 2×2, или два на два, из-за ее размерности (две строки и два столбца). Таблицы сопряженности также обсуждаются в пятой главе, и здесь применимы те же принципы. Однако в эпидемиологических исследованиях существует стандартный способ построения таблиц сопряженности, продемонстрированный в табл. 15.8. Таблица 15.8. Таблица 2×2 Заболевание Всего Есть Нет Есть a b a+b Воздействие Нет c d c+d Всего a+c b+d a+b+c+d Расположение (строки – Воздействия, столбцы – Заболевания) и порядок (сначала – Есть (наличие), потом – Нет (отсутствие)) групп приняты для многих эпи- 389 Отношение рисков демиологических исследований, так что разумно следовать этим правилам, если у вас нет причины поступить по-иному. Объекты исследования распределяются по группам согласно их подверженности воздействию и наличию заболевания, и ячейки, обозначенные буквами содержат частоты для каждого сочетания a, b, c, d, воздействия и болезни. Например, в ячейке указана частота подверженных возa больных, а в ячейке – частота не подверженных воздействию здороd в ячейках a, b, c, d иногда называют комбинированными (joint frequencies), поскольку люди в этих ячейках разделены с учетом наличия и воздействия, и заболевания. По краям таблицы приведены суммы по строкам и столбцам, часто называемые частотами (marginal frequencies). Например, – это краевыми a + b число подверженных воздействию людей вне зависимости от их здоровья. Общее число исследованных людей выражается как a + b + c + d. Отношение рисков (ОР), также называемое относительным риском, – это оценка вероятности развития заболевания у людей, подверженных воздействию, по сравнению с не подверженными воздействию. Это отношение доли подверженных воздействию больных к доле не подверженных воздействию больных. Отношение рисков вычисляется, как показано на рис. 15.15. ОР Рис. 15.15. Формула для расчета отношения рисков Отношение рисков можно также трактовать как отношение частоты заболеваний в подверженной воздействию группе (З ) к частоте заболеваний в не подверВ воздействию (З ) группе (рис. 15.16). 0 заболеваемость в подверженной З воздействию группе В ОР заболеваемость в не подверженной З 0 воздействию группе Рис. 15.16. Выражение отношения рисков через частоту заболеваний Для исследований, в которых знаменатель выражен в единицах человеко-времени, проводятся аналогичные вычисления, только вместо частоты заболеваний используется плотность заболеваний (ПЗ), как показано на рис. 15.17. ПЗ В ОР ПЗ 0 Рис. 15.17. Выражение отношения рисков через плотность заболеваний Давайте рассмотрим данные вымышленного исследования, организованного с целью проверить, есть ли связь между потреблением пищи с высоким содержанием жира (воздействие) и диабетом II типа (заболеван ычислить, как показано на рис. 15.25. 393 Отношение шансов З З АР В 0 АР% З З В В Рис. 15.25. Вычисление доли атрибутивного риска (АР%) Мы интерпретировали бы это, сказав, что воздействие было виной 58% заболеваний в подверженной ему группе. Долю атрибутивного риска можно также вычислить через отношение рисков, как показано на рис. 15.26. ОР АР% ОР Рис. 15.26. Вычисление доли атрибутивного риска через отношение рисков Число нуждающихся в лечении больных – это число пациентов, которых нужно подвергнуть специальному лечению (в противоположность стандартному лечению или плацебо) или оградить от воздействия, чтобы уменьшить число больных людей в группе на одного. Этот показатель полезен для оценки ожидаемой выгоды от нового лечения в будущем, он обратно пропорционален атрибутивному риску. В нашем примере атрибутивный риск составил 0,131, поэтому число нуждающихся в лечении больных равно 1/0,131 = 7,6. Этот показатель обычно округляют до целых чисел (пожалуйста, никаких частей больных!), так что в нашем случае можно сказать, что восьми людям нужно воздержаться от избыточного употребления жиров, для того чтобы в данной группе стало одним диабетиком меньше. Отношение шансов Представление об отношении шансов было разработано в исследованиях случай– контроль, методологии, которая применяется в эпидемиологии для упрощения исследования редких или медленно развивающихся заболеваний, так что обычные перспективные исследования было бы трудно осуществить. В исследованиях случай–контроль людей выбирают на основании наличия заболевания – случаи больны, а здоровы. Эти две группы затем сравнивают по подверженносконтроли воздействию. В подобных исследованиях нельзя вычислять отношение рисков, поскольку оно чувствительно к числу контролей (здоровых людей), а это число в исследованиях случай–контроль определяют, исходя из плана, а не частоты заболевания в популяции. Как будет показано далее, отношение шансов имеет преимущество, поскольку, в отличие от отношения рисков, оно нечувствительно к числу контролей (здоровых людей). (ОШ) (odds ratio) (вероятность успешного исхода) – это Отношение шансов отношение вероятности воздействия в опытной группе к вероятности воздействия в контрольной группе. Это математически эквивалентно отношению вероятности заболевания в подверженной воздействию группе к вероятности не подверженной воздействию группе, так что вы можете встретить другое определение этого тер- 394 Глава 15. Статистика в медицине и эпидемиологии мина. В таблице 2×2 вероятность воздействия при наличии заболевания равна a/c, а вероятность воздействия в отсутствие заболевания – b/d. Отношение шансов вычисляется по формуле, приведенной на рис. 15.27. вероятность воздействия при наличии заболевания ОШ вероятность воздействия при отсутствии заболевания Рис. 15.27. Формула для вычисления отношения шансов (ОШ) Предположим, у нас есть исследование случай–контроль влияния курения на возникновение рака легких. В табл. 15.10 приведены вымышленные данные. Таблица 15.10. Связь между курением и раком легких Есть заболевание Нет заболевания Всего Есть воздействие 50 2000 2050 Нет воздействия 25 1900 1925 Всего 75 3900 3975 Отношение шансов может быть вычислено, как показано на рис. 15.28. ОШ Рис. 15.28. Вычисление отношения шансов Обратите внимание, что отношение рисков для этих данных примерно такое же (рис. 15.29). ОР Рис. 15.29. Вычисление отношения рисков Если заболевание или состояние редки (практическое правило заключается в том, что частота заболевания должна быть меньше 10% во всех группах), то отношение шансов – это хороший способ оценки отношения рисков. Причина требований «редкости заболевания» заключается в том, что как только заболевание становится более частым, отношение шансов начинает сильнее отличаться от отношения рисков. Это показано на примере данных вымышленного исследования случай–контроль курения и рака легких (табл. 15.11). Таблица 15.11. Курение и рак легких Есть заболевание Нет заболевания Всего Есть воздействие 50 50 100 Нет в азделе «Отношение рисков» (стр. 388). 396 Глава 15. Статистика в медицине и эпидемиологии Шансы Отношение шансов – важный показатель в медицинских и статистических исследованиях, однако он основывается на понятии, незнакомом или непонятном на интуитивном уровне большинству людей: это шансы. Шансы некоторого события – это просто другой способ выражения его правдоподобности, сходный с вероятностью; разница заключается в том, что вероятность вычисляется при помощи деления числа событий на общее число испытаний, а шансы вычисляются как отношение числа событий к числу не-событий. Если рассматривать пример из эпидемиологии, то шансы курильщика заболеть раком легких вычисляются путем деления числа курильщиков с раком легких на число курильщиков без рака легких (a/b из нашей таблицы сопряженности). Вероятность рака легких у курильщиков вычисляется посредством деления числа курильщиков с раком легких на общее число курильщиков (a/(a + b)). Поскольку и шансы, и вероятность используют одни и те же величины, вы можете преобразовать один показатель в другой при помощи следующих формул: Шансы = вероятность/(1 – вероятность), Вероятность = шансы (1 + шансы). Предположим, что P(A) = 0.5, или 50%. Тогда шансы A составят 0.5/1 – 0.5 = 1.0. Это должно иметь смысл на интуитивном уровне: вероятность 50% значит равные шансы наступления и ненаступления события, то же самое означают и шансы, равные 1.0. Рассмотрев обратную ситуацию, если шансы составляют 1, то вероятность равна 1/(1+1) = 0.5. Отношение шансов – это просто частное двух шансов, например шансов рака легких у курильщиков и шанса рака легких у некурящих (математически тождественное отношению шансов курения у больных раком легких и здоровых). Отношение шансов можно вычислить, подставив вероятности в приведенную на рис. 15.34 формулу (где шансы 1 и шансы – это шансы исхода при двух условиях, а p и p – это вероятности исхода при 2 1 2 двух условиях). шансы 1 ОШ шансы 2 Рис. 15.34. Вычисление отношения шансов с использованием вероятностей Искажение, послойный анализ и коэффициент Мантеля–Гензеля – это ситуация, в которой наблюдаемая статистическая связь объясняИскажение хотя бы отчасти, неизученными различиями исследованных групп. Искажение иногда называют проблемой «третьей переменной»; связь между двумя переменными, например воздействием и заболеванием, маскируется или искажается третьей переменной, связанной с первыми двумя. Искажение может быть внесено более чем одной переменной, но для простоты мы расскажем о методах работы с одним искажающим фактором. При работе в области эпидемиологии нужно знать о возможности искажения данных, особенно при наблюдениях, когда принадлежность объекта к группе не определяется исследователем. Например, при исследованиях эффектов от куре- 397 Искажение, послойный анализ и коэффициент Мантеля–Гензеля ния нужно учитывать, что курение – это добровольное дело (люди сами решают, курить им или нет), а курильщики могут отличаться от некурящих людей по многим признакам (таким как употребление алкоголя, рацион питания или уровень образования). По возможности лучше избавляться от искажающих факторов при планировании исследования. – это метод выбора объектов в экспериментальных исРандомизация поскольку теоретически она позволяет избавиться от всех возможных искажающих факторов одновременно. Это происходит потому, что, как правило, случайное распределение объектов по группам должно привести к примерно одинаковому распределению любых возможных искажающих факторов в каждой группе, включая те факторы, о существовании которых исследователь не подозревает. Два других метода, которые можно использовать при наблюдениях для минимизации действия известных или предполагаемых искажающих факторов, – это ограничение и сопоставление. Недостаток обоих методов – это обретение контроля только над теми искажающими факторами, которые были включены в исследование. При использовании исследователь анализирует только часть геограничения совокупности, выбранную по значениям потенциального искажающего фактора. Например, в медицинских исследованиях часто используют только мужчин или только женщин, чтобы избежать влияния пола на связь между воздействием или заболеванием. Недостаток этого подхода – ограничение применимости результатов исследования; если для определенной группы мужчин будет выявлена связь между употреблением алкоголя и психопатологией, немедленное распространение этой закономерности на женщин будет неоправданным, поскольку они не участвовали в исследовании. – это другой прием для обретения некоторого контроля над изСопоставление искажающими факторами. В этом случае анализируются все уровни искажающего фактора, но объекты распределяются по группам таким образом, чтобы искажающие факторы были равномерно рассредоточены по этим группам. Сопоставление часто используется в исследованиях случай–контроль, в которых контроли подбирают так, чтобы они соответствовали вошедшим в выборку случаям. Существуют разные методы сопоставления, но все они основаны на сходном распределении значений искажающих факторов по группам. Существуют два способа проведения сопоставления. При прямом сопоставобъекты сравниваются по одному. При распрелении сопоставлении деление объектов по группам организуют так, что в каждой группе присутствует равное количество искажений. Если искажающие факторы – это пол и возрастная группа, то при прямом сопоставлении женщинам возраста 60–70 лет в экспериментальной группе будут соответствовать женщины этого же возраста в контрольной группе. При частотном сопоставлении руководитель проекта позаботится о том, чтобы в опытную и контрольную группы было включено равное число женщин и людей из разных возрастных категорий. Частотное сопоставление иногда называют сопоставлением по группам, поскольку вы можете думать о группах, определенных разными комбинациями признаков (например, мужчины в возрасте 20–29 лет, мужчины в возрасте 30–39 лет яющих алкоголь (табл. 15.14 и 15.15). 401 Искажение, послойный анализ и коэффициент Мантеля–Гензеля Таблица 15.14. Курение и заболевания печени у не употребляющих алкоголя людей Есть заболевание Нет заболевания Всего Есть воздействие 40 35 75 Нет воздействия 30 45 75 Всего 70 80 150 Таблица 15.15. Курение и заболевания печени для употребляющих алкоголь людей Есть заболевание Нет заболевания Всего Есть воздействие 60 15 75 Нет воздействия 50 25 75 Всего 110 40 150 Для этих данных мы можем вычислить отношение шансов с поправкой Мантеля–Гензеля, как это показано на рис. 15.37. ОШ МГ Рис. 15.37. Вычисление отношения шансов с поправкой Мантеля–Гензеля Поскольку разница между исходным и скорректированным значениями отношения шансов превышает 10% от исходного значения 2,0, мы заключаем, что употребление алкоголя – это искажающий фактор для связи между курением и заболеваниями печени, который нужно учитывать в подобных исследованиях. Анализ мощности В этом разделе речь пойдет о теоретических аспектах мощности и размера выборки, и будут представлены несколько простых примеров. Вычисления необходимого размера выборки и мощности часто просты, но они также имеют свою специфику; разные планы исследований требуют использования разных формул, и их незачем перечислять, поскольку все они приведены в справочниках. Для тех, кто работает в области медицины и эпидемиологии, мы особенно рекомендуем главу, посвященную вычислениям объема выборки, из «Руководства по эпидемиологии» (Handbook of Epidemiology, Springer). Во многих компьютерных программах, таких как SAS и Minitab, есть встроенные процедуры для проведения анализа мощности и вычисления нужного размера выборки, калькуляторы этих величин также есть в Сети; хорошую коллекцию ссылок на онлайн-калькуляторы можно найти здесь: http://statpages.org. 402 Глава 15. Статистика в медицине и эпидемиологии При статистическом выводе всегда есть вероятность принять неверное решение, поскольку статистический вывод о генеральной совокупности опирается на вычисления, сделанные на основе выборки. Как обсуждалось в третьей главе, при статистическом выводе возможны два обычных типа ошибок: 1). статистическая ошибка первого рода (α), когда вы ошибочно отвергаете нулевую гипотезу; 2). статистическая ошибка второго рода (β), когда вы не можете отвергнуть нулевую гипотезу, в то время как она неверна. Иными словами при ошибке I рода вы находите закономерность, где ее нет, а при ошибке II рода – пропускаете существующую закономерность. Мощность – это вероятность отвергнуть нулевую гипотезу, когда она неверна (1 – Нам бы всем хотелось, чтобы мощность была все время высокой, однаβ). практические соображения, в особенности финансовые затраты и доступность объектов, вынуждают нас идти на компромисс. Принято, чтобы мощность составляла хотя бы 80%, то есть вероятность обнаружить в вашей выборке существующую в генеральной совокупности закономерность составляло бы 80%. Это значит, что в 20% случаев вы не найдете закономерность там, где вы должны были это сделать. Также часто используется стандартное значение мощности, равное 90%. На мощность влияют четыре основных фактора: 1. Уровень то есть (ошибки I рода): более высокая увеличивает мощP Различия в результате между группами (мощность выше при больших различиях). 3. Изменчивость (при маленькой изменчивости мощность выше). 4. Размер выборки (мощность выше при большей выборке). Изменение любого из этих параметров при постоянных значениях остальных переменных приведет к изменению мощности в указанную сторону. Уровень α обычно выбирают равным 0,05 или менее (например, 0,01); увеличение дает боα высокую мощность. Увеличение межгрупповой разницы в результатах также увеличивает мощность. Эту разницу можно повысить, оптимизировав воздействие, так чтобы оно имело более выраженный эффект, или выбрав такие группы объектов, для которых ожидаемые различия в результатах были бы выше. Уменьшение изменчивости также повышает мощность. Уменьшить изменчивость иногда можно путем оптимизации измерений или выбора исследуемых объектов (например, уменьшив диапазон возраста или дохода). Однако наша способность контролировать эти параметры обычно незначительна. Таким образом, нам остается только – единственный фактор, размер выборки который находится под контролем исследователя при планировании проекта. При прочих равных условиях больше объектов = больше мощности. Однако обследование большего числа объектов обычно требует больших средств и усилий со стороны исследовательской группы. Цель анализа мощности – найти разумный компромисс, при котором была бы достигнута приемлемая мощность, а вы бы не обанкротились и н т меньше критического значения 112,5. 404 Глава 15. Статистика в медицине и эпидемиологии Площадь этой кривой справа от критического значения – это мощность теста для данной нулевой гипотезы. Она соответствует вероятности того, что если верна альтернативная гипотеза (среднее для генеральной совокупности равно 115), то выборочное среднее будет больше критического значения 112,5, и мы решим, что среднее в генеральной совокупности больше 100. Давайте на нашем примере рассмотрим, как каждый из указанных выше четырех факторов может увеличить мощность, считая, что факторы могут меняться только по одному. 1. Если увеличить до 0,1, то критическое значение было бы меньше (смесα влево), и мощность бы увеличилась, тогда как вероятность ошибки II рода уменьшилась бы (площадь под кривой левее критического значения стала бы меньше). 2. Если бы увеличилась величина эффекта, например среднее значение для «альтернативной» генеральной совокупности было бы 120, а не 115, то распределение этой генеральной совокупности сместилось бы вверх. В результате снизилась бы вероятность ошибки II рода и увеличилась мощность. 3. Если уменьшилось бы стандартное отклонение, то распределения этих двух генеральных совокупностей были бы более узкими (сильнее сгруппированными вокруг среднего), таким образом, они бы меньше пересекались. Это бы привело к снижению вероятности ошибки II рода и увеличению мощности. 4. Если бы объем выборки увеличился, то эффект был бы сходен с уменьшением стандартного отклонения, что привело бы к снижению вероятности ошибки II рода и увеличению мощности. Один из хороших способов познакомиться с влиянием разных факторов на мощность – это поэкспериментировать с графическим калькулятором мощности; в качестве примера такого калькулятора можно привести «Приложение для вычисления мощности» (Statistical Power Applet, http://wise.cgu.edu/power_applet/ power.asp), созданное Клермонтским университетом (Claremont Graduate University). размера выборки Как было упомянуто выше, каждый тип вычислений мощности или необходимого размера выборки требует использования подходящей формулы. Однако если понять принципы планирования научных исследований и анализа мощности, то найти нужную формулу будет несложно. Здесь приведены два простых примера вычисления объема выборки, поскольку они хорошо иллюстрируют принципы этого процесса и могут быть выполнены при помощи ручного калькулятора. Доверительный интервал для процентов Одна из распространенных задач – это определение размера выборки, необходимой для вычисления процентов с приемлемой точностью. Например, вы можете 405 Вычисление размера выборки вычислять степень согласия между разными сотрудниками, которые анализируют медицинские карты, в процентах с точностью до 5%. Или же вы проводите анализ доли взрослых людей в популяции, которые сделали прививку от гриппа, и хотите оценить долю иммунизированных людей с точностью до 10%. В этом случае анализ мощности не проводится, поскольку нет гипотезы, которую нужно проверять, однако размеры выборки вычисляются, потому что нужно определить минимальный размер выборки, необходимый для получения заданного уровня точности. Формула, используемая для вычисления двустороннего доверительного интервала, приведена на рис. 15.39. Рис. 15.39. Формула для вычисления объема выборки для двустороннего доверительного интервала заданного уровня точности для процентного соотношения В этой формуле: n – это необходимый объем выборки, (греческая буква «пи») – предполагаемое процентное соотношение в генеπ совокупности, – значение стандартного нормального распределения, соответствующее поZ уровня α, (греческая буква «омега») – половина ширины нужного доверительного инω (если мы используем доверительный интервал в 10%, то половина его ширины – это 5%). Мы хотим вычислить двусторонний доверительный интервал для = 0,05, так α что = 1,96. Мы считаем, что = 0,8, и нам нужен доверительный интервал в 10% Z π (0,10), так что = 0,05. Подстановка этих значений в уравнение даст результат, ω приведенный на рис. 15.40. Рис. 15.40. Вычисление объема выборки для двустороннего доверительного интервала заданного уровня точности для процентного соотношения Мы округляем эту оценку до 246, поскольку обычно долей объектов не существует! Так что нам нужно исследовать 246 объектов, при условии что наша оценка значения верна, чтобы получить 95%-ный доверительный интервал шириной в π 0,10 (0,05 меньше оц ами при величине эффекта, равной 0,5. 407 Упражнения Как лгать при помощи процентов? Вы не можете проработать в области статистики достаточно долго без того, чтобы кто-то не показал свою образованность, процитировав в какой-нибудь форме афоризм, приписываемый английскому политику Бенджамину Дизраэли (Benjamin Disraeli) и популяризированный в США Марком Твеном, о том, что существует три вида лжецов: лжецы, отъявленные лжецы и статистики. Существует даже популярная книга Даррелла Хуфа (Darrell Huff) «Как лгать при помощи статистики» («How to Lie with Statistics» (Norton)), которую иногда называют самой востребованной книгой по статистике в мире. Одна из целей книги Хуфа, так же как и этой, – не научить вас лгать при помощи статистики, а помочь уличить других людей во лжи. Один из наиболее простых способов солгать (или ввести кого-либо в заблуждение, если вы предпочитаете такую формулировку) при помощи статистики – это привести проценты без указания исходных данных, технология, полюбившаяся политикам, но не только им. Например, если вы услышите, что частота заболеваний холерой в США увеличилась на 100%, вы можете считать это поводом для беспокойства, пока не узнаете, что речь идет об увеличении с одного случая до двух. Аналогичным образом 50%-ное увеличение риска возникновения рака от какого-либо редкого воздействия (влияющего, скажем, лишь на 15 человек во всей стране) не так значимо для здоровья нации, как 5%-ное увеличение риска для обычного воздействия (которое может повлиять на миллионы людей). Проценты также могут вводить в заблуждение, поскольку люди часто забывают о том, что увеличение и уменьшение процентов несимметрично. Если число выпускников определенного колледжа в один год увеличится на 10%, а в следующий год уменьшится на 10%, число выпускников не будет равно исходному. Предположим, изначально у нас было 100 000 выпускников. Увеличение их числа на 10% даст нам 110 000 человек. Уменьшение этого числа на 10% даст нам 99 000 (110 000 0,9) человек, это меньше × исходного значения. Упражнения Вот ряд вопросов, которые помогут вам освежить в памяти темы, затронутые в этой главе. Задача Классический пример использования таблиц сопряженности в эпидемиологии – это исследование вспышки пищевых отравлений. Если много людей отравилось после посещения ресторана, департамент здравоохранения организует исследование с целью выявить пищу, которая послужила причиной отравления. Это осложняется тем, что заболевшие люди, возможно, ели несколько блюд, а некоторые люди, которые ели то же самое, остались здоровыми. Один из подходов к этой проблеме – это опросить потребителей о том, что они ели и были ли у них симптомы отравления. Затем данные представляют в виде серии таблиц сопряженности, таких как табл. 15.16 и 15.17, в которых в роли воздействия выступает определенный тип пищи, а в роли болезни – пищевое отравление. Вычислите отношение рисков для двух указанных блюд и обоснуйте свое решение о том, какое из этих блюд, скорее всего, послужило причиной отравления. 408 Глава 15. Статистика в медицине и эпидемиологии Таблица 15.16. Таблица сопряженности для употребления ростбифа и пищевого отравления Есть заболевание Нет заболевания Есть воздействие 15 85 Нет воздействия 20 80 Таблица 15.17. Таблица сопряженности для употребления салата из цыпленка и пищевого отравления Есть заболевание Нет заболевания Есть воздействие 80 20 Нет воздействия 20 80 Решение Отношение рисков для ростбифа вычислено на рис. 15.44. ОР Рис. 15.44. Вычисление отношения рисков для употребления ростбифа и пищевого отравления Отношение рисков для салата из цыпленка вычислено на рис. 15.45. ОР Рис. 15.45. Вычисление отношения рисков для употребления салата из цыпленка и пищевого отравления Если рассматривать только эти два блюда, то, похоже, виновником отравления был салат из цыпленка, поскольку люди, которые его ели, в четыре раза чаще испытывали симптомы пищевого отравления, чем те, кто не притрагивался к салату. Ростбиф оказывал слабый благотворный эффект, возможно, поскольку те, кто ел ростбиф, с меньшей вероятностью ели еще и салат из цыпленка. Шансы отравления у тех, кто ел ротбиф, были на три четверти ниже, чем у тех, кто не ел его. Задача Вычислите отношение шансов и доверительный интервал для данных исследования случай–контроль о связи использования оральных контрацептивов и рака легких (табл. 15.18). Таблица 15.18. Таблица сопряженности для употребления оральных контрацептивов и рака легких Есть заболевание Нет заболевания Есть в та Стьюдента с независимыми выборками ГЛАВА 16. Статистика в образовании и психологии Многие статистические методы, используемые в образовании и психологии, обычны в других областях исследований, к ним относится тест Стьюдента (разобран в главе 6), различные регрессионные модели и дисперсионный анализ (обсуждаются в главах 8–11) и тест хи-квадрат (предмет главы 5). Обсуждение теории измерений, приведенное в первой главе, также полезно, поскольку в большинстве исследований в области образования и психологии задействованы конструкты, которые не могут быть измерены напрямую и не имеют очевидных единиц измерения. Примерами таких конструктов служат предрасположенность к техническим специальностям, самоэффективность 1 и устойчивость к переменам. В этой главе акцент сделан на статистические методы, используемые в которая психометрике, имеет дело с созданием, оценкой валидности и применением тестов и измерений человеческого интеллекта, знаний, умений и психологических характеристик, таких как личные качества. Первый вопрос, который у вас может возникнуть в связи с использованием статистики в образовании и психологии, – зачем это вообще нужно. В конце концов, разве каждый из нас – не уникальная личность, и разве смысл образования и психологии не заключается в том, чтобы принимать каждого человека во всем богатстве его индивидуальности вместо сведения его к набору чисел или сравнения с остальными людьми? Это ценное соображение, которое учитывает то, что уже знают все, кто работает с людьми: исследование людей во многих отношениях значительно сложнее, чем работа в точных науках или на производстве, поскольку люди бесконечно разнообразнее химических молекул или орехов 2 . Изменчивость и индивидуальность людей особенно затрудняет связанные с ними исследования. Верно также, что хотя некоторые исследования в области образования и психологии проводятся для формулировки общих суждений о группах людей, значительная часть этих исследований направлена на понимание и помощь отдельным индивидуумам, каждый из которых характеризуется своими социальными особенностями, семей1 Вера в эффективность собственных действий. – Прим. пер. 2 Автор явно недооценивает сложность других живых систем. – Прим. пер. 412 Глава 16. Статистика в образовании и психологии ными историями и другими контекстуальными сложностями, что сильно затрудняет сравнение одного человека с другим. Однако стандартные статистические процедуры могут быть полезны даже при весьма специфических обстоятельствах, таких как разработка подходящего образовательного плана для одного студента или психотерапевтического режима для одного пациента. Принимать подобные решения сложно, но это было бы еще сложнее без использования стандартных образовательных или психологических тестов, позволяющих получить числовые значения, которые можно сравнивать с соответствующими значениями для других людей. Никто не предлагает в подобных ситуациях руководствоваться лишь формальными стандартизованными тестами и анкетами; в образовании и психологии большую роль также играют интервью и наблюдения. Однако к преимуществам использования формальных процедур тестирования и стандартизованных тестов относятся следующие соображения: 1. Объективные сравнения облегчаются при использовании нормативной группы. Например, испытывает ли данный восстанавливающийся после травмы пациент больше побочных эффектов, чем это обычно наблюдается у людей, восстанавливающихся после подобной травмы? Сравнимы ли навыки чтения данного ученика с навыками других учеников его возраста и года обучения? 2. Стандартизированное тестирование позволяет быстро получить результаты; не нужно ждать конца учебного года, чтобы выяснить, какие ученики испытывают проблемы из-за плохого владения языком, и незачем устраивать продолжительные интервью или обследования, чтобы понять, что пациент страдает от серьезных проблем с памятью. 3. Стандартизированные тесты предъявляются в определенных условиях и могут считаться объективными, так что единственный параметр, который оценивается, – это способности ученика или пациента, а не его внешность, коммуникабельность (если она не имеет отношения к исследуемому параметру) или прочие не относящиеся к делу факторы. 4. Многие стандартизированные тесты не требуют высокой квалификации для их проведения (в отличие, например, от клинических интервью) и могут быть предъявлены нескольким людям одновременно, что делает тесты особенно полезными в скрининговых исследованиях. Перцентили Во многих странах школьников оценивают при помощи тестов, результаты которых выражаются в один школьник может характеризоваться 70-м перцентилях; перцентилем по чтению и 85-м перцентилем по математике, тогда как другой школьник имеет 80-й перцентиль по чтению и 95-й – по математике. Перцентили – это вид оценки, называемой так, поскольку индивисоотнесенной с нормой дуальный балл помещен в контекст то есть людей, сходных с нормальной группы, тем, кто выполняет тест. Для школьников это обычно другие дети, которые учатся в этом классе в данной стране. Соотнесенная с нормой оценка используется при 413 Перцентили любом тестировании, в котором относительный результат человека (по сравнению с определенной группой) важнее абсолютного. Перцентили для результата отдельного человека – это доля людей в нормальной группе, которые имели более низкий результат, так что перцентиль 90 означает, что 90% нормальной группы показали худший результат. Здесь на примере мы кратко объясним, как найти перцентили для результатов экзамена, который сдавали 100 студентов. (На экзаменах национального масштаба нормальная группа будет намного больше, а изменчивость результатов будет выше, но этот пример иллюстрирует саму идею.) Первый шаг – это перевод исходных результатов в перцентили для создания частотной таблицы, в которую входит столбец с суммарным процентом, как показано в табл. 16.1. Для нахождения перцентиля для отдельного результата используйте суммарный процент для ближайшего предыдущего результата (расположенного в таблице на строку выше). В данном примере человек, получивший 96 баллов на экзамене, характеризуется 75-м перцентилем (это значит, что 75% студентов получили баллы ниже 96), а человек с 85 баллами характеризуется 25-м перцентилем. Сотого перцентиля нет, поскольку, рассуждая логически, 100% человек, выполнявших тест, не могли получить баллы ниже тех, что вошли в таблицу. Однако нулевой перцентиль присутствует; он соответствует человеку, набравшему 53 балла, поскольку никто не получил более низкого балла. Таблица 16.1. Баллы, полученные 100 студентами за экзамен Балл Частота Процент Суммарный процент 53 1 1.0% 1.0% 55 2 2.0% 3.0% 58 1 1.0% 4.0% 61 2 2.0% 6.0% 65 3 3.0% 9.0% 67 1 1.0% 10.0% 70 2 2.0% 12.0% 71 3 3.0% 15.0% 78 2 2.0% 17.0% 80 4 4.0% 21.0% 82 2 2.0% 23.0% 84 2 2.0% 25.0% 85 5 5.0% 30.0% 86 4 4.0% 34.0% 88 3 3.0% 37.0% 90 5 5.0% 42.0% 91 7 7.0% 49.0% 414 Глава 16. Статистика в образовании и психологии Балл Частота Процент Суммарный процент 92 8 8.0% 57.0% 93 7 7.0% 64.0% 94 5 5.0% 69.0% 95 6 6.0% 75.0% 96 4 4.0% 79.0% 97 3 3.0% 82.0% 98 7 7.0% 89.0% 99 6 6.0% 95.0% 100 5 5.0% 100.0% При использовании стандартизированных тестов на национальном уровне нормальная группа, используемая для определения перцентилей, гораздо больше, и, как правило, вычислять перцентили для отдельных студентов не требуется. Вместо этого разработчик теста обычно предоставляет шкалу для перевода исходных баллов в перцентили. Стандартизированные баллы также называемые или Стандартизированные баллы, нормализованными баллами, Z-значением, выражают исходные баллы в числе стандартных отклонений выше или ниже среднего. Это преобразует исходные баллы так, что их можно оценить, соотнося со стандартным нормальным распределением, которое подробно обсуждается в третьей главе. Стандартизированные баллы часто используются в образовании и психологии, поскольку они помещают результаты в общий контекст, и, таким образом, их можно считать разновидностью оценки. соотнесенной с нормой Для часто используемых шкал, таких как шкала Вичслера для оценки интеллекта взрослых людей (Wechsler Adult Intelligence Scale, W AIS), средние значения и стандартные отклонения известны и могут быть использованы при вычислениях; для этой шкалы среднее равно 100, а стандартное отклонение – 15. Для преобразования исходных баллов в стандартизированные используйте формулу, приведенную на рис. 16.1. Рис. 16.1. Формула для вычисления Z-значения В этой формуле: – это исходное значение, X μ – это среднее значение для генеральной совокупности, а σ – это стандартное отклонение для генеральной совокупности. Преобразование в Z-значения позволяет разместить все результаты на общей шкале, у которой в случае стандартного нормального распределения среднее 415 Стандартизированные баллы равно 0, а дисперсия – 1. Кроме того, распределение Z-значений имеет известные свойства нормального распределения. (Например, около 66% значений будут находиться в пределах одного стандартного отклонения от среднего.) Мы можем преобразовать исходное значение шкалы W AIS, равное 115, в Z-значение, как показано на рис. 16.2. Рис. 16.2. Вычисление Z-значения Используя таблицу для стандартного нормального распределения (Z-распределения), приведенную на рис. D.3 из приложения D, мы видим, что Z-значение 1 свидетельствует о том, что 84,1% участников получили такие же или меньшие баллы, как данный испытуемый. Для примера давайте представим, что мы также проводим тест на математические способности, который характеризуется средним значением 50 и стандартным отклонением 5. Если какой-то человек получил 105 баллов по тесту W AIS (рис. 16.3) и 60 – по тесту на математические способности (рис. 16.4), мы можем легко сравнить эти результаты, используя Z-значения. Рис. 16.3. Вычисление Z-значения (тест WAIS) Рис. 16.4. Вычисление Z-значения (тест на математические способности) Эти Z-значения свидетельствуют, что интеллект тестируемого немного выше среднего, а его математические способности заметно превышают средние. Некоторым кажется, что стандартизированные баллы сбивают с толку, в частности потому, что человек может иметь нулевое или отрицательное значение (а в стандартном нормальном распределении половина значений меньше среднего и поэтому отрицательные). Поэтому Z-значения иногда конвертируют в T-значения с использованием более интуитивно понятной шкалы, со средним значением 50 и стандартным отклонением 10. Преобразование Z-значений в T-значения можно выполнить при помощи следующей формулы: T = Z(10) + 50. Если у человека Z-значение равно 2,0 (что означает, что его или ее результат на два стандартных отклонения выше среднего), его можно преобразовать в T-значение следующим образом: T = (2,0 10) + 50 = 70. × Аналогичным образом Z-значение –2,0 соответствует T-значению 30. По- скольку вряд ли чей-нибудь результат б anine. язык отсутствует. – Прим. пер. 417 Разработка тестов Станайны можно вычислить, зная Z-значения, по следующей формуле: Станайн = (2 Z) + 5. × Значения станайнов округляют до ближайшего целого числа; половинные значения округляют в меньшую сторону. Предположим, у нас есть Z-значение –1,60. Его преобразуют в станайн 2, как показано ниже: Станайн = (2 –1,60) + 5 = 1,8. × Ближайшее целое число – это 2, и это соответствует значению станайна, приведенному в табл. 16.2 для Z-значения –1,60. Z-значение 1,60 соответствует станайну 8, поскольку: Станайн = 2(1,60) + 5 = 8,2. Ближайшее целое число 8, и это значение станайна соответствует приведенному в табл. 16.2 для Z-значения 1,60. Разработка тестов Многие тесты в психологии и образовании используются для так называемого объект-центрированного измерения, задача которого – разместить индивидуумов в континууме, руководствуясь определенными характеристиками, такими как способность к изучению языков или ревность. Создание и валидация теста – это огромный объем работы. (Когда я училась в магистратуре, студентам запрещали писать диссертацию, для которой нужно было создавать и апробировать новый тест, поскольку боялись, что в таком случае они никогда не защитятся.) Бремя по убеждению всех коллег в осмысленности результатов теста полностью лежит на его создателе. Таким образом, первый шаг для любого человека, который начинает работать в новой для него области, – проверить, не подходят ли ему уже существующие и апробированные тесты. Однако, особенно если вы работаете в новой области или с группой, которой до этого пренебрегали, для ваших задач может не существовать подходящего теста. В этом случае единственный выход – создать и опробовать новый тест. Тесты могут быть и Сосоотнесенными с нормой соотнесенными с критерием. отнесенные с нормой тесты мы уже обсудили; их цель – поместить индивидуума в контекст определенной группы. Напротив, цель соотнесенного с критерием теста – сравнить индивидуума с некоторым абсолютным стандартом, скажем, чтобы понять, приобрел ли он минимальную заранее заданную компетентность по учебному предмету. В соотнесенных с критерием тестах каждый выполнивший тест может получить высший балл, или же все могут получить низший балл, поскольку испытуемых оценивают путем сравнения с некоторым заранее заданным стандартом, а не друг с другом. Хотя результаты соотнесенных с критерием тестов могут быть непрерывной переменной (например, число в диапазоне от 1 до 100), часто также определяют (одно число), так что каждый, кто получил пороговое значение пороговое или более высокое число баллов, считается прошедшим испытание, а получившие меньше баллов – нет. 418 Глава 16. Статистика в образовании и психологии Большинство тестов состоит из множества отдельных пунктов (обычно письменных вопросов), которые комбинируют (часто просто суммируя), чтобы получить за тест. Например, тест на владение языком может состоять из общий 100 вопросов, за правильный ответ на каждый из которых начисляется 1 балл, а за неправильный – 0. Общий балл за тест для каждого человека можно вычислить, просуммировав баллы за правильные ответы. Во многих статистических процедурах, используемых для анализа тестов, приходится иметь дело со связью между отдельными вопросами и связью между отдельными вопросами и общим баллом. Хотя общие баллы за тесты широко используются, они могут сбивать с толку при оценке способностей или достижений. Одна трудность заключается в том, что обычно все вопросы имеют одинаковый вес по отношению к общему баллу, хотя не все они могут быть одинаково сложными. Различие между человеком, который проваливает некоторые простые вопросы, но правильно отвечает на более сложные, и человеком, верно отвечающим на простые вопросы и пасующим перед сложными, теряется, если общий балл получают простым суммированием баллов за разнородные вопросы. Среднее значение и дисперсия для дихотомических вопросов (на которые можно ответить верно или неверно) вычисляются с использованием значения сложности вопроса, обозначаемого как p. Сложность вопроса – это доля испытуемых, правильно ответивших на него. Если группа, используемая для оценки сложности вопроса, состоит из человек, вычисляется для одного вопроса (j), как показано N p на рис. 16.5. число людей, правильно ответивших на вопрос j N Рис. 16.5. Формула для вычисления сложности вопроса Если ответы на дихотомические вопросы оцениваются как 0 или 1 (0 – неверный ответ, 1 – верный), то среднее – это то же самое, что и доля людей, правильно ответивших на вопрос (рис. 16.6). Рис. 16.6. Формула для вычисления сложности дихотомических вопросов В этой формуле X – это отдельные вопросы, а N – число испытуемых. j Дисперсию для отдельного дихотомического вопроса можно вычислить, как показано на рис. 16.7. Рис. 16.7. Формула росы высоко скоррелированы, поскольку 420 Глава 16. Статистика в образовании и психологии это приводит к большим ковариациям между ними. При прочих равных условиях более высокая дисперсия возникает при средней сложности вопросов (p = 0,5), сильно скоррелированных между собой. Классическая теория тестов: модель истинных баллов В идеальном мире все тесты были бы абсолютно надежными. Это значит, что если одинаковых людей несколько раз протестировать при одинаковых условиях на предмет какой-либо устойчивой характеристики, то они каждый раз получили бы одинаковые баллы, а систематическая ошибка (ее определение дано позже) при определении баллов отсутствовала бы. В таком случае мы могли бы с уверенностью утверждать, что идентичны и что наблюдаемые баллы истинным баллам наблюдаемые баллы адекватно отражают реальные показатели человека, вне зависимости от того, какую характеристику оценивает данный тест. Однако в реальном мире наблюдаемые баллы зависят от многих факторов, и повторяющиеся тесты, выполненные одним и тем же человеком, часто дают разные результаты. По этой причине мы должны осознавать различие между истинными и наблюдаемыми баллами. Мы делаем это, вводя понятие ошибки измерения, которая соответствует разнице между наблюдаемым и истинным результатами. Ошибка измерения может быть случайной или систематической. Случайная – это результат случайных обстоятельств, таких как температуошибка измерений ра в комнате, различия в процедуре проведения теста или колебания настроения или внимательности испытуемого. Мы не ожидаем, что случайная ошибка будет смещать результаты теста в том или ином направлении. Случайная ошибка делает измерения менее точными, но не изменяет результатов определенным образом, поскольку ожидается, что она увеличивает значения в одном случае и уменьшает в другом, таким образом, самоуничтожаясь при достаточно большом числе испытаний. Из-за существования большого числа потенциальных источников случайной ошибки мы не можем надеяться на полное избавление от нее, но нам требуется уменьшить ее, насколько это возможно, чтобы повысить точность наших измерений. С другой стороны, смещает результаты в систематическая ошибка измерений определенном направлении, но не имеет ничего общего с исследуемым конструктом. В качестве примера можно привести ошибку измерений во время экзамена по математике, вызванную плохим знанием языка, в результате чего экзаменуемый не смог правильно прочесть указания по выполнению заданий. Систематическая ошибка – это источник искажения результата, и от нее при тестировании нужно по возможности избавляться. Психолог Чарльз Спирмен (Charles Spearman) сформулировал классические понятия истинных и наблюдаемых значений в начале XX века. Спирмен описал наблюдаемое значение (результат, который реально получает испытуемый X при тестировании), которое состоит из истинной составляющей (T) и случайной ошибки (E): 421 Надежность теста X = T + E. Подразумевается, что при бесконечно большом числе испытаний случайный компонент самоуничтожается, так что среднее или ожидаемое значение наблюдаемых результатов становится равным истинному результату. Для испытуемого это j можно записать в таком виде: T = E(X ) = μ j j X , j где T – истинное значение для испытуемого j, E(X ) – ожидаемое значение для j j этого испытуемого, наблюдаемое при бесконечно большом числе испытаний, а μ – среднее наблюдаемое значение для этого испытуемого при тех же условиях. X j Таким образом, ошибка – это разница между наблюдаемым и истинным значениями для испытуемого: = – E X T . j j j Ожидаемое значение ошибки для одного испытуемого при бесконечно большом числе тестирований равно 0. Поскольку в этом определении «ошибка» означает только случайную ошибку, считается, что истинное значение и ошибка имеют следующие свойства: • для генеральной совокупности испытуемых среднее значение ошибки равно 0; • для генеральной совокупности испытуемых корреляция между истинным значением и ошибкой равна 0; • корреляция между ошибками для двух случайно выбранных испытуемых, выполняющих два варианта одного и того же теста или проходящих независимо одно и то же тестирование, равна 0. Надежность теста Когда мы предъявляем тест определенному человеку, мы беспокоимся и о том, насколько полученный результат отражает истинный результат этого человека. Используя принятую у теоретиков терминологию, нас интересует индекс надежности, который рассчитывается как отношение стандартного отклонения для истинных значений к стандартному отклонению наблюдаемых значений (рис. 16.10). Рис. 16.10. Формула для вычисления индекса надежности σ В этой формуле – это стандартное отклонение для истинных значений в геT совокупности экзаменуемых, а – это стандартное отклонение для X полученных ими баллов. Надежность теста иногда описывают как долю общей изменчивости результатов теста, которую можно объяснить истинной изменчивостью (противопоставленной ошибке). 422 Глава 16. Статистика в образовании и психологии На практике истинные баллы неизвестны, так что индекс надежности нужно оценивать при помощи наблюдаемых баллов. Один способ сделать это – провести два параллельных теста для одной и той же группы экзаменуемых и использовать корреляцию между результатами по двум вариантам теста, называемую коэффицикак оценку индекса надежности. Параллельные тесты должны ентом надежности, удовлетворять двум условиям: и одинаковая сложность одинаковая изменчивость. Коэффициент надежности – это оценка отношения дисперсии истинных значений к наблюдаемой дисперсии значений, его можно интерпретировать просто как коэффициент детерминации (r ) обобщенной линейной модели. Если тест ха2 коэффициентом надежности 0,88, мы можем интерпретировать это как то, что 88% дисперсии наблюдаемых значений объясняются изменчивостью истинных значений, а оставшиеся 0,12 или 12% должны быть отнесены на счет случайной ошибки. Для вычисления корреляции между истинными и наблюдаемыми результатами этого теста нужно извлечь квадратный корень из коэффициента надежности, так что для данного теста корреляцию между истинными и наблюдаемыми баллами можно оценить как –0,88 или 0,938. Коэффициент надежности можно оценить несколькими способами. Если мы оцениваем коэффициент надежности, предъявляя один и тот же тест тем же экзаменуемым дважды, это называется а корметодом повторного тестирования, реляция между значениями теста в этом случае называется коэффициентом устойчивости. Мы также можем оценить коэффициент надежности, предложив два эквивалентных варианта теста тем же самым испытуемым в той же ситуации; это а коэффициент корреляции между результатаметод альтернативной формы, ми называется (коэффициент коэффициент эквивалентности теста надежности Если используются и разные варианты теста, и разные альтернативных форм). условия, то корреляцию между результатами в этом случае называют коэффициентом устойчивости и эквивалентности. Поскольку этот коэффициент имеет два источника ошибок, и в целом для данной варианты теста условия тестирования, группы испытуемых его значения должны быть ниже и коэффициента устойчивости, и коэффициента эквивалентности. Показатели внутренней непротиворечивости Другой подход к оценке надежности – это использование показателей внутренней непротиворечивости, которые можно вычислить после однократного применения теста одной группе испытуемых. Показатели непротиворечивости используются для оценки надежности, поскольку в составные тесты входит несколько вопросов, выбранных из множества возможных вопросов. Оценка внутренней непротиворечивости – это предсказание, насколько сходными будут результаты одного человека, если он ответит на другие вопросы из того же множества. Рассмотрим задачу по разработке теста для проверки знаний ученика по курсу алгебры за среднюю школу. Первый шаг при разработке такого теста – это решить, 423 Показатели внутренней непротиворечивости какие темы включить в него. Затем будет составлен перечень вопросов, которые позволят оценить знания ученика по этим темам. Часть этих вопросов будет использована в окончательном варианте теста. Цель такого экзамена – не просто понять, насколько хорошо ученик справляется с вошедшими в тест заданиями, но и как он в целом освоил всю программу по алгебре за курс средней школы. Если вошедшие в тест вопросы представляют адекватную выборку из содержания курса, то результат тестирования будет надежным показателем овладения материалом учениками. Однородность вопросов – это также ценная характеристика такого рода теста, поскольку это показатель того, что все вопросы проверяют одинаковое содержание и не имеют технических недостатков, таких как неудачная формулировка или неверный учет результатов, вследствие чего успех выполнения данного задания будет не связан с успехами в алгебре. «Натаскивание» на тесты В некоторых ситуациях ученикам нужно выполнять ряд тестов (так называемых итоговых, или ключевых, тестов), которые используются для определения, можно ли им перейти на следующую ступень обучения в школе (например, перейти из пятого класса в шестой) или закончить этап обучения (например, среднюю школу). Поскольку ясно, что администрация и учителя заботятся, чтобы их ученики хорошо справились с тестами, некоторые школы выделяют часть учебного времени специально для подготовки к экзаменам. (Помимо беспокойства за качество образования учеников, учителей и администрацию также могут оценивать по результатам выполнения этих тестов их учениками.) Если задача заключается в том, чтобы добиться более высоких успехов при выполнении теста, а не улучшить свои знания и умения по предмету, то это часто называется «натаскиванием» на тест. Например, ученики могут посвящать свое время выполнению заданий именно в том формате, который будет использован в предстоящем тесте, или свести свое обучение к известному кругу задач или информации, которые войдут в тест, вместо изучения разнообразных тем и применения умений многими способами. Что же не так с «натаскиванием» на тест? Проблема заключается в том, что проверяющие учебные достижения тесты основаны на допущении, что входящие в них вопросы представляют случайную выборку из всех возможных вопросов по предмету и что успешность выполнения предъявленных заданий данного теста – хороший показатель общего овладения материалом. Если это допущение выполняется, то результаты ученика для другой выборки вопросов будут сходными. Это допущение не выполняется, если ученики и учителя знают заранее, какие вопросы войдут в тест, и готовятся только к ним; в этом случае по результатам теста невозможно судить об овладении всем материалом по теме. Предположим, что мы проверяем знания учеников по математике. Одна из тем – это доказательства в геометрии; студенты должны уметь формулировать двурядные доказательства данной теоремы. Если ученикам преподавали общий метод формулировки доказательств, то их знания в равной степени применимы ко всем заданиям на доказательства в данном тесте, так что их результаты выполнения теста должны быть хорошим показателем их общих успехов в данном разделе математики. Однако если их учитель заметил, что из года в год на экзаменах спрашивают только несколько типов доказательств, он может просто добиваться, чтобы ученики запомнили, как формулировать данные типы доказательств. Это пример «натаскивания» на тест. В данном случае способность учеников формулировать те доказательства, которые они запомнили, не обязательно связана со способностью формулировать другие типы доказательств. Таким образом, невозможно по результатам данного теста судить об их общей спо я этих данных показано на рис. 16.15. 426 Глава 16. Статистика в образовании и психологии Рис. 16.15. Вычисление альфы Кронбаха Для вычисления коэффициента альфа существует несколько формул Кюдера–Ричардсона; две из них, которые разумно использовать для дихотомических вопросов, приведены ниже. Обратите внимание на то, что формула KR-21 – это упрощенный вариант формулы KR-20; она подразумевает, что все задания имеют одинаковую сложность. KR-20 и KR-21 дают идентичные результаты при одинаковой сложности заданий; если это не так, то KR-21 дает более низкие результаты по сравнению с KR-20. Формула KR-20 приведена на рис. 16.16. Рис. 16.16. Формула Кюдера–Ричардсона, вариант KR-20 ˆ 2 Здесь – это число вопросов, – сложность данного задания, – общая дисk для всего теста. Обратите внимание на то, что формула KR-20 идентична формуле для вычисления альфы Кронбаха, за исключением того, что дисперсия для отдельного задания выражена по-другому, чтобы учесть тот факт, что KR-20 используется для дихотомических вопросов. Формулу KR-20 можно упростить, допустив, что все вопросы имеют одинаковую сложность, так что не нужно вычислять дисперсии для отдельных вопросов, а затем суммировать их. Такое упрощение позволяет получить формулу KR-21 (рис. 16.17). Рис. 16.17. Формула Кюдера–Ричардсона, вариант KR-21 Здесь k – это число вопросов, µ ˆ – сложность данного задания (часто оценивает2 как X), σ – общая дисперсия для всего теста (часто оценивается как s 2 ). X X Анализ заданий При подготовке тестов часто создают большой пул заданий, проверяют их на испытуемых, сходных с теми, для кого этот тест предназначен, и формируют окончательный набор заданий, которые вносят наибольший вклад в валидность и надежность теста. – это набор процедур, используемых для проведения Анализ заданий тестов и описания ответов испытуемых на рассматриваемые вопросы, включая распределение ответов на каждый вопрос и связь между ответами на каждый вопрос и другими критериями. 427 Анализ заданий Прежде всего при анализе заданий рассчитываются среднее и дисперсия для каждого задания. Для дихотомических заданий среднее – это также доля испытуемых, правильно ответивших на вопрос, она называется сложностью задания, или как говорилось выше. Общий результат за тест для одного испытуемого – p, это сумма сложностей всех заданий, что равно сумме вопросов, на которые был дан правильный ответ. Среднее значение сложности задания – это сумма сложностей всех заданий, деленная на число заданий, как показано на рис. 16.18. Рис. 16.18. Формула для вычисления средней сложности заданий В этой формуле – сложность задания, а – общее число заданий. p i-го k i Поскольку сложность задания – это пропорция, дисперсия для отдельного задания вычисляется как σ 2 = p (1 – p ). i i i Часто выбирают задания с наибольшей дисперсией, чтобы увеличить эффективность теста для разграничения людей с разными способностями. Дисперсия максимальна, когда p = 0,5, в чем вы можете удостовериться, вычислив дисперсию для некоторых других значений p: σ 2 Если = 0,50, = 0,5(0,5) = 0,2500. p i σ 2 Если = 0,49, = 0,49(0,51) = 0,2499. p i σ Если p = 0,48, = 0,48(0,52) = 0,2496. i σ 2 Если = 0,40, = 0,40(0,60) = 0,2400. p i Учтите, что дисперсия для = 0,49 и = 0,51 одинакова, так же как и дисперсия p p для = 0,48 и = 0,52, и так далее. p p Во многих обычных форматах тестирования, особенно с множественным выбором, испытуемые могут улучшать свои результаты, пытаясь угадать ответ, если не знают его. Это значит, что значение p для вопроса будет выше, чем доля экзаменуемых, которые действительно знают проверяемый вопросом материал. Иначе говоря, наблюдаемые значения постоянно будут выше реальных, поскольку наблюдаемые значения завышаются при успешном угадывании. Поэтому, когда формат задания позволяет угадывать (например, в случае вопросов со многими вариантами ответа, когда неправильные ответы не штрафуются), при расчете наблюдаемой сложности задания необходим дополнительный шаг для максимизации дисперсии. Это достигают путем прибавления к сложности задания величины 0,5/m, где – это число вариантов ответа на данный вопрос. Эта формула подразумевает, m что все варианты ответа имеют равную вероятность быть выбранными, если экзаменуемый не знает правильного ответа. Наблюдаемая сложность задания , при p 0 которой предполагается, что истинная сл ляции для него показан на рис. 16.20. 430 Глава 16. Статистика в образовании и психологии Рис. 16.20. Расчет коэффициента бисериальной корреляции Бисериальная корреляция всегда выше, чем точечная бисериальная корреляция, вычисленная для тех же данных, и эти различия особенно заметны, если < 0,25 или > 0,75. Коэффициент бисериальной корреляции более предпочтитеp в качестве показателя сложности задания, когда подразумевается, что в основе дихотомических результатов выполнения задания лежит нормальное распределение, и задача состоит в выборе очень легких или очень сложных вопросов, или тест будет использован для экзаменуемых с очень разными способностями. Разобранный в главе 5 отражает связь между двумя дихотокоэффициент фи мическими переменными. Если переменные исходно не были дихотомическими, а были получены посредством преобразования непрерывной переменной с нормальным распределением значений (например, результат в виде сдал/не сдал, полученный при использовании порогового значения для непрерывной переменной), для них более предпочтителен коэффициент тетрахорической корреляции, поскольку диапазон фи ограничен при разной сложности заданий. Тетрахорические корреляции также используются при факторном анализе и моделировании структурных уравнений. Коэффициент тетрахорической корреляции редко рассчитывают вручную, но его вычисление предусмотрено в некоторых стандартных компьютерных программах для статистической обработки данных, включая SAS и R. Современная теория тестирования Хотя классическая теория тестирования до сих пор применяется в разных областях, современная теория тестирования (СТТ) (item response theory) 4 – это важный альтернативный подход. Каждый работающий в области психометрики должен быть знаком с СТТ, которая используется сейчас все шире, от медицины до криминологии. СТТ в дальнейшем, возможно, будет использоваться еще более активно, поскольку возможности ее применения предусмотрены в наиболее распространенных статистических программах. СТТ – это сложная тема, которую здесь можно лишь кратко описать; те, кто хочет познакомиться с ней подробнее, должны прочесть учебник (например, Hambleton, Swaminathan, Rogers, 1991). Список компьютерных программ для применения СТТ приведен на http://winsteps.com/ rasch.htm. СТТ избавлена от некоторых недостатков классической теории тестирования, главный из которых заключается в том, что методы классической теории не позволяют отделить характеристики экзаменуемого от характеристик теста. В рамках классической теории способности экзаменуемого выражаются в терминах конкретного теста, а сложность данного теста определяется при помощи отдельной 4 Общепринятый перевод этого термина на русский язык отсутствует. Иногда встречается название «теория текстовых заданий». – Прим. пер. 431 Современная теория тестирования группы испытуемых. Это происходит потому, что в классической теории сложность задания определяется как доля экзаменуемых, выполнивших это задание верно; для одной группы испытуемых данное задание может быть классифицировано как сложное, поскольку лишь несколько человек выполнили его верно, а для другой группы оно будет интерпретировано как легкое, потому что с ним справится большинство. Аналогичным образом по результатам одного теста экзаменуемая может считаться хорошо освоившей материал, поскольку она получила высокие баллы, а другой тест, явно основанный на том же материале, покажет, что она плохо овладела материалом, поскольку получила низкий балл. Из того, что оценки сложности задания и способностей экзаменуемого в классической теории тестирования переплетены, вытекает сложность адекватной оценки способностей экзаменуемых, которые выполнили разные тесты, или ранжирования заданий тестов, выполненных разными группами испытуемых, по сложности. В классической теории тестирования проводились попытки устранения этих проблем разными способами, такими как включение набора общих заданий в разные варианты теста, однако основная проблема остается. • Результаты выполнения определенного задания экзаменуемым можно объяснить теми его способностями, на проверку которых направлен тест, и способности считаются латентной, ненаблюдаемой переменной. • Связь между результатами выполнения определенного задания группой испытуемых и их способностями можно выразить при помощи характеризующей задание кривой (ХЗК) (item characteristic curve). Способности обычно обозначают греческой буквой «тета» (θ), а сложность задания выражают числом от 0 до 1. ХЗК изображают в виде сглаженной линии на графике, где по вертикальной оси отражают вероятность правильного ответа на вопрос, а по горизонтальной – способности экзаменуемого по такой шкале, где θ имеет среднее значение 0 и стандартное отклонение 1. ХЗК – это возрастающая функция, так что для более способных экзаменуемых (с высоким значением θ) предсказанное значение вероятности правильного ответа на вопрос будет всегда выше. Это показано на теоретической ХЗК (рис. 16.21). Модели СТТ обладают следующими достоинствами, по сравнению с классической теорией тестирования: 1. Модели СТТ соответствие этих моделей данным можно фальсифицируемы; оценить и определить, насколько конкретная модель подходит для определенных данных. 2. Оценка способностей экзаменуемого не зависит от теста; она проводится на основании общего показателя, что позволяет сравнивать испытуемых, выполнявших разные тесты. 3. Оценка сложности задания не она проводится зависит от экзаменуемого; на основании общего показателя, что позволяет сравнивать задания, выполнявшиеся разными группами. 4. В рамках СТТ для результатов каждого испытуемого вычисляются стандартные ошибки, а не предполагает уровня псевдослучайности. Это нижняя 435 Упражнения асимптота для ХЗК, которая показывает вероятность случайно выполнить задание правильно экзаменуемыми с низкими способностями. Этот параметр часто называют параметром угадывания, поскольку для слабых экзаменуемых единственный способ ответить правильно на сложный вопрос – это угадать ответ. Однако часто c i меньше, чем ожидается при случайном угадывании, поскольку составители тестов умеют придумывать неправильные ответы, которые покажутся верными слабым ученикам. ХЗК для логистической модели с тремя параметрами вычисляется при помощи следующей формулы: . Модель с тремя параметрами изображена на рис. 16.24; в нее включен достаточно высокий параметр угадывания, на что указывает тот факт, что кривая пересекает ось в районе значения 0,2. Это значит, что человек с очень низким примерно y θ с 20%-ной вероятностью выполнит задание верно. 1.00 0.75 P(X) 0.50 0.25 0.0 -3 -2 -1 0 1 2 3 Рис. 16.24. Кривая, характеризующая задание с достаточно высоким значением параметра угадывания Упражнения Здесь представлен ряд вопросов для повторения тем, рассмотренных в этой главе. данных, представленных в табл. 16.1: 1. Каков перцентиль для 80 баллов? 2. Какой балл имеет 75-й перцентиль? Решение Перцентиль можно найти, посмотрев на кумулятивную вероятность для следующего по величине балла (выше интересующего вас). Для нахождения балла, соответствующего заданному перцентилю, выполните обратное действие. 436 Глава 16. Статистика в образовании и психологии 1. Балл 80 соответствует 17-му перцентилю. 2. Балл 96 соответствует 96-му перцентилю. Задача Представьте себе, что вы работаете с опубликованным тестом со средним баллом 100 и дисперсией 400. Преобразуйте следующие баллы, полученные отдельными людьми, в Z-значения, T-значения и станайны. 1. 70. 2. 105. Решение 1. Для 70: = –1,5, = 35, а станайн = 2. Z T 2. Для 105: = 0,25, = 52,5, а станайн = 5. Z T Необходимые вычисления для значения 70 приведены на рис. 16.25 и ниже. Рис. 16.25. Вычисление Z-значения T = –1,5(10) + 50 = 35. = 2(–1,5) + 5 = 2,0. Станайн Необходимые вычисления для значения 105 приведены на рис. 16.26 и ниже. Рис. 16.26. Вычисление Z-значения T = 0,25(10) + 50 = 52,5. Станайн = 0,25(2) + 5 = 5,5; округляется вниз до 5. ГЛАВА 17. Управление данными Вы могли бы задаться вопросом, что делает глава об управлении данными в книге по статистике. Вот объяснение: использование статистики обычно подразумевает анализ данных, а надежность статистических результатов во многом зависит от надежности проанализированных данных, так что если вы будете использовать статистику, вам нужно знать что-то об управлении данными вне зависимости от того, будете ли вы заниматься этим сами или поручите кому-то другому. Довольно странно, что об управлении данными редко говорят на занятиях по статистике, так же как и во многих офисах и лабораториях; некоторые профессора и руководители проектов, похоже, верят, что данные волшебным образом преобразуются в подходящий вид без вмешательства человека. Однако люди, которые ежедневно работают с данными, имеют совсем другое мнение на этот счет. Многие описывают соотношение между управлением данными и их анализом при помощи правила 80/20, которое означает, что в среднем 80% времени, затраченного на работу с данными, уходит на их подготовку к анализу, и лишь 20% времени посвящено самому анализу данных. С моей точки зрения, управление данными обеспечивается как общим знанием проблемы, так и умением выполнить ряд специфических задач. Оба этих аспекта можно преподать и выучить, и, хотя некоторые люди действительно способны получить эти знания неформальным способом (методом проб и ошибок, так сказать), это не может быть хорошим обоснованием для того, чтобы пустить все на самотек. Напротив, более разумно – отнестись к управлению данными как к умению, которое, как и все прочие умения, можно приобрести, и нет никаких оснований пренебрегать коллективной мудростью, накопленной до вас. Качество анализа частично зависит от качества данных, факт, блестяще сформулированный программистами: «мусор на входе – мусор на выходе» (garbage in, garbage out, GIGO). Эта же концепция применима и к статистике; самый лучший статистик не может получить надежные результаты из данных, которые представляют собой кашу. Процесс сбора данных хаотичен по своей природе, и данные редко попадают к вам в идеальном виде готовыми к анализу. Это значит, что когда-то между сбором и анализом данных кто-то должен проделать грязную работу с самим файлом данных – проверку, реорганизацию и прочие действия по подготовке данных к анализу. Как правило, этот процесс не покрыт завесой тайны, однако он требует систематичного подхода, руководимого знанием свойств данных и спо- 438 Глава 17. Управление данными собов их дальнейшего использования, наряду с заинтересованным отношением, сопряженным со здравым смыслом. У аббревиатуры GIGO есть и другая расшифровка: «мусор на входе – убеждения на выходе». Эта фраза отражает огорчительную склонность некоторых людей верить в то, что все, что выдает компьютер, верно, что можно расширить до столь же огорчительного убеждения о том, что любые результаты, полученные при помощи статистических методов, должны быть истинными. К сожалению, в обоих случаях мы не можем избавиться от необходимости рассуждать; и компьютеры, и статистические методы могут давать бессмысленные результаты, если они основаны на неправильных данных. Простейшим примером является следующее: тот факт, что вы можете вычислить среднее и дисперсию для любого набора чисел (даже если они представляют собой номинальные или порядковые данные, например), не значит, что эти числа имеют смысл, не говоря уже о том, представляют ли они надежную общую характеристику данных. Использовать корректные данные и выбрать правильный метод их обработки – это задача аналитика, поскольку статистическая программа просто выполняет заданные вами операции и не может оценить ни качество данных, ни адекватность применяемой процедуры. Если ваш интерес ограничен изучением статистических процедур, вы можете захотеть пропустить эту главу. Аналогичным образом, если у вас нет практического опыта работы с данными, эта глава может показаться полностью абстрактной, и вам может захотеться лишь бегло ознакомиться с ней или отложить ее прочтение до того момента, когда вам придется реально иметь дело с данными. С другой стороны, при любых обстоятельствах вам может все равно показаться полезным понимать на базовом уровне, что происходит при управлении данными, и знать, что может произойти, если это не сделано правильно. Кроме того, всегда хорошо знать больше, чем это требуется при данных обстоятельствах, особенно учитывая, что смена специальности свойственна для современной жизни. Вы никогда не сможете предугадать, когда представление об управлении данными даст вам преимущество при поступлении на должность, а чтение этой главы должно помочь вам уверенно говорить на эту тему, возвышая вас над конкурентами. Кроме того, если управление данных войдет в круг ваших будущих обязанностей, сведения из этой главы помогут вам на базовом уровне понять, почему управление данными важно и как оно осуществляется. Общий подход, а не набор методов Поскольку для сбора, хранения и анализа данных используется множество методов и компьютерных программ, в одной главе невозможно дать инструкции по управлению данными, которые работали бы в любых обстоятельствах. Поэтому в данной главе мы сосредоточимся на к управлению данными, общих подходах включая рассмотрение общих для многих ситуаций вопросов наряду с общим описанием процесса приведения исходных данных к пригодному для анализа виду. Если бы мне нужно было дать один-единственный совет по управлению данными, он бы прозвучал так: ни на что не надейтесь. Не надейтесь, что файл с дан- 439 Кодификатор ными, который был вам предоставлен, – это именно тот файл, который вы должны анализировать. Не надейтесь, что все переменные были перенесены из одной программы в другую без потерь. (На одну только эту тему могут быть написаны целые тома, и каждая версия программы, похоже, несет новый набор проблем.) Не надейтесь, что качество ввода данных контролировалось или что кто-нибудь еще проверял данные на наличие логически невозможных значений. Не надейтесь на то, что человек, который поручил вам этот проект, знает, что значения важной переменной отсутствуют в 50% случаев или что другая переменная не была закодирована так, как было указано в инструкции. Сбор данных и их ввод в компьютер производится людьми, которые то и дело совершают ошибки. Большая часть процесса управления данными заключается в обнаружении этих ошибок и или их исправлении, или изобретении способа обойти их, чтобы данные можно было нормально обработать. Иерархия Не увлекаясь слишком сильно армейскими аналогиями, можно отметить, что для эффективного управления данными в ходе крупного проекта необходимо определить структуру, или иерархию, людей, которые отвечают за разные части процесса. Столь же важно, чтобы каждый участник проекта знал, кто уполномочен принимать определенные решения, так что, когда проблема появляется, ее можно разрешить быстро и разумно. Это может звучать как размышления, основанные на здравом смысле, однако на самом деле данные условия не всегда выполняются на практике. Если вводящий данные в компьютер сотрудник обнаружил, что в поступающих к нему данных многие переменные имеют пропущенные значения, он должен точно знать, кому доложить об этой проблеме, чтобы исправить ситуацию, пока проект еще находится на стадии сбора данных. Если аналитик во время предварительного исследования файла данных обнаружил неправдоподобные значения, он должен знать, кто уполномочен принять решение о том, что следует делать с такими данными, так что они могут быть исправлены или перекодированы до начала основного анализа. Если такие вопросы сложно решать, сотрудники, скорее всего, будут самостоятельно принимать решения или отказываться что-либо делать, оставляя вас с данными неясного качества. Кодификатор (codebook – лабораторный журнал) – это классический инструмент, Кодификатор который применяется в любом проекте, сопряженном со сбором и анализом данных. Кодификатор – это просто способ сбора и организации важной информации о проекте. Иногда кодификатор – это физический объект, такой как блокнот на спирали или скоросшиватель с тремя кольцами, а иногда это электронный файл (или набор файлов), который хранится на компьютере. В некоторых проектах используется комбинация этих способов, когда большая часть информации хра- 440 Глава 17. Управление данными нится в электронном виде, однако что-то или все распечатывается и хранится в скоросшивателе. В сущности, не важно, какой метод вы выберете, главное, чтобы основная информация о проекте и наборе данных была надежно записана и сохранена для дальнейшего использования. Кодификатор должен содержать информацию как минимум по следующим темам: о проекте и методы сбора данных; • методы ввода данных в компьютер; • решения, принятые относительно данных; • процедуры кодировки. Информация о проекте включает его цели, график, финансирование и сведения о команде (исходный состав и все изменения, обязанности каждого человека). К информации о методах сбора данных относятся сведения о времени и способах их сбора, о том, был ли использован какой-либо контроль, и о том, кто на самом деле собирал данные. Если была использована какая-либо форма вроде анкеты, ее копию нужно включить в кодификатор вместе с инструкциями, которыми руководствовались сборщики данных. Решения, принятые относительно данных, – это такие вопросы, как определение выбросов (значений, которые находятся слишком далеко от всех остальных значений) или других необычных данных, подробная информация о любых объектах, которые были исключены из анализа, и о причинах этого, а также указание процедур замещения пропущенных данных или других манипуляций с такими данными. Информация о процедурах кодировки содержит расшифровку значений переменных, способы и причины их перекодировки, а так- же коды и их обозначения. Информация о вводе данных особенно важна, когда данные собирают в одном виде, например как распечатанные на бумаге анкеты, а анализируют в другом, таком как электронный файл. Однако даже если используется компьютерная система телефонного опроса или другой метод сбора данных в электронном виде, кодификатор должен содержать информацию о процессе получения отдельных файлов и их преобразованиях. Часто, но не всегда преобразование электронных файлов проходит успешно, но при каждом преобразовании файла есть вероятность его повреждения. При обнаружении повреждения файла может понадобиться проследить историю его преобразований, чтобы выяснить, что произошло, и придумать, как исправить это. Сведения об обучении людей, которые вводят данные, и о любых использованных методах контроля качества (например, повторный ввод части данных) также должны быть зафиксированы. По моему опыту, компании, данные которых представляют собой протоколы ежедневных деловых операций, лучше документируют процесс, чем ученые и другие люди, работающие над малыми проектами, когда данные собираются отдельно для каждого проекта. Этому есть несколько причин. Во-первых, если сбор и сохранение данных продолжаются, относительно легко установить набор стандартов и следовать им. Во-вторых, в крупных компаниях, которые постоянно имеют дело с данными, работают ерывной переменной в категориальную). 442 Глава 17. Управление данными Прямоугольный файл да