Once your have completed your purchase, you will receive an email to this address providing detail on how can you access your book.

Choose your payment method
Some of the selected books had been ordered by you before. Are you sure, you would like to buy them again?
Some of the selected books had been ordered before. You can check your previous order after signing in to the site, or you can proceed with the new order.
Books that are not for sale or have been already purchased by you were removed from the shopping cart. You can check the updated order or proceed with the purchase.

Books deleted from your order:

Books that are not for sale or have been already purchased by you were removed from the shopping cart. You can sign in to the site to see the list of available books, or you can proceed with the purchase.

Books deleted from your order:

Buy Edit cart Sign in
Search
Advanced search Basic search
«+» - Finds books that contain all the terms that are preceded by the + symbol.
«-» - Excludes books that contain a term or phrase.
«&&» - Finds books that contain all the terms or phrases.
«OR» - Finds books that contain either of the terms or phrases.
«*» - Matches any one or more characters. For example, new* matches any text that includes "new", such as newfile.txt.
«""» - Finds the exact words in a phrase.
«~6» - Maximum number of words between the words from a search request allowed in the search result
 
 
Page

Page is closed for view

OK Cancel
РОССИЙСКАЯ АКАДЕМИЯ НАРОДНОГО ХОЗЯЙСТВА И ГОСУДАРСТВЕННОЙ СЛУЖБЫ ПРИ ПРЕЗИДЕНТЕ РОССИЙСКОЙ ФЕДЕРАЦИИ АКАДЕМИЧЕСКИЙ УЧЕБНИК Уильям Г. Грин ЭКОНОМЕТРИЧЕСКИЙ АНАЛИЗ Книга 1 William H. Greene ECONOMETRIC ANALYSIS Seventh edition Prentice Hall 2012 СЕРИЯ «АКАДЕМИЧЕСКИЙ УЧЕБНИК» Уильям Г. Грин ЭКОНОМЕТРИЧЕСКИЙ АНАЛИЗ Книга 1 Перевод с английского под научной редакцией С.С. Синельникова и М. Ю. Турунцевой Рекомендуется Российской академией народного хозяйства и государственной службы при Президенте Российской Федерации в качестве учебника для студентов, обучающихся по экономическим направлениям и специальностям, а также для студентов бакалавриата, магистратуры, аспирантов, преподавателей экономических факультетов вузов. (Основание — приказ Министерства образования и науки № 130 от 22 февраля 2012 г.) Москва 2016 УДК 330.4 ББК 65.05 Г85 Перевод с английского: А. В. Ходырев (главы 1–4), А. С. Степанов (главы 5–6, 12–13), С.С. Синельников (главы 7–8), Б. Н. Гафаров (главы 9, 17), Ю. В. Набатова (главы 10–11), В. В. Громов (главы 14–16), Ю. Ю. Пономарёв (главы 18–19), Е. В. Синельникова (главы 20–21), А. В. Божечкова (приложения) Грин, Уильям Г. Г85 Эконометрический анализ. Книга 1 / Уильям Грин; пер. с англ.; под науч. ред. С.С. Синельникова и М.Ю. Турунцевой. — М. : Издательский дом «Дело» РАНХиГС, 2016. — 760 с. (Академический учебник). ISBN 978-5-7749-0959-9 (общ.) ISBN 978-5-7749-1157-8 (кн. 1) «Эконометрический анализ» является учебником по эконометрике магистерского уровня, в нем рассмотрены все основные разделы, включаемые в современные курсы эконометрики. Он представляет собой попытку соединить введение в область эконометрики и профессиональную литературу для студентов и аналитиков, изучающих социальные науки и специализирующихся на прикладной эконометрике и ее теоретических основах. Книга дает широкий обзор различных областей эконометрики, что позволяет читателю перейти от их изучения к решению практических задач в одной или нескольких областях. Читатель имеет возможность ознакомиться и с базовыми понятиями различных областей эконометрики, представленных в книге, и с теми, которые ему необходимы на практике. УДК 330.43 ББК 65.05 ISBN 978-5-7749-0959-9 (общ.) ISBN 978-5-7749-1157-8 (кн. 1) Authorized translation from the English language edition, entitled ECONOMETRIC ANALYSIS, 7th Edition; ISBN 0131395386; by GREENE, WILLIAM H.; published by Pearson Education, Inc.; publishing as Prentice Hall; Copyright © 2012 Pearson Education Limited All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Pearson Education, Inc. RUSSIAN language edition published by DELO PUBLISHERS. Copyright © 2012 Лицензированный перевод английского издания под названием ECONOMETRIC ANALYSIS, 7th Edition; ISBN 0131395386; под авторством GREENE, WILLIAM H., опубликованного Pearson Education, Inc. под маркой Prentice Hall; Copyright © 2012 Pearson Education Limited Все права защищены. Ни одна часть настоящей книги не может быть распространена или передана ни в каком виде и никакими средствами, электронными или механическими, включая фотокопирование, запись или любые информационно-поисковые системы, без разрешения от Pearson Education, Inc. Издание на русском языке выпущено Издательским домом «Дело» © ФГБОУ ВО «Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации», 2016 Оглавление Предисловие к русскому изданию . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xiv Глава 1. Эконометрика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Парадигма эконометрики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.3. Практическая эконометрика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4. Эконометрическое моделирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.5. План книги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.6. Предварительные замечания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.6.1. Численные примеры. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.6.2. Компьютерное обеспечение и воспроизводимость результатов . . 11 1.6.3. Соглашения об обозначениях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Глава 2. Модель линейной регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2. Модель линейной регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3. Предположения модели линейной регрессии. . . . . . . . . . . . . . . . . . . . . . . 19 2.3.1. Линейность модели регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3.2. Полный ранг . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.3.3. Регрессия. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3.4. Сферические шоки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3.5. Процесс порождения данных для регрессоров . . . . . . . . . . . . . . . . . 28 2.3.6. Нормальность. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.7. Независимость . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.4. Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Глава 3. Метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2. Регрессия наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2.1. Вектор коэффициентов метода наименьших квадратов . . . . . . . . 33 3.2.2. Приложение: уравнение инвестиций . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.2.3. Алгебраические свойства оценки наименьших квадратов . . . . . . 37 3.2.4. Проекции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3. Раздельная и частичная регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.4. Частичная регрессия и частные коэффициенты корреляции . . . . . . . . . 42 3.5. Качество приближения и анализ разброса . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.5.1. Скорректированный R-квадрат и меры качества подгонки . . . . . . 50 3.5.2. R-квадрат и константа в модели. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.5.3. Сравнение моделей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.6. Линейные преобразования регрессий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.7. Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Глава 4. Оценки методом наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.2. Почему именно метод наименьших квадратов? . . . . . . . . . . . . . . . . . . . . 61 4.2.1. Условия ортогональности генеральной совокупности . . . . . . . . . . . 61 4.2.2. Предиктор, минимизирующий среднеквадратичную ошибку . . . 62 4.2.3. Линейная несмещенная оценка с минимальной дисперсией . . . . 63 4.3. Свойства метода наименьших квадратов на конечных выборках . . . . . 65 vi Оглавление 4.3.1. Несмещенность оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.3.2. Смещение, вызванное пропущенными значимыми переменными. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.3.3. Включение лишних переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.3.4. Дисперсия оценки наименьших квадратов . . . . . . . . . . . . . . . . . . . . 69 4.3.5. Теорема Гаусса–Маркова . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.3.6. Особенности стохастических регрессоров . . . . . . . . . . . . . . . . . . . . . 71 4.3.7. Оценки дисперсии методом наименьших квадратов . . . . . . . . . . . 72 4.3.8. Предположение о нормальности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.4. Свойства оценок наименьших квадратов на больших выборках . . . . . . 74 4.4.1. Состоятельность оценки наименьших квадратов  коэффициента . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.4.2. Асимптотическая нормальность оценок наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.4.3. Состоятельность s 2 и построение оценки для Аsу. Var[b] . . . . . . . . . 78 b: 4.4.4. Асимптотическое распределение функций от дельта-метод . . 79 4.4.5. Асимптотическая эффективность . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.4.6. Оценка максимального правдоподобия . . . . . . . . . . . . . . . . . . . . . . . 86 4.5. Интервальные оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.5.1. Построение доверительного интервала для коэффициента линейной регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.5.2. Построение доверительных интервалов для больших выборок . . 91 4.5.3. Доверительные интервалы для линейных комбинаций коэффициентов: разложение Охака . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.6. Предсказание и прогнозирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.6.1. Доверительные интервалы для предсказаний. . . . . . . . . . . . . . . . . . 95 4.6.2. Предсказание у, если уравнение регрессии описывает логарифм у . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.6.3. Доверительный интервал для предсказания у в случаях, когда уравнение регрессии описывает логарифм у . . . . . . . . . . . . . . . . . . 97 4.6.4. Прогнозирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 4.7. Проблемы в данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4.7.1. Мультиколлинеарность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.7.2. Предварительное оценивание. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.7.3. Метод главных компонент. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 4.7.4. Пропущенные значения и пополнение данных . . . . . . . . . . . . . . . 110 4.7.5. Ошибки измерения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.7.6. Влиятельные наблюдения и выбросы . . . . . . . . . . . . . . . . . . . . . . . . 116 4.8. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 Глава 5. Тестирование гипотез и выбор спецификации. . . . . . . . . . . . . . . . . . . . . . . 127 5.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 5.2. Методология тестирования гипотез . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 5.2.1. Ограничения и гипотезы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 5.2.2. Вложенные модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 5.2.3. Процедуры тестирования — методология Неймана–Пирсона 130 5.2.4. Размер, мощность и состоятельность теста . . . . . . . . . . . . . . . . . . . 131 5.2.5. Методологическая дилемма: байесовское тестирование против классического . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 5.3. Два подхода к тестированию гипотез. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 5.4. Тест Вальда. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 5.4.1. Тестирование гипотез о коэффициенте . . . . . . . . . . . . . . . . . . . . . . 135 5.4.2. F-статистика и отклонение метода наименьших квадратов . . . . 138 5.5. Тестирование ограничений с использованием показателей качества регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 5.5.1. Оценка наименьших квадратов с ограничениями . . . . . . . . . . . . . 143 5.5.2. Потеря в качестве подгонки оценки наименьших квадратов с ограничениями . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 Оглавление vii 5.5.3. Тестирование значимости регрессии . . . . . . . . . . . . . . . . . . . . . . . . 148 5.5.4. Вывод ограничений и замечание об использовании R 2 . . . . . . . . 149 5.6. Ошибки, не являющиеся нормально распределенными, и асимптотические тесты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 5.7. Тестирование нелинейных ограничений . . . . . . . . . . . . . . . . . . . . . . . . . . 155 5.8. Выбор между невложенными моделями . . . . . . . . . . . . . . . . . . . . . . . . . . 158 5.8.1. Тестирование невложенных гипотез . . . . . . . . . . . . . . . . . . . . . . . . 159 5.8.2. Принцип охвата . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 5.8.3. Полная модель — J-тест . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 5.9. Тестирование спецификации модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 5.10. Построение модели — подход от общего к частному . . . . . . . . . . . . . . 164 5.10.1. Критерии выбора модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 5.10.2. Выбор модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 5.10.3. Классический подход к выбору модели . . . . . . . . . . . . . . . . . . . . . 166 5.10.4. Байесовское усреднение моделей . . . . . . . . . . . . . . . . . . . . . . . . . . 167 5.11. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 Глава 6. Функциональная форма и структурный сдвиг . . . . . . . . . . . . . . . . . . . . . . . 177 6.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 6.2. Использование бинарных переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 6.2.1. Бинарные переменные в регрессии. . . . . . . . . . . . . . . . . . . . . . . . . . 178 6.2.2. Случай нескольких фиктивных переменных . . . . . . . . . . . . . . . . . . 180 6.2.3. Случай нескольких групп. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 6.2.4. Пороговые эффекты и индикаторные переменные . . . . . . . . . . . . 184 6.2.5. Эффекты воздействия и регрессия «разности разностей» . . . . . . 185 6.3. Нелинейность в переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 6.3.1. Кусочно-линейная регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 6.3.2. Функциональные формы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 6.3.3. Эффект взаимодействия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 6.3.4. Выявление нелинейности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 6.3.5. Внутренне линейные модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 6.4. Моделирование и тестирование структурного сдвига . . . . . . . . . . . . . . 200 6.4.1. Различные векторы параметров . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.4.2. Недостаточное число наблюдений. . . . . . . . . . . . . . . . . . . . . . . . . . . 202 6.4.3. Изменение части коэффициентов . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 6.4.4. Тесты на структурное изменение при различных дисперсиях 204 6.4.5. Тестирование стабильности модели при помощи теста на предсказательную силу . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 6.5. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 Глава 7. Нелинейная, полупараметрическая и непараметрическая модели регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 7.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 7.2. Нелинейные регрессионные модели. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 7.2.1. Предположения нелинейной регрессионной модели . . . . . . . . . . 219 7.2.2. Нелинейная оценка наименьших квадратов . . . . . . . . . . . . . . . . . . 221 7.2.3. Асимптотические свойства оценки нелинейным методом наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 7.2.4. Проверка гипотез и ограничения на параметры. . . . . . . . . . . . . . . 226 7.2.5. Примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 7.2.6. Вычисление оценки нелинейным методом наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 7.3. Медианная и квантильная регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 7.3.1. Оценка методом наименьших абсолютных отклонений . . . . . . . . 246 7.3.2. Модели квантильных регрессий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 7.4. Частично линейная регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 7.5. Непараметрическая регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 7.6. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 viii Оглавление Глава 8. Эндогенность и метод инструментальных переменных . . . . . . . . . . . . . . . 264 8.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 8.2. Предположения расширенной модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 8.3. Оценка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 8.3.1. Метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 8.3.2. Оценка методом инструментальных переменных . . . . . . . . . . . . . 272 8.3.3. Причины, приводящие к методу инструментальных переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 8.3.4. Двухшаговый метод наименьших квадратов . . . . . . . . . . . . . . . . . 278 8.4. Два теста на спецификацию модели. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 8.4.1. Тесты Хаусмана и Ву на спецификацию модели . . . . . . . . . . . . . . . . . . 284 8.4.2. Тест на сверхидентифицирующие ограничения . . . . . . . . . . . . . . . . . . 289 8.5. Ошибка измерения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 8.5.1. Недооценка метода наименьших квадратов . . . . . . . . . . . . . . . . . . 291 8.5.2. Оценка методом инструментальных переменных . . . . . . . . . . . . . 294 8.5.3. Прокси-переменные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 8.6. Оценка нелинейным методом инструментальных переменных . . . . . 299 8.7. Слабые инструменты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 8.8. Естественные эксперименты и поиск причинно-следственных связей. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 8.9. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 Глава 9. Обобщенная регрессионная модель и гетероскедастичность . . . . . . . . . . 313 9.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 9.2. Неэффективность оценок методами наименьших квадратов и инструментальных переменных . . . . . . . . . . . . . . . . . . . . . . . . . 315 9.2.1. Свойства МНК в конечных выборках. . . . . . . . . . . . . . . . . . . . . . . . . 315 9.2.2. Асимптотические свойства МНК . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 9.2.3. Устойчивая оценка асимптотической ковариационной матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 9.2.4. Метод инструментальных переменных . . . . . . . . . . . . . . . . . . . . . . 320 9.3. Эффективное оценивание обобщенным методом наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 9.3.1. Обобщенный метод наименьших квадратов (ОМНК, GLS) . . . . . . 322 9.3.2. Доступный обобщенный метод наименьших квадратов (ДОМНК, FGLS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324 9.4. Гетероскедастичность и взвешенный метод наименьших квадратов 326 9.4.1. Обычный метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . . 328 9.4.2. Неэффективность обычного метода наименьших квадратов 328 b 9.4.3. Оцененная ковариационная матрица . . . . . . . . . . . . . . . . . . . . . . 329 9.4.4. Оценка подходящей ковариационной матрицы для метода наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 9.5. Тесты на гетероскедастичность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 9.5.1. Общий тест Уайта . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 9.5.2. LM-тест Бройша–Пэгана/Годфри . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 9.6. Взвешенный метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . 338 9.6.1. Взвешенный метод наименьших квадратов с известной матрицей Ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338 9.6.2. Оценка при условии, что матрица Ω содержит неизвестные параметры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 9.7. Приложения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 9.7.1. Мультипликативная гетероскедастичность . . . . . . . . . . . . . . . . . . . 341 9.7.2. Групповая гетероскедастичность . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 9.8. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347 Глава 10. Системы уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 10.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 10.2. Системы внешне не связанных уравнений . . . . . . . . . . . . . . . . . . . . . . . 356 Оглавление ix 10.2.1. Обобщенный метод наименьших квадратов . . . . . . . . . . . . . . . . . 357 10.2.2. Системы внешне не связанных уравнений с одинаковыми регрессорами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 10.2.3. Допустимый обобщенный метод наименьших квадратов (ДОМНК, FGLS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360 10.2.4. Проверка гипотез . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 10.2.5. Тест на спецификацию для систем внешне не связанных уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 10.2.6. Объединенная модель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 10.3. Обобщенные модели внешне не связанных регрессий. . . . . . . . . . . . . 369 10.4. Нелинейные системы уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370 10.5. Системы уравнений спроса: вырожденные системы . . . . . . . . . . . . . . 374 10.5.1. Функция издержек Кобба-Дугласа . . . . . . . . . . . . . . . . . . . . . . . . . . 375 10.5.2. Гибкие функциональные формы: транслогарифмическая функция издержек. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 10.6. Модели одновременных уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383 10.6.1. Системы уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384 10.6.2. Общие замечания для моделей линейных одновременных уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387 10.6.3. Проблема идентификации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391 10.6.4. Оценка одного уравнения и проверка гипотез . . . . . . . . . . . . . . . 397 10.6.5. Методы оценки систем уравнений . . . . . . . . . . . . . . . . . . . . . . . . . 400 10.6.6. Тестирование при наличии слабых инструментальных переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 10.7. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408 Глава 11. Модели панельных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 11.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 11.2. Модели панельных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418 11.2.1. Общие подходы к моделированию панельных данных . . . . . . . . 420 11.2.2. Структуры модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421 11.2.3. Расширения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422 11.2.4. Сбалансированные и несбалансированные панели . . . . . . . . . . . 423 11.2.5. Доброкачественные панельные данные . . . . . . . . . . . . . . . . . . . . 423 11.3. Объединенная регрессионная модель . . . . . . . . . . . . . . . . . . . . . . . . . . . 424 11.3.1. Оценка объединенной модели методом наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425 11.3.2. Устойчивая оценка ковариационной матрицы . . . . . . . . . . . . . . . 425 11.3.3. Кластеризация и стратификация . . . . . . . . . . . . . . . . . . . . . . . . . . . 428 11.3.4. Устойчивое оценивание с использованием группового среднего значения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430 11.3.5. Оценка в первых разностях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432 11.3.6. Внутри- и межгрупповые оценки. . . . . . . . . . . . . . . . . . . . . . . . . . . 433 11.4. Модель с фиксированными эффектами. . . . . . . . . . . . . . . . . . . . . . . . . . 437 11.4.1. Оценки методом наименьших квадратов . . . . . . . . . . . . . . . . . . . 438 11.4.2. Асимптотики при малых Т . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440 11.4.3. Проверка значимости групповых эффектов . . . . . . . . . . . . . . . . . 441 11.4.4. Фиксированные временные и групповые эффекты . . . . . . . . . . . 441 11.4.5. Постоянные во времени переменные и декомпозиция вектора фиксированных эффектов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 11.5. Случайные эффекты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 11.5.1. Оценка методом наименьших квадратов . . . . . . . . . . . . . . . . . . . . 453 11.5.2. Обобщенный метод наименьших квадратов . . . . . . . . . . . . . . . . . 454 11.5.3. Допустимый обобщенный метод наименьших квадратов  при неизвестной матрице . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 11.5.4. Проверка гипотез для случайных эффектов . . . . . . . . . . . . . . . . . 457 11.5.5. Тест на спецификацию Хаусмана для модели со случайными эффектами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461 x Оглавление 11.5.6. Расширение модели с ненаблюдаемыми эффектами: подход Мундлака . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 11.5.7. Расширение моделей с фиксированными и случайными эффектами: подход Чемберлена. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 11.6. Несферические шоки и устойчивые оценки ковариационной матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 11.6.1. Устойчивые оценки модели с фиксированными эффектами 470 11.6.2. Гетероскедастичность в модели со случайными эффектами 471 11.6.3. Автокорреляция в моделях панельных данных . . . . . . . . . . . . . . 472 11.6.4. Кластерные (и панельные) устойчивые ковариационные матрицы для оценок с фиксированными и случайными эффектами 473 11.7. Пространственная автокорреляция . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 11.8.Эндогенность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481 11.8.1. Оценка инструментальных переменных Хаусмана–Тейлора 481 11.8.2. Состоятельная оценка динамических моделей панельных данных: ГУ-оценка Андерсона–Хсяо . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486 11.8.3. Эффективная оценка динамических моделей панельных данных: метод Ареллано–Бонда . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489 11.8.4. Нестационарные временные ряды и модели панельных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498 11.9. Нелинейная регрессия с панельными данными. . . . . . . . . . . . . . . . . . . 501 11.9.1. Устойчивая ковариационная матрица для нелинейного метода наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501 11.9.2. Фиксированные эффекты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503 11.9.3. Случайные эффекты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505 11.10. Системы уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506 11.11. Неоднородность параметров . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 508 11.11.1. Модель со случайными коэффициентами . . . . . . . . . . . . . . . . . . 508 11.11.2. Иерархическая линейная модель . . . . . . . . . . . . . . . . . . . . . . . . . 511 11.11.3. Неоднородность параметров и динамические модели панельных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514 11.12. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 Глава 12. Подходы к оцениванию в эконометрике . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 12.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 12.2. Параметрические методы оценки и тестирование статистических гипотез . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529 12.2.1. Классический подход к оценке, основанный на функции правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530 12.2.2. Моделирование совместных распределений копула-функциями . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 532 12.3. Полупараметрические методы оценки . . . . . . . . . . . . . . . . . . . . . . . . . . 536 12.3.1. ОММ-оценка в эконометрике . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537 12.3.2. Оценка методом максимального эмпирического правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537 12.3.3. Оценка методом наименьших абсолютных отклонений и квантильная регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 539 12.3.4. Ядерные методы оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 12.3.5. Сравнение параметрического и полупараметрического анализа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541 12.4. Непараметрические методы оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 12.4.1. Ядерная оценка плотности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 12.5. Свойства оценок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547 12.5.1. Статистические свойства оценок . . . . . . . . . . . . . . . . . . . . . . . . . . . 547 12.5.2. Экстремальные оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548 12.5.3. Предположения для асимптотических свойств экстремальных оценок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549 12.5.4. Асимптотические свойства оценок . . . . . . . . . . . . . . . . . . . . . . . . . 552 Оглавление xi 12.5.5. Тестирование гипотез . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553 12.6. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554 Глава 13. Оценка методом наименьшего расстояния и обобщенным методом моментов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556 13.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556 13.2. Состоятельная оценка: метод моментов . . . . . . . . . . . . . . . . . . . . . . . . . 558 13.2.1. Случайные выборки и оценка параметров распределений . . . . 559 13.2.2. Асимптотические свойства оценки метода моментов. . . . . . . . . 563 13.2.3. Заключение — метод моментов . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566 13.3. Оценка методом наименьшего расстояния. . . . . . . . . . . . . . . . . . . . . . . 566 13.4. Оценка обобщенным методом моментов (GMM). . . . . . . . . . . . . . . . . . 572 13.4.1. Оценивание на основе условий ортогональности . . . . . . . . . . . . 572 13.4.2. Обобщение метода моментов. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574 13.4.3. Свойства GMM-оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579 13.5. Тестирование гипотез в контексте GMM . . . . . . . . . . . . . . . . . . . . . . . . . 584 13.5.1. Тестирование обоснованности моментных ограничений. . . . . . 585 13.5.2. GMM-аналоги для тестов Вальда, множителей Лагранжа и отношения правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586 13.6. GMM-оценка эконометрических моделей . . . . . . . . . . . . . . . . . . . . . . . . 588 13.6.1. Линейные модели для одного уравнения . . . . . . . . . . . . . . . . . . . . 589 13.6.2. Нелинейные модели регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595 13.6.3. Системы внешне не связанных уравнений . . . . . . . . . . . . . . . . . . 599 13.6.4. Модели одновременных уравнений с гетероскедастичностью . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 600 13.6.5. GMM-оценка динамических моделей панельных данных . . . . . 604 13.7. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616 Глава 14. Метод максимального правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 620 14.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 620 14.2. Функция правдоподобия и идентификация параметров . . . . . . . . . . 620 14.3. Эффективное оценивание: принцип максимального правдоподобия. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623 14.4. Свойства оценок максимального правдоподобия . . . . . . . . . . . . . . . . . 625 14.4.1. Условия регулярности. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627 14.4.2. Свойства регулярных распределений . . . . . . . . . . . . . . . . . . . . . . . 627 14.4.3. Уравнение правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 629 14.4.4. Информационное равенство. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 630 14.4.5. Асимптотические свойства оценки методом максимального правдоподобия. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 630 14.4.6. Оценка асимптотической дисперсии оценки методом максимального правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635 14.5. Условные функции правдоподобия, эконометрические модели и GMM-оценка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637 14.6. Тестирование гипотез и спецификации модели и показатели качества подгонки модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639 14.6.1. Критерий отношения правдоподобия. . . . . . . . . . . . . . . . . . . . . . . 641 14.6.2. Критерий Вальда . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643 14.6.3. Критерий множителей Лагранжа . . . . . . . . . . . . . . . . . . . . . . . . . . . 645 14.6.4. Применение критериев, основанных на правдоподобии . . . . . . 647 14.6.5. Сравнение моделей и вычисление качества подгонки модели 649 14.6.6. Тест Вуонга и информационный критерий Кульбака–Лейблера 651 14.7. Двухшаговая оценка методом максимального правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653 14.8. Оценка методом квазимаксимального правдоподобия и устойчивые асимптотические ковариационные матрицы . . . . . . . . . . . . 661 14.8.1. Максимальное правдоподобие и GMM-оценки. . . . . . . . . . . . . . . 661 14.8.2. Максимальное правдоподобие и M-оценки. . . . . . . . . . . . . . . . . . 662 xii Оглавление 14.8.3. «Сэндвич»-оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664 14.8.4. Кластерные оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665 14.9. Модели, оцениваемые методом максимального правдоподобия 668 14.9.1. Нормальная модель линейной регрессии . . . . . . . . . . . . . . . . . . . . 669 14.9.2. Обобщенная регрессионная модель . . . . . . . . . . . . . . . . . . . . . . . . 673 14.9.3. Модель внешне не связанных регрессий . . . . . . . . . . . . . . . . . . . . 683 14.9.4. Модели одновременных уравнений . . . . . . . . . . . . . . . . . . . . . . . . 691 14.9.5. Оценка моделей нелинейной регрессии методом максимального правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 692 14.9.6. Модели панельных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700 14.10. Модели скрытых классов и модели смеси распределений с конечным числом значений параметра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719 14.10.1. Модель смеси распределений . . . . . . . . . . . . . . . . . . . . . . . . . . . . 720 14.10.2. Измеренная и неизмеренная гетерогенность . . . . . . . . . . . . . . . 722 14.10.3. Предсказание принадлежности к классу . . . . . . . . . . . . . . . . . . . 723 14.10.4. Условная модель скрытого класса . . . . . . . . . . . . . . . . . . . . . . . . . 724 14.10.5. Определение числа классов. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727 14.10.6. Модель панельных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727 14.11. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 732 Предисловие к русскому изданию Я рад представить вашему вниманию русский перевод 7-го издания учеб - ника «Эконометрический анализ». В октябре 2015 г. ресурс Google Scholar опубликовал список 100 работ из всех областей знания, которые наиболее широко цитируются. «Эконометрический анализ» с почти 50 000 цитирований занял в нем 34-е место. Специалисты различных научных направлений (экономисты, социологи, политологи, инженеры, биостатистики и т.д.) используют эту книгу в своих исследованиях. Такое широкое признание и популярность во многих странах очень приятны. Учебник уже переведен на французский, испанский, японский, китайский и турецкий языки. Я надеюсь, что российские читатели найдут его полезным для своей работы, что он поможет студентам узнать больше об эконометрических методах и научиться лучше применять их к моделированию различных экономических ситуаций. Как учебник, «Эконометрический анализ» включает все основные разделы эконометрического анализа. Я уверен, что студенты смогут найти те разделы и подходы, которые наиболее полезны и интересны им. Многие исследовательские центры в России используют эконометрику в своей работе. Они успешно применяют эконометрические методы в экономических исследованиях, а также в экономико-политическом консалтинге. Среди этих центров можно отметить Институт прикладных экономических исследований РАНХиГС, Институт экономической политики им. Е.Т. Гайдара, Центр экономических и финансовых исследований и разработок, НИУ «Высшая школа экономики» и многие другие. Я надеюсь, что «Эконометрический анализ» окажется полезным для всех исследователей в их будущей научной работе и внесет вклад в формирование новых идей и научных разработок. Я хотел бы выразить признательность Издательскому дому «Дело» и всем тем, кто готовил книгу к публикации: всем переводчикам (Сергею Синельникову, Юлии Набатовой, Владимиру Громову, Александру Ходыреву, Булату Гафарову, Елене Синельниковой, Александру Степанову, Юрию Пономарёву, Александре Божечковой); научным редакторам Сергею Синельникову и Марине Турунцевой; редактору Фаине Морозовой и верстальщице Надежде Кильдишевой. (Мы хотим поблагодарить всех за помощь в исправлении некоторых опечаток, которые присутствуют в английском издании и исправлены здесь.) В течение нескольких последних лет Издательский дом «Дело» очень активно занимается переводом и изданием учебников по экономике и эконометрике. Я очень рад, что «Эконометрический анализ» стал одним из них. Я надеюсь, что он вместе с другими переводными учебниками по эконометрике восполнит нехватку русскоязычных учебников по эконометрике и поможет российским студентам и исследователям более глубоко изучить эконометрические методы. Уильям Грин Нью-Йорк Февраль 2016 Предисловие Эконометрический анализ Учебник «Эконометрический анализ» представляет собой всеобъемлющее введение в область эконометрики. Эта область постоянно расширяется, об этом свидетельствует список журналов, посвященных если не полноThe Journal of Applied стью, то по по крайней мере частично эконометрике: Econometrics, The Journal of Econometrics, The Econometrics Journal, Econometric Theory, Econometric Reviews, Journal of Business and Economic Statistics, Empirical Economics, Foundations and Trends in Econometrics, The Review of Economics and Statistics Econometrica. и Построение учебника таким образом, чтобы изложить эконометрику на магистерском уровне, становится все более амбициозной задачей. Тем не менее я верю в то, что можно успешно решить эту задачу в рамках одного учебника. В данном учебнике я попытался представить на начальном уровне достаточное число разделов эконометрики, чтобы студент мог свободно перейти от изучения эконометрики к практике или к более углубленному изучению каких-либо ее областей. Помимо этого учебник может служить в некотором смысле мостом между введением в область эконометрики и профессиональной литературой для студентов и аналитиков, изучающих социальные науки. Новое в этом издании Настоящее седьмое издание представляет серьезный пересмотр более ранних изданий «Эконометрического анализа». Среди наиболее очевидных изменений можно выделить: • переструктуризацию материала первых глав книги, обычно изучаемых в течение первого семестра, включая следующие: – разделы, касающиеся тестирования гипотез и проверки спецификации модели, представлены в одной главе; – новые результаты по прогнозированию; – большее внимание методу инструментальных переменных и проблеме эндогенности; – дополнительные результаты, касающиеся базовой модели панельных данных; • новые, более подробные приложения и примеры; • большее внимание конкретным областям применения там, где рассматриваются более продвинутые разделы эконометрики; • новые разделы, касающиеся методов, основанных на имитационном моделировании данных, особенно бутстрэпа (самонастройки) и метода Монте- Карло; • некоторые примеры, объясняющие эффект взаимодействия; Предисловие xv • специальные приложения, в том числе квантильная регрессия; • новые приложения в моделировании дискретного выбора; • новый материал по проблеме эндогенности и ее последствий для структуры модели. Седьмое издание «Эконометрического анализа» У книги две цели. Первая — познакомить студентов с прикладной эконометрикой, в том числе с основными методами оценки модели линейной регрессии и некоторыми моделями, которые используются в ситуации, когда модель линейной регрессии оказывается недостаточной или неподходящей. Современное программное обеспечение существенно облегчило сложный процесс моделирования, но понимание основ теории также очень важно. Вторая цель состоит в том, чтобы дать студентам возможность получить хорошую теоретическую подготовку, чтобы они могли узнать уже изученные здесь модели в новых вариантах и воспринимали эти новые варианты как естественные, вписывающиеся в общие принципы расширения уже известных методов. Эта книга содержит очень много теоретических материалов, таких как GMM, оценка максимального правдоподобия и асимптотические результаты регрессионных моделей. Учебник предназначен для первого курса магистратуры по социальным наукам. Предшествующие, уже изученные курсы должны включать математический анализ, математическую статистику и введение в эконометрику на уровне, соответствующем, скажем, учебникам Гуджарати (Gujarati, 2002) «Basic Econometrics», Стока и Уотсона (Stock, Watson, 2006; 2015) «Introduction to Econometrics», Кеннеди (Kennedy, 2008) «Guide to Econometrics» или Вулдриджа (Wooldridge, 2009) «Introductory Econometrics: A Modern Approach». Я предполагаю, например, что читатель уже знаком с основами методологии эконометрического анализа, в том числе с фундаментальной ролью экономических и статистических предположений, различиями межобъектных данных, временных рядов и панельных данных, с основными этапами оценки моделей, проверки гипотез, статистических выводов и прогнозирования в модели множественной линейной регрессии. Самодостаточные (для наших целей) разделы по матричной алгебре, математической статистике и статистической теории, используемые в книге, можно найти в приложениях A – D. Я использую матричную алгебру на протяжении всей книги. Это может вызвать сложности у некоторых читателей при знакомстве с книгой, но матричная алгебра является незаменимым для наших целей инструментом, и я надеюсь, что читатель согласится, что это лишь средство для достижения этих целей, а не самоцель. Использование матриц позволяет представлять многочисленные результаты в едином виде без знака суммирования. Вся необходимая теория, касающаяся матричной алгебры, представлена в приложении А. Приложение Е и глава 15 содержат описание численных методов, которые будут полезны для практикующих эконометристов (и для нас в последних главах книги). Современные компьютерные программы сделали оценивание более сложных нелинейных моделей такой же рутиной, как оценивание методом наименьших квадратов. Я включил пять глав о методах оценки, используемых в современных исследованиях, и пять глав о приложениях в микрои макроэконометрике. Нелинейные модели, применяемые в этих областях, xviii Предисловие торым было уделено больше внимания, включают эффекты в экспериментах, бутстрэп (самонастройку), оценки, основанные на имитационном моделировании, устойчивые методы оценки, пропущенные и ошибочные данные и различные новые методы анализа дискретного выбора в микроэконометрике. Я также добавил или расширил материал, касающийся методов, интерес к которым возник не так давно, таких как квантильная регрессия и модели стохастической границы. Отмечу несколько конкретных изменений и обновлений: говоря общими словами, я немного усилил акцент на устойчивых (робастных) методах оценки. Обсуждение тестов на спецификацию модели появляется в нескольких местах в соответствии с присутствующей в литературе тенденцией изучать более внимательно слабости сильно параметризованных моделей. Вот некоторые новые приложения: • Глава 15 по оценке на основе имитационного моделирования была значительно расширена. В настоящее время она включает намного больше материала об использовании бутстрэпа при расчете стандартных ошибок и доверительных интервалов. Подход Крински и Робб (Krinsky, Robb, 1986) для асимптотических статистических выводов также присутствует в ней. • Большое внимание уделено недавним работам о понимании эффектов взаимодействия в нелинейных моделях. В главе 7 можно найти приложение модели с эффектами взаимодействия в нелинейной (экспоненциальной) модели регрессии. Этот вопрос вновь обсуждается в главе 17. • В качестве упражнения, которое будет вызовом для студентов при изучении теории асимптотических распределений, я добавил детальное доказательство результата Мерфи и Топеля (Murphy, Topel, 2002) для двухшаговой оценки в главе 14. • Обсуждение источников и влияния эндогенности появляется в различных местах, например, приложение оценки с весами, обратно пропорциональными вероятности при истощении выборки, встречается в главе 17. Седьмое издание является серьезным пересмотром «Эконометрического анализа» с точки зрения и изложения материала, и появления новых идей и трактовок. Я надеюсь, что читатели найдут изменения полезными. обеспечение и базы данных Существует много компьютерных программ, которые широко используются для расчетов, описанных в этой книге. Все они были написаны эконометристами или статистиками и в общем регулярно обновляются, включая новые методы в области прикладной эконометрики. Ниже представлена выборка из наиболее широко используемых пакетов и их домашних страниц, на которых вы можете найти информацию о них: EViews www.eviews.com (QMS, Irvine, CA); Gauss www.aptech.com (Aptech Systems, Kent, WA); LIMDEP www.limdep.com (Econometric Software, Plainview, NY); MATLAB www.mathworks.com (Mathworks, Natick, MA); NLOGIT www.nlogit.com (Econometric Software, Plainview, NY); R www.r-project.org/ (The R Project for Statistical Computing); RATS www.estima.com (Estima, Evanston, IL); Предисловие xix SAS www.sas.com (SAS, Cary, NC); Shazam econometrics.com (Northwest Econometrics Ltd., Gibsons, Canada); Stata www.stata.com (Stata, College Station, TX); TSP www.tspintl.com (TSP International, Stanford, CA). Более полный список программных пакетов, используемых для эконометрического анализа, можно найти на веб-сайте ресурсов http://www. oswego.edu/economic/econsoftware.htm. За небольшим исключением расчеты, описанные в этой книге, могут быть осуществлены в любом из перечисленных пакетов. Я использовал NLOGIT для вычислений в примерах. В учебнике нет инструкции по использованию какого-либо конкретного программного пакета или языка программирования. (На веб-сайте автора учебника приведены некоторые коды и данные для повторения численных примеров.) Многие авторы давали коды, написанные в RATS, LIMDEP/NLOGIT, EViews, SAS или Stata, для некоторых наших примеров, в том числе документацию для своих компьютерных программ. Сейчас существует немало томов, посвященных решению конкретных эконометрических задач в конкретных пакетах, например приложение к книге Кэмерона и Триведи (Cameron, Trivedi, 2009) по микроэконометрике. Базы данных, используемые в примерах, также доступны на веб-сайте учебника http://pages.stern. nyu.edu/wgreene/Text/econometricanalysis.htm. В учебнике эти базы данных называются «Таблица Fn.m», например таблица F4.1. «F» относится к приложению F в конце текста, которое содержит описание данных. Фактические данные размещены в общем ASCII и конвертируемых форматах на веб- сайте вместе с другими дополнительными материалами учебника. В настоящее время есть тысячи интересных веб-сайтов, содержащих программное обеспечение, данные, исследования и комментарии по эконометрике. Было бы безнадежно пытаться привести все это здесь. Один из сайтов с кодами/данными, который особенно хорошо структурирован и направлен на читателей этого учебника, — это архив данных Journal of Applied Econometrics. В нем архивируются все неконфиденциальные базы данных, используемые в публикациях журнала с 1988 г. (с некоторыми пробелами до 1995 г.). Этот полезный сайт можно найти по адресу: http://qed.econ.queensu.ca/jae/. В нескольких примерах в тексте использовались базы данных JAE. Когда мы делали это, то отправляли читателя к веб-сайту JAE, а также воспроизводили результаты сами. Остальные журналы стали просить своих авторов предоставлять коды и данные, чтобы стимулировать исследователей воспроизводить уже полученные результаты. Другим хорошим и легким с точки зрения навигации сайтом с агрегированными данными по экономике США является www.economagic.com. Благодарности Мне приятно выразить свою признательность тем, кто повлиял на эту работу. Я по-прежнему благодарен покойным Артуру Голдбергеру и Арнольду Зелнеру, а также Деннису Айгнеру, Биллу Беккеру и Лоритсу Кристенсену за их поддержку и помощь. После семи изданий этой книги число людей, которые значительно улучшили ее своими комментариями, критикой и поддержкой, стало слишком большим, чтобы поблагодарить каждого из них в отдельности. Я благодарен за помощь и надеюсь, что все они увидят свой вклад в это издание. Я хотел бы отметить всех рецензентов моей рабо- 2 Глава 1. Эконометрика методом их описания будет только объединение всех трех подходов. Это объединение и составляет эконометрику. Создание Эконометрического общества было реакцией на беспрецедентный рост темпов накопления статистической информации. Стала ясна необходимость установления базовых принципов, с помощью которых можно было бы как-то упорядочить эту массу данных. Ни ключевые подходы, ни основные цели не изменились с момента публикации приведенной выше цитаты. Эконометристы связывают свою деятельность с применением методов математической статистики и различных инструментов статистических выводов к практическому измерению величин и соотношений, которые постулируются экономической теорией. Важнейшая роль эконометрических методов в экономике со временем только усиливалась. Нобелевскую премию по экономике многократно вручали эконометристам: впервые ее получил Рагнар Фриш [Ragnar Frisch] (автор приведенной выше цитаты) в 1969 г., а позже Лоуренс Клейн [Lawrence Klein] в 1980 г., Трюгве Ховельмо [Trygve Haavelmo] в 1989 г., Джеймс Хекман [James Heckman] и Дэниел Макфадден [Daniel McFadden] в 2000 г., а также Роберт Энгл [Robert Engle] и Клайв Грейнджер [Clive Granger] в 2003 г. Премия 2000 г. выделялась тем, что отмечала работу двух ученых, соединивших теорию, лежащую в основе поведенческой экономики, с эконометрическим моделированием. Пример 1.1. Модели поведенческой экономики и нобелевские лауреаты Теоретическим фундаментом новаторских работ Джеймса Хекмана (James Heckman) и Дэна МакФаддена (Dan McFadden) была теория максимизации полезности. Работа Хекмана начинается со стандартной модели домохозяйства, максимизирующего полезность путем балансирования потребления и досуга. Обычная модель базового учебника определяет спрос на досуг, который затем превращается в функцию предложения на рынке труда. Если домашнее производство (работа, выполняемая внутри домохозяйства без выхода на внешний формальный рынок труда) учитывается в модели, то число желаемых «часов» досуга может оказаться отрицательным. Определяющей переменной служит «резервная» заработная плата — уровень заработной платы, при котором у членов домохозяйства возникает желание участвовать в формальном рынке труда. Со стороны спроса на рынке труда фирмы предлагают рыночный уровень заработной платы, зависящий от таких параметров, как возраст работника, уровень его образования и опыт. Что можно сказать о поведении на рынке предложения труда, основываясь на наблюдаемых рыночных зарплатах, перечисленных переменных и наблюдаемых отработанных часах на формальном рынке труда? Меньше, чем могло бы показаться на первый взгляд: интуитивно ясно, что наши наблюдения упускают половину рынка, поскольку данные об активности на формальном рынке труда не являются случайными для всего населения. Наблюдения Хекмана относительно этого неявного урезания выборки зарплат и часов работы перевернули всю область исследования рынков 1.2. Парадигма эконометрики 3 труда. Интерпретации подобных наблюдений в других социальных науках также стали важными направляющими исследований. Методы изучения влияния различных мер, как, например, инициатив в области образования, обучения, борьбы с безработицей, медицинского страхования, создания рынков, финансового регулирования и многих других, теперь в значительной степени основываются на новаторских идеях Хекмана о том, что если факт участия служит частью изучаемого явления, то исследователь должен изучать эффект влияния различных факторов как на само участие, так и на его исход. Мы рассмотрим литературу о проблемах, возникающих из-за отбора наблюдений, и о влиянии различных программ и воздействий в главе 18. Описания теорий спроса на товары, создающего полезность, приводимые в учебниках, будучи основаны на непрерывных переменных, обычно ничего не говорят о дискретных решениях, которые ежедневно принимают экономические агенты: какую выбрать марку товара, покупать ли какой-то дорогой товар вроде холодильника или автомобиля, как добираться до работы, покупать или снимать жилье, где жить, за какого кандидата голосовать и т.д. Однако модель «случайной полезности», определенной на тех вариантах, между которыми моделируется выбор потребителя, дает прочную теоретическую базу для исследования. В число важных переменных, как обычно, входят доход и относительные цены товаров. Что мы можем узнать о структуре предпочтений потребителей из сделанного ими выбора? Какие предположения необходимо сделать в отношении этих предпочтений, чтобы иметь возможность делать статистические выводы? Какого вида статистические модели могут позволить нам строить выводы о предпочтениях потребителей? Работа МакФаддена о том, как люди выбирают способ, которым будут добираться до работы, и о том, какая теоретическая база лежит в основе подобного моделирования, направляла эмпирические исследования дискретного выбора потребителей в течение нескольких десятилетий. Модели дискретного выбора МакФаддена будут рассмотрены нами в главе 18. Связь между поведенческими моделями и современной эконометрической практикой становится все более сильной. Можно провести полезное микроэконометрикой макроэконометрикой. разделение между и Первая обычно изучает межобъектные либо панельные данные, касающиеся отдельных потребителей, фирм и других агентов на микроуровне. Исследователи активно используют теоретический инструментарий микроэкономики, включая теории максимизации полезности, максимизации прибыли и рыночного равновесия. Исследования направлены на тонкие и сложные вопросы, часто требующие нетривиальных формулировок. Вот некоторые приложения: Каково возможное влияние на предложение на рынке труда отрицательных подоходных налогов? [Ashenfelter and Heckman (1974).] • Влияет ли учеба в элитном колледже на ожидаемое увеличение будущего пожизненного дохода, достаточного для оправдания более высоких затрат на обучение? [Kreuger and Dale (1999) and Kreuger (2000).] 4 Глава 1. Эконометрика • Дает ли какие-либо положительные результаты создание добровольной программы обучения? Могут ли эти результаты быть точно измерены? [Angrist (2001).] • Повышает ли успеваемость уменьшение числа учеников в классе? [Hanuschek (1999), Hoxby (2000), Angrist and Lavy (1999).] • Побуждает ли наличие медицинской страховки людей к тому, чтобы они чаще обращались к врачу: возможно ли измерить риск недобросовестного поведения? [Riphahn et al. (2003).] Макроэконометристы исследуют в основном данные временных рядов, причем, как правило, описывающих агрегированные данные, такие как уровень цен, предложение денег, обменные курсы, объем производства, уровень инвестиций, экономический рост и т.д. Граница между микро- и макроэконометрикой не является строгой. Так, например, ниже будет рассматриваться лежащее где-то между этими категориями приложение, описывающее траты муниципальных объединений. Значительная часть финансовой эконометрики изучает длинные временные ряды (а иногда очень большие панели), но при этом фокусируется на моделях, объясняющих поведение отдельных индивидов. Анализ рыночных уровней доходности или поведения обменных курсов не является частью исключительно микро- или макроэконометрики. (В этой книге финансовая эконометрика рассматриваться не будет. Читателям, интересующимся этой областью, мы можем порекомендовать известную книгу Campbell, Lo, and Mackinlay (1997) или Tsay (2005), где больше внимания уделяется анализу временных рядов.) Исследователи, занимающиеся построением макроэкономических моделей, обычно опираются на взаимодействие экономических агентов с властями, определяющими экономическую политику, например, по вопросам: • Приводит ли к снижению реального выпуска в экономике США монетарная политика, сильно ориентированная на контроль над инфляцией? [Cecchetti and Rich (2001).] • Привело ли сокращение федеральных налогов в США в 2001 г. (самое сильное в истории) к усилению или ослаблению тогдашней экономической рецессии? Или оно вообще не повлияло на ее ход? Изучение любого из этих вопросов будет начинаться с рассмотрения формальной модели процесса, порождающего наблюдаемые данные. 1.3. Практическая эконометрика Еще одну границу можно провести между теоретической и прикладной эконометрикой. Теоретики разрабатывают новые техники построения оценок и проверки гипотез, а также изучают возможные последствия применения тех или иных методов в ситуациях, когда предположения, используемые этими методами, не выполняются для имеющихся данных. Прикладные эконометристы пользуются этими методами и анализируют данные («реальные» и придуманные). Граница опять не является четкой: практики 1.4. Эконометрическое моделирование 5 часто создают новые методы специально для той проблемы, которой занимаются. Данная книга содержит много эконометрической теории, но направлена в сторону прикладной эконометрики. Мы пытались сделать обзор общеупотребительных методов, иногда довольно сложных, которые активно используются в реальных исследованиях. Прикладные эконометрические методы используются для оценки важных величин, анализа результатов изменения экономической политики, изучения рынков и экономического поведения индивидов, проверки гипотез и прогнозирования. Последнее представляет собой отдельную науку или даже искусство и служит темой для широкого класса исследований. В этой книге мы рассмотрим некоторые вопросы прогнозирования, но в основном будем заниматься оценкой и анализом моделей. В тех случаях, когда такое разделение имеет смысл, будем стараться демонстрировать и микро-, и макроэконометрические методы и приложения. Также следует выделить анализ временных рядов (не являющийся основной темой этой книги) и те методы, которые в основном используют данные временных рядов. Анализ временных рядов, как и прогнозирование, является самостоятельной быстроразвивающейся дисциплиной, которой посвящен большой объем литературы в различных областях. Хотя мы и будем использовать некоторые методы анализа временных рядов, но не будем уделять слишком большого внимания обоснованию этих методов. 1.4. Эконометрическое моделирование Эконометрический анализ обычно начинается с формулировки теоретического утверждения. Возьмем, например, классическую модель одного из современников Фриша. Пример 1.2. Кейнсианская функция потребления General Theory of Employment, Interest Процитируем работу Кейнса (1936) and Money : Мы будем называть склонностью к потреблению функциональную зависимость f между уровнем дохода X и расходами на потребление при этом уровне дохода, т.е. Сумма, C C = f (X). которую общество затрачивает на потребление, зависит (i) частично от уровня дохода, (ii) частично от других наблюдаемых условий окружающего мира и (iii) частично от субъективных потребностей, психологических особенностей и привычек индивидов, из которых состоит это общество. Базовый психологический закон, на который мы можем полагаться с полной уверенностью как априорно исходя из наших знаний о человеческой природе, так и из опыта, состоит в том, что люди, как правило, увеличивают потребление при росте дохода, но не на всю величину роста дохода. Значит... dC/dX положительна и меньше единицы. 6 Глава 1. Эконометрика Однако ясно, что помимо кратких периодов быстрого изменения дохода более высокий абсолютный уровень доходов будет, как правило, увеличивать разницу между доходом и потреблением.. . . По этим причинам доля дохода, сохраняемая в виде сбережений, будет, скорее всего, увеличиваться при росте реального дохода. Следовательно, теория предполагает наличие зависимости между потреблением и доходом: а во втором абзаце утверждает, C = f (X), что предельная склонность к потреблению (MPC, marginal propensity to 1 consume), находится между нулем и единицей . Последний абзац dC/dX, содержит утверждение о том, что средняя склонность к потреблению (APC, average propensity to consume), убывает при росте дохода, т.е. C/X, − Следовательно, Наиболее d(C/X)/dX = (MPC APC )/X < 0. MPC < APC. часто в качестве функции потребления используют линейную функцию C = α + Xβ, которая удовлетворяет «законам» Кейнса при значениях β между нулем и единицей и значениях больших нуля. α, Рис. 1.1. Агрегированное потребление и доходы в США, 2000–2009 гг. Эти теоретические предположения являются базой эконометрического исследования. При наличии подходящих данных мы могли бы изучить, соответствует ли эта теория наблюдаемым «фактам». Например, можно было бы проверить, будет ли линейная функция удовлетворительным описанием зависимости между потреблением и реальным доходом и, если это так, является ли величина положительной и лежит ли между α β нулем и единицей. Можно также исследовать, (1) является ли зависимость неизменной во времени или изменяется от одного поколения к следующему (изменение средней склонности к сбережению, равной 1−APC, может свидетельствовать о существенном изменении экономического поведения потребителей); (2) существуют ли систематические различия в поведении потребителей в различных странах и, если это так, чем они 1.4. Эконометрическое моделирование 7 могут объясняться; (3) существуют ли другие факторы, включение которых могло бы улучшить способность модели объяснять связь между уровнями потребления и дохода. Например, на рис. 1.1 показаны агрегированные данные об уровне личного потребления и о личных доходах в постоянных ценах в США за десятилетие 2000–2009 гг. (см. табл. F1.1 в приложении.) Кажется, по крайней мере на первый взгляд, что имеющиеся фактические данные укладываются в теорию. Зависимость, хоть и приблизительно, похожа на линейную, точка пересечения прямой, лучше всего приближающей данные, с осью абсцисс положительна, а наклон меньше единицы, хоть и ненамного. (Впрочем, если оценивать линейную регрессию методом наименьших квадратов, то свободный член окажется отрицательным, а не положительным.) Экономические теории, подобные описанной выше кейнсианской теории, обычно точны и конкретны. Модели спроса, производства, предложения на рынке труда, потребительского выбора, результатов повышения уровня образования, дохода и заработной платы, инвестиций, рыночного равдетерми- и агрегированного уровня потребления задают точные, нированные соотношения. Определяются зависимые и независимые переменные и вид связывающей их функции, а также, как правило, даются качественные предсказания относительно направления влияния, происходящего при изменении независимых переменных. Модель представляет собой упрощение действительности. Модель будет описывать наиболее заметные аспекты рассматриваемого соотношения, но может упускать имеющие место влияния, которые исследователь счел маловажными. Корреляции между экономическими переменными можно легко обнаружить с помощью описательных статистик и методов, подобных линейной регрессии. Конечной целью большинства эконометрических моделей служит обнаружение более глубоких и сложных причинно-следственных связей с помощью структурных поведенческих моделей. Такой, например, является модель поведения «репрезентативного потребителя», предложенная Кейнсом для объяснения поведения макроэкономических переменных, таких как доход и уровень потребления. Построенная Хекманом модель предложения на рынке труда (см. пример 1.1) также определяется в терминах поведения отдельного индивида. В работе Berry, Levinsohn and Pakes (1995) авторы строят модель равновесного ценообразования на автомобильном рынке схожим образом. Ни одна модель не может претендовать на то, чтобы охватить все случайные аспекты экономической действительности. Значит, необходимо включать в модели случайные компоненты. Как следствие наблюдаемые значения переменной будут отличаться не только из-за разных значений факторов, напрямую включенных в модель, но и из-за случайности, содержащейся в поведении людей, и из-за влияния массы факторов, не включенных в модель. Введение в детерминированную модель случайного «возмущения» 1 Современные экономисты, как правило, не настолько уверены в своих теориях. Современные приложения обычно исходят из базовых принципов и аксиом поведенческой теории, а не из простых наблюдений. 8 Глава 1. Эконометрика необходимо не только для того, чтобы скрыть неадекватность модели, но и для того, чтобы при последующем анализе убедиться, что этот случайный необъясненный фактор действительно не поддается объяснению. Если это не так, то модель и в самом деле является неадекватной. [В примере, приведенном выше, оценка свободного члена в линейной регрессии методом наименьших квадратов оказывается отрицательной. Вызвано ли это неадекватностью теории или случайными флуктуациями данных? Возможно также, что теория в целом верна, но между 1936 г., когда Кейнс ее формулировал, и периодом 2000–2009 гг., когда собирали данные, произошли какие-то изменения. Также возможно, что метод наименьших квадратов не подходит для оценки этой модели и плохой результат (отрицательный свободный член) вызван именно этим.] Случайный элемент придает модели статистические свойства. Мы считаем, что наблюдаемые значения исследуемых переменных получены как выборка из некоторого случайного процесса. При наличии достаточно определенной стохастической структуры и подходящего набора данных анализ сводится к выводу свойств распределения вероятностей. Для этого в нашем распоряжении имеется инструментарий математической статистики. Любой модели (или теории) нельзя доверять целиком и полностью, если она не включает абсолютно все возможности. Но любую модель можно подвергнуть внимательному изучению и, если обнаружатся противоречия, отвергнуть. Детерминированная теория может быть разрушена одним противоречащим наблюдением. Дополнение модели случайными элементами превращает ее из точного утверждения в вероятностное описание ожидаемых исходов, откуда следует важный вывод. Теперь модель может быть опровергнута только при накоплении некоторой «критической массы» наблюдений, не укладывающихся в теорию. Какой именно должна быть «критическая масса» — вопрос, ответ на который субъективен. Таким образом, вероятностные модели, с одной стороны, менее точны, но с другой — более 2 устойчивы . Эконометрические методы используются в разных областях: в политике, социологии [см., напр., Long (1997) или DeMaris (2004)], экономике здравоохранения, медицинских исследованиях (что делать с людьми, отказавшимися от лечения до завершения испытания?), экономике окружающей среды, экономической географии, транспортном строительстве и многих других. Методы, описанные в этой книге, широко используются во всех этих областях. Процесс эконометрического анализа начинается с формулировки какой- либо теоретической зависимости. Вначале мы будем оптимистично считать, что нам доступны точные измерения всех переменных верно сформулированной модели. Если на всех этапах выполнены эти идеальные условия, то анализ можно провести без всяких осложнений. К сожалению, так бывает редко. Среди прочих трудностей нам могут встретиться такие: • Данные могут быть измерены с ошибками или соответствовать переменным теоретической модели лишь приблизительно. Так бывает, напри2 См. работу Keuzenkamp, Magnus (1995), в которой приводится подробное обсуждение проверки гипотез в эконометрике. 1.5. План книги 9 мер, при работе с «процентными ставками». • Некоторые переменные могут быть вообще ненаблюдаемы. К ним относятся, например, «ожидания». • Теория может давать лишь общие черты верной модели или не давать даже этого; в этом случае мы будем вынуждены выбирать из длинного списка возможных моделей. • Предполагаемые стохастические свойства случайных членов в модели могут явным образом нарушаться, что ставит под сомнение применяемые методы оценивания и статистические выводы. • Некоторые важные переменные могут отсутствовать в модели. • Условия сбора данных были такими, что полученная выборка систематически неверно представляет репрезентативную выборку из той группы (генеральной совокупности), которая представляет интерес в исследовании. этапы эконометрического анализа состоят в борьбе с этими проблемами и попытках понять, какая же информация содержится в несовершенной выборке. При этом используются методы математической статистики и экономической теории. Результатом этого процесса является эконометрическая модель. 1.5. План книги Эконометрика — большая и продолжающая увеличиваться область знаний. И довольно сложно написать курс для начинающих ее изучение. Цель этой книги — сначала выработать некоторый инструментарий, а потом научиться применять его в приложениях. Мы рассмотрим широкий, но не всеобъемлющий набор приложений; большинство читателей наверняка столкнется с некоторыми из них на практике. Мы будем пытаться приводить достаточно общие результаты, чтобы читатели могли применять разобранные здесь методы в других ситуациях и приложениях. Один из вариантов состоит в том, чтобы сгруппировать области изучения по данным, к которым обычно применяются рассматриваемые методы: межобъектные данные (кросс-секционные данные, перекрестные выборки), панельные данные, дискретные данные или данные временных рядов. Так3 можно было бы сразу разделить микро- и макроэконометрику . Однако в каждой из этих областей необходим некоторый общий инструментарий: модель множественной регрессии, использование моментных условий при 3 Методы микроэконометрики очень хорошо и на несколько более продвинутом уровне, чем в этой книге, изложены в работе Cameron, Trivedi (2005). Пока, насколько нам известно, нет всеобъемлющего пособия по макроэконометрике, включающего и теорию, и приложения. Из более специальных работ можно привести книгу Bardsen, G., Eitrheim, ., Jansen, E., and Nymoen, R. «The Econometrics of Macroeconomic Modelling» (Oxford University Press, 2005) и обзорные статьи Wallis, K. «Macroeconometric Models» // Macroeconomic Policy: Iceland in an Era of Global Integration / M. Gudmundsson, T.T. Herbertsson, and G. Zoega, eds., p. 399–414 (Reykjavik: University of Iceland Press, 2000); см. также: http://ecomod.net/conferences/ecomod2001/papers_web/Wallis_Iceland.pdf. 10 Глава 1. Эконометрика оценивании, инструментальные переменные (IV, instrumental variables), оценивание методом максимального правдоподобия. Учитывая это обстоятельство, мы решили построить эту книгу следующим образом: в первой ее половине разрабатываются фундаментальные понятия, необходимые для любого приложения. Понятие множественной регрессии и особенно модель линейной регрессии служат основой для большинства приложений, даже если сама линейная модель и не является окончательной эмпирической спецификацией. Эта часть книги заканчивается методами IV-оценивания и общим обзором методов моделирования панельных данных. Панельные данные используют широкий набор методов современной эконометрики, включая опять IV-оценивание, моделирование гетерогенности и широкий ассортимент различных обобщений линейной модели. Во второй половине книги рассматриваются различные темы. В части III дается обзор методов оценивания. Части IV и V посвящены соответственно микро- и макроэконометрике. Общий план книги выглядит так: I. Регрессионные модели Главы 2–6 посвящены модели множественной линейной регрессии. Мы поговорим о спецификациях таких моделей, об оценке их параметров и о статистических выводах из результатов оценивания. В этой части обсуждаются такие понятия, как методы оценки, робастный анализ, функциональная форма и основные принципы спецификации моделей. II. Обобщенная регрессия, инструментальные переменные и панельные данные В главе 7 модель регрессии распространяется на нелинейные функциональные формы. В главе 8 вводится метод инструментальных переменных. Главы 9 и 10 представляют обобщенную модель регрессии и системы регрессионных уравнений. Эта часть заканчивается обсуждением методов работы с панельными данными в главе 11. III. Методы оценивания В главах 12–16 приведены общие результаты, касающиеся таких методов оценивания, как GMM, метод максимального правдоподобия, и симуляционных методов. В главах 12 и 16 представлены различные формы оценивания, включая не- и полупараметрические методы, а также байесовские методы. IV. Методы микроэконометрики Главы 17–19 посвящены микроэконометрике, моделям дискретного выбора и моделям с ограниченными зависимыми переменными, а также изучению данных о событиях: сколько событий данного типа происходит при данных обстоятельствах и когда они происходят. Методы, которым посвящены эти главы, лучше всего подходят к межобъектным и панельным данным. V. Методы макроэконометрики В главах 20 и 21 мы будем говорить об анализе временных рядов и о макроэконометрике. VI. Дополнительный материал В приложениях с A по E излагаются необходимые базовые сведения из используемых в эконометрике областей матричной алгебры, теории вероятностей, статистического оценивания и асимптотической теории. 1.6. Предварительные замечания 11 В приложении E приведены некоторые результаты, связанные с вычислениями. Во всех приложениях даются краткие обзоры инструментария, необходимого в эконометрике. Поскольку мы предполагаем, что читатель уже обладает некоторыми познаниями в этих областях, эти разделы приведены лишь для освежения памяти и удобства ссылок. Мы не предполагаем, что эти разделы могут заменить курс по любой из включенных дисциплин. Наша цель — дать краткое изложение результатов, явно используемых в основных частях книги. Данные, используемые в численных примерах, приведены в приложении F. Также данные и другие дополнительные материалы можно скачать со страницы автора по адресу: http://pages.stern.nyu.edu/∼wgreene/Text/. 1.6. Предварительные замечания Прежде чем приступить к изложению, отметим некоторые особенности представления информации в книге. 1.6.1. Численные примеры В данной книге приводится множество численных примеров. Большинство из них являются либо независимыми упражнениями, либо фрагментами опубликованных исследований. Как правило, цель этих примеров — проиллюстрировать небольшое приложение метода или модели. При желании читатель может самостоятельно воспроизвести полученные результаты с помощью прилагаемых данных. Обычно это не требует воспроизведения всей опубликованной работы. В примерах будут разбираться в основном приложения, лишь ограниченно связанные с первоначальной работой, но зато акцентирующие внимание на определенном методе или модели. Например, в работе Riphahn, Wambach, Million (2003) приведен очень полезный и удобный (при сравнительно больших размерах) массив данных, на котором читатель может изучить различные проблемы экономики здравоохранения. В примерах также часто предлагаются пути дальнейшего исследования, иногда вновь на основе опубликованных работ. 1.6.2. Компьютерное обеспечение и воспроизводимость результатов Как уже отмечалось в предисловии, для проведения описываемых в этой книге вычислений можно использовать целый ряд современных мощных компьютерных программ. В большинстве случаев приводимые примеры можно воспроизвести в любом современном пакете, как в высокоуровневых интегрированных средах (как, например, NLOGIT, Stata или SAS), так и путем написания собственных программ на таких языках, как R, MatLab или Gauss. Единственным исключением здесь являются упражнения, основанные на симуляции. Поскольку каждый пакет использует собственный генератор случайных чисел, результаты нельзя воспроизвести в точности (если, конечно, вы не пользуетесь той же программой, что и мы). В таких случаях, впрочем, разница в получаемых результатах будет равна небольшому 12 Глава 1. Эконометрика случайному колебанию. Основные результаты и свойства, рассматриваемые в этих приложениях, должны быть воспроизводимы в любом из упомянутых программных пакетов. Мы еще вернемся к вопросу воспроизводимости результатов по ходу книги, например в разделе 15.2, где будем говорить о методах генерирования случайных чисел для оценок, основанных на симуляциях. Соглашения об обозначениях Мы будем пользоваться векторной и матричной записью и преобразованиями на протяжении всей книги. Будут использоваться следующие формы записи: скалярные переменные будут обозначаться строчными наклонными буквами, как, например, или ; векторы-столбцы скалярных значеy x nK   β 1 β 2   ний — жирными строчными буквами, например, β = , x или b. Раз-  .  .   .   β k меры вектора-столбца всегда записываются в той же форме, что и размеры матрицы с одним столбцом, т.е., например, × или × и т.п. Матрицы K 1 n 1 всегда будут обозначаться жирными заглавными буквами, как, например,   · · · x x x 11 12 1K · · · x x x 21 22 2K   матрица размером × . n K, X =  . . .  .. . . .   . . . .   · · · x x x n1 n2 nK Отдельные элементы матрицы всегда будут обозначаться нижними индексами, причем первый будет соответствовать номеру строки, а второй — столбца. Транспонирование вектора или матрицы будет обозначаться штрихом. Вектор-строка получается транспонированием вектора-столбца. Так, β = [β , β , . . . , β ]. Произведение строки и столбца всегда будет записы1 2 K ваться в виде · · · . Элементы матрицы X образуют β x =β x + β x + + β x 1 1 2 2 K K набор векторов. Разлагая на столбцы, получаем — кажX = [x , x , . . . , x ] 1 2 K дый столбец есть вектор размера × Единственным, к сожалению, неизn 1. бежным источником путаницы здесь может быть обозначение, используемое для строки матрицы X. Элементы i-й строки X образуют вектор-строку Если матрица X обозначает матрицу данных, мы буx = [x , x , . . . , x ]. i1 i2 iK i дем индексом обозначать наблюдения (строки), а — переменные (столбi Как мы уже отметили, к сожалению, при этом может казаться, что x , i полученный транспонированием x , будет i-м столбцом X, что является конi наших правил записи. Однако нам ничего другого не остается, и мы будем следовать этим правилам, всегда обозначая за вектор-строку, x i i-й полученную из строки матрицы X. Обсуждение использующихся в этой книге результатов из матричной алгебры приведено в приложении А. Особенную важность представляет результат раздела А.2.7 о суммировании и об элементах матрицы произведения матриц X X. ГЛАВА 2 Модель линейной регрессии 2.1. Введение Эконометрика занимается построением моделей. В начале нашего обсуждения рассмотрим такой интересный вопрос: а что такое модель? Описание модели обычно начинают с наблюдения или предположения о том, что одна переменная вызывается другой или ее изменение связано с изменениями другой или с какого-либо другого качественного высказывания о наличии связей между переменной и одной или несколькими ковариатами, которые предположительно связаны с интересующей нас переменной. Модель может содержать общее высказывание поведенческого плана, например, что пользование услугами здравоохранения зависит среди прочего от оценки потребителями собственного здоровья, демографических показателей, например уровня дохода, возраста и уровня образования, а также от наличия у них медицинской страховки и ее вида. Это высказывание может быть представлено как вербально, так и в графическом виде, например в виде блок-схемы или графа, описывающего направления ожидаемых причинно-следственных связей. Эконометрическая модель редко возникаидеи сразу в виде набора уравнений. Обычно она начинается с о наличии какой-то зависимости. Следующим естественным шагом для эконометриста является перевод этой идеи в набор уравнений, причем надо иметь в виду, что какую-то часть этих уравнений можно было бы далее использовать для получения ответов на вопросы о поведении интересующей исследователя переменной. В нашем примере более четким вопросом, ответ на который можно пытаться получить из формальной модели, мог бы быть, например, вопрос о зависимости между использованием услуг системы здравоохранения и медицинской страховкой. Точнее, является ли эта зависимость «положительной», т.е. склонен ли при прочих равных более полно застрахованный потребитель «потреблять больше услуг системы здравоохранения», или «отрицательной»? Или же можно задаться более точным вопросом: насколько больше (или меньше)? Эта глава и несколько последующих описывают инструментарий, которым эконометристы пользуются при построении моделей для поиска ответов на подобные вопросы с использованием данных и эконометрических методов. С точки зрения чисто статистической исследователь может думать о переменной (условно «уровень спроса на услуги здравоохранения и векy ковариат x (доход I, страховка T ) как о переменных, имеющих совместное распределение Будучи записанной в такой форме, заp (H, I, T ). висимость не представляется особенно интересной: какой статистический процесс порождает спрос на услуги здравоохранения, уровень дохода и тип страхования? Однако нужно учесть, что p (H, I, T ) = p (H| I, T ) p (I, T ) и, 14 Глава 2. Модель линейной регрессии таким образом, модель раскладывается на два процесса, один из которых определяет совместное распределение дохода и уровня страхования в генеральной совокупности, а второй — распределение спроса на услуги здравоохранения при конкретных уровне дохода и типе страхования. При этой форме записи особенный интерес представляет условное распределение в то время как распределение уровня дохода и типа страp(H| I, T ), p(I, T ), хования, вторично или даже вообще малоинтересно. (С другой стороны, при этом же подходе можно также изучать условный спрос на страхование при данном уровне дохода |I).) Продолжая размышлять в том же ключе, можp(T понять, что исследователя обычно интересует не совместное распределение всех переменных модели, а условные распределения одной переменной относительно других. Понятие условного распределения дает нам отправную точку для размышлений о связи между целевой переменной y и набором переменных x, которые, как мы подозреваем, могут быть связаны с целевой переменной. Здесь возникает вопрос, возвращающий нас к дискуссии о том, что есть модель. Какие именно аспекты условного распределения могут представлять интерес? Строящий модель исследователь, думая о свойствах условного распределения, часто склонен уделять внимание прежде всего математическому ожиданию, думая в первую очередь о значении или о функции E[y|x] регрессии, что приводит нас к основной теме этой главы. В примере, приведенном выше, было бы естественно взять в качестве y число посещений врача, как это будет сделано в примере, который будет часто использоваться в дальнейшем. Если бы мы изучали уровень дохода который часто имеет I, сильно скошенное распределение, то среднее может не представлять большого интереса. Скорее всего, интересной статистикой была бы условная медиана для людей заданного возраста, С другой стороны, говоря M [I|x]. об уровнях дохода для различных возрастов, еще больший интерес могли бы представлять другие квантили, скажем, 20%-й уровень или черта бедности, определенная как, например, 5%-й квантиль. Наконец, для исследования в области финансов, где целевой переменной обычно является доходность актива, средние представляют малый интерес. По крайней мере, при некоторых подобных исследованиях средние вообще не представляют интереса; наиболее интересным объектом являются дисперсии, и в особенности условные дисперсии. Начиная говорить о модели линейной регрессии, важно понимать, что такое модель. Пока мы будем заниматься в основном условными средними, поскольку зачастую исследователя интересует именно этот аспект. Поняв, как можно анализировать функции регрессии, сможем пользоваться этим аппаратом для изучения других свойств распределений, например квантилей и дисперсий. Модель линейной регрессии является самым полезным из инструментов, доступных эконометристу. Несмотря на то что в современных исследованиях линейные регрессии все чаще являются лишь отправной точкой для полного анализа, именно с линейных регрессий начинаются почти все эмпирические исследования. Исследователи обычно рассматривают связи между переменными именно через призму линейных регрессий. В этой главе мы обсудим модель линейной регрессии и детально разберем основные предположения этой модели. В нескольких последующих главах 16 Глава 2. Модель линейной регрессии здесь может служить литература, посвященная модели потребления при постоянном уровне дохода [см., например, Friedman (1957)]. Мы предполагаем, что каждое наблюдение в выборке (y , x , x , . . . , x ), i i1 i2 iK i = 1, . . . , n порождено случайным процессом, описываемым уравнением y = x β + x β + · · · + x β + ε . i i1 1 i2 2 iK K i Наблюдаемое значение складывается из детерминированной части и слуy члена ε . Наша цель — оценить величины неизвестных параметров i модели, исследовать соответствие теоретической модели и имеющихся данных, исследовать на этих данных, выполняются ли предположения теории, и, возможно, предсказать с помощью модели значения переменной Наши y. дальнейшие действия существенно зависят от предположений относительно случайного процесса, породившего имеющиеся у нас наблюдения. Пример 2.1. Кейнсианская функция потребления В примере 1.2 рассматривалась модель потребления, предложенная Кейнсом в его General Theory (1936). Теория о том, что уровни потребления C и дохода X связаны, представляется вполне соответствующей наблюдаемым фактам, представленным на рис. 1.1 и 2.1. (Данные содержатся в табл. F2.1.) Рис. 2.1. Потребление в США в 1940–1950 гг. Конечно, линейная функция является всего лишь приближением. Даже если пропустить аномальные наблюдения военных лет, потребление и доход нельзя связать каким-либо простым детерминированным образом. Линейная модель C = α + βX предназначена в первую очередь для выделения некоторых важных свойств этой части экономики. Попытка описать все факторы, влияющие на эту связь, была бы обречена на провал. Следующий шаг — включить в модель случайность, содержащуюся 2.2. Модель линейной регрессии 17 в реальных переменных. Поэтому запишем где есть C = f (X, ε), ε случайный элемент. Здесь важно избежать соблазна воспринимать ε как универсальную «ловушку» для всех недостатков модели. Кажется, что модель с адекватно описывает данные без наблюдений военных лет, ε но для объяснения наблюдений 1942–1945 гг. явно не хватает чего-то систематического. Потребление в эти годы не могло подняться до уровня, исторически соответствующего уровням дохода, из-за ограничений военного времени. Модель, претендующая на объяснение уровня потребления в этот период, должна включать влияние этих факторов. Остается понять, каким образом случайный член должен быть включен в уравнение. Наиболее частый подход состоит в том, чтобы считать его аддитивным. Это значит, что уравнение нужно переписать в стохастических терминах в виде Это уравнение представляет C = α + βX + ε. собой эмпирический аналог теоретической модели Кейнса. Но как быть с «аномальным» периодом введения ограничений? Если мы проигнорируем нашу интуицию и попытаемся построить линейное приближение ко всей выборке (в следующей главе подробно описывается, как это сделать), то получим пунктирную линию рисунка. Однако эта линия очевидно смещена вследствие ограничений военного времени. Более подходящей для этих данных спецификацией, включающей как случайную составляющую, так и особые условия 1942–1945 гг., была бы линия, сдвинутая вниз в этот период, т.е. где новая переменная C = α + βX + d δ + ε, d waryears w waryears равна единице в 1942–1945 гг. и нулю для остальных наблюдений, а δ < 0. w Одной из наиболее полезных черт модели множественной регрессии является возможность выделить независимые влияния разных независимых переменных на зависимую переменную. В примере 2.2 описывается одна часто встречающаяся модель. Пример 2.2. Зарплата и образование Ряд исследований последних лет был посвящен вопросу о связи между уровнем образования и зарплатой. Можно было бы ожидать, что более высокий уровень образования (education) приводит в среднем к более высокому заработку (earnings). Простая модель регрессии earnings = β + β education + ε, 1 2 однако, не учитывает того факта, что у большинства людей доход в зрелом возрасте превышает доход в молодости независимо от уровня их образования. Значит, будет преувеличивать предельный эффект повышения β 2 уровня образования. Если возраст и образование имеют положительную корреляцию, то модель будет считать повышение дохода результатом исключительно повышения уровня образования. Спецификацию можно улучшить включением влияния возраста (age): earnings = β + β education + β age + ε. 1 2 3 18 Глава 2. Модель линейной регрессии Часто отмечают, что доход, как правило, растет медленнее в более поздние годы трудовой жизни, чем в начале карьеры. Чтобы учесть и это обстоятельство, модель можно дополнить следующим образом: 2 earnings = β + β education + β age + β age + ε. 1 2 3 4 Мы ожидаем, что будет положительным, а — отрицательным. Важβ свойством этой модели является то, что она позволяет нам провести мысленный эксперимент, который, возможно, был бы неосуществим на реальных данных. В данном примере мы могли бы сравнить заработок двух людей одинакового возраста, имеющих разный уровень образования, хотя выборка, возможно, и не содержит ни одной такой пары. Как нужно измерять уровень образования в такой модели — вопрос сложный. В исследовании Ashenfelter and Krueger (1994), сравнивающем заработки близнецов и применяющем как раз такую спецификацию модели, используется интересный подход. [Вообще исследования, использующие данные о близнецах или братьях и сестрах, часто встречаются при изучении связи уровня образования и доходов. Можно привести еще два таких исследования: Ashenfelter and Zimmerman (1997) и Bonjour, Cherkas, Haskel, Hawkes and Spector (2003).] Эта работа будет подробно рассматриваться в подразделе 8.5.3. Эксперимент, заложенный в построенной нами модели заработной платы, состоит в сравнении заработков двух одинаковых людей, отличающихся только уровнем образования. В этой интерпретации эффект образования будет равен ∂E[Earnings|Age, Education]/∂Education = β . 2 Можно, впрочем, возразить, что по-настоящему интересным было бы измерение ненаблюдаемого влияния повышения уровня образования на заработок конкретного индивида. Чтобы провести такой эксперимент в реальности, нужно было бы измерить его заработок дважды: один раз в реальной ситуации, Education , а второй — в гипотетической (hypothetical, i counterfactual), где уровень его образования равен Если Education + 1. i мы будем рассматривать в этом примере как воздействие Education (treatment), то целью эксперимента будет изучение влияния воздействия на подвергшегося воздействию. Попытка сделать подобный вывод из реальных данных, сравнивая двух «идентичных в других отношениях» индивидов, будет предпринята нами в главе 19. Большой объем литературы посвящен следующему интересному вопросу: уровень образования в этой модели нельзя считать полностью независимым. Высокомотивированные индивиды, скорее всего, будут получать более высокий уровень образования (например, поступать в колледж или магистратуру). Но исходя из тех же качеств они также будут в среднем более склонны выбирать занятия, приводящие к более высокому уровню дохода. Если это так, то неясно, свидетельствует ли положительное о том, что доход связан с уровнем образования, или же отражает β 2 некоторую общую причину, влияющую на обе переменные модели, но которую мы не включили в наше уравнение регрессии? Мы вернемся к 2 этому вопросу в главе 19 . 2.3. Предположения модели линейной регрессии 21 и линейны по некоторой функции по использованному +ε y = α +β ln x+ε x здесь определению. В этих примерах преобразования применялись только β ε к но могли бы применяться и к как, например, в уравнении , x, y, y = A x e задающем линейную связь между логарифмами x и y, ln y = α + β ln x+ Выбор функций ничем не ограничен. Эта черта модели используется во +ε. многих функциональных формах уравнения регрессии. Например, логлинейная (или линейная в логарифмах) модель записывается как · · · ln y = β + β ln x + β ln x + + β ln x + ε. 1 2 2 3 3 K K Эта модель известна также как уравнение постоянной эластичности, так как в нем эластичность y по x равна ∂ ln y/∂ ln x = β и не зависит от x . k k k Логлинейная форма часто используется в моделях спроса и производства. Разные значения дают существенно различные функции. β Пример 2.3. Рынок бензина в США Данные о рынке бензина в США в 1953–2004 гг. приведены в табл. F2.2 приложения F. Мы используем эти данные, чтобы получить среди прочего оценки эластичностей спроса на этом рынке по доходу потребителей, цене и цене других товаров. Используя эти данные, можно поднять следующий интересный вопрос: что произойдет, если изменять значения некоторых переменных, оставляя значения остальных постоянными, как предлагалось в примере 2.2? Например, рассмотрим следующую урезанную модель потребления бензина на душу населения: ln(G/pop) = β + β ln(Income/pop) + β ln price + β ln P + 1 2 3 4 newcars G +β ln P + ε. 5 usedcars Эта модель позволяет получить оценки эластичностей спроса на бензин по доходу потребителей и по цене бензина, а также оценку эластичности спроса по ценам новых и подержанных автомобилей. Какой мы могли бы ожидать знак у β ? Автомобили и бензин являются комплементарными 4 товарами, так что при росте цен на новые автомобили при прочих равных условиях нужно было бы ожидать падения потребления бензина. Нужно ли? Если цены на новые автомобили растут, то потребители будут менее охотно их покупать; значит, старые автомобили будут использоваться дольше. Если старые автомобили потребляют больше бензина, то рост цен на автомобили приведет к росту, а не к падению спроса на бензин. Для ответа на этот вопрос нужно воспользоваться моделью множественной регрессии и данными по рынку бензина. Полулогарифмическими моделями часто пользуются при моделировании темпов роста: ln y = x β + δt + ε . t t t В этой модели самостоятельный (по крайней мере, необъясняемый этой моделью) мультипликативный темп роста в каждом периоде равен ∂ ln y/∂t = 22 Глава 2. Модель линейной регрессии Другие варианты конкретизации общего вида модели δ. f (y ) = g(x β + ε ) t t t дадут большой набор возможных функциональных форм, каждая из которых соответствует нашему определению линейности модели. Модель линейной регрессии часто интерпретируют как приближение к какой-то настоящей неизвестной функции. (См. обсуждение в разделе A.8.1.) При такой интерпретации, однако, линейная модель даже с включением квадратичных членов представляется довольно ограниченной, поскольку такое приближение, скорее всего, будет полезно лишь в небольшом интервале значений независимых переменных. Транслогарифмическая модель, обсуждаемая в примере 2.4, показывает гораздо большую эффективность в качестве аппроксимирующей функции. Пример 2.4. Транслогарифмическая модель Авторы современных работ, изучающие спрос и производство, обычно пользуются гибкими функциональными формами уравнений регрессии. Гибкие функциональные формы используются в эконометрических исследованиях благодаря тому, что они позволяют исследователям моделировать нетривиальные особенности функции производства, такие как, например, эластичности замещения, которые являются функциями от вторых производных объема производства, стоимости или функции полезности. В линейной модели эти производные гарантированно равны нулю, а логлинейная модель (например, модель Кобба–Дугласа) ограничивает значения этих эластичностей плюс или минус единицей. Наиболее популярной гибкой функциональной формой является транслогарифмическая модель, которую можно воспринимать как приближение второго порядка к неизвестной функциональной форме. [Berndt and Christensen (1973).] К этой модели можно прийти, например, следующим образом. Сначала запишем Тогда y = g(x , . . . , x ). ln y = ln g(. . .) = f (. . .). 1 K Поскольку мы можем рассмотреть тривиальное преобразование x = k = exp(ln x ), запишем эту функцию как функцию от логарифмов x-в. Итак, k ln y = f (ln x , . . . , ln x ). 1 K Разложим эту функцию в ряд Тейлора (до члена второго порядка) в точке (в этой точке логарифмы всех переменных равны 0). x = [1, 1, . . . , 1] Тогда K ln y = f (0) + [∂f (·)/∂ ln x ] ln x + | k ln =0 k x k=1 K K 1 2 + [∂ f (·)/∂ ln x ∂ ln x ] ln x ln x + ε. | k l ln =0 k l x 2 k=1 l=1 Эта модель предполагает, что шоки представляют собой как обычные факторы, так и ошибки приближения к неизвестной функции. Поскольку 2.3. Предположения модели линейной регрессии 25 2.3.3. Регрессия Предполагается, что случайный шок в каждом наблюдении имеет условное математическое ожидание, равное нулю, что записывается в виде E [ε | X] = 0. (2-6) i Для всей выборки предположение 3 записывается в виде   E [ε | X] 1 | E [ε X] 2   E [ε | X]= =0. (2-7)  .  .   .   | E [ε X] n Здесь есть тонкое место, которое наверняка заметил внимательный читатель. В (2-7) в левой части написано, что математическое ожидание кажусловно по всем наблюдениям дого ε x равно нулю. Фактически это предi об условном математическом ожидании говорит, что никакое наблюдение из x не дает никакой информации об ожидаемом значении шока. Можно представить (например, при изучении временных рядов), что, из другого несмотря на то что x не дает никакой информации о E [ε |·], x i i j наблюдения, например в следующем периоде, дает эту информацию. Наше предположение на данном этапе состоит в том, что информации о | ·] E [ε i нет ни в каком . Позднее, когда мы будем обобщать нашу модель, изуx возможные последствия нарушения этого предположения. [Wooldridge (1995).] Мы также будем предполагать, что значения случайных шоков не содержат информации друг о друге, т.е. | E [ε ε , . . . , ε , ε , . . . , ε ] = 0. i 1 i−1 i+1 n Резюмируя, пока мы предполагаем, что все случайные шоки являются случайной выборкой из одного и того же распределения. Нулевое условное математическое ожидание влечет равенство безусловного математического ожидания нулю, поскольку | E [ε ] = E [E [ε X]] = E [0] = 0. i x i x Так как для всех | из предположения 3 следует, ε Cov[E [ε X], X] = Cov[ε , X], i i i что Cov[ε для всех Обратное неверно: из того, что не , X]=0 i. E[ε ] = 0, i i следует |x Это различие иллюстрирует пример 2.7. E[ε ] = 0. i i Пример 2.7. Ненулевое условное среднее шоков На рис. 2.2 показано важное различие между и |x E[ε ] = 0 E[ε ] = i i i Среднее всех возмущений в выборке равно нулю, но среднее на = 0. некоторых интервалах значений x явно отличается о нуля. Такая картина в наблюдаемых данных является сигналом о том, что предположение о линейности регрессии нужно подвергнуть сомнению. В данном случае истинной функцией условного среднего (которую исследователь не мог 26 Глава 2. Модель линейной регрессии знать заранее) на самом деле является Данные E[y|x] = 1 + exp(1, 5x). выборки показывают, что линейная модель не подходит для них. Эта возможность будет далее рассматриваться в модели в примере 6.6. Рис. 2.2. Шоки с ненулевыми условными математическими ожиданиями и нулевым безусловным математическим ожиданием В большинстве случаев предположение о нулевом безусловном математическом ожидании не является существенным ограничением. Возьмем модель с двумя переменными и предположим, что среднее ε равно µ = 0. Тогда совпадает с − Обозначая и α + βx + ε (α + µ) + βx + (ε µ). α = α + µ ε = εµ, мы получаем исходную модель. Подобная модель встретится нам в главе 19, при обсуждении функций производственной границы (или граничной производственной функции). Но если исходная модель не содержит постоянного члена, то предположение может быть содержательным. E [ε ] = 0 i Возникает подозрение, что использование моделей без константы может привести к проблемам. Как правило, модели регрессий должны включать 3 константу, если только отсутствие константы не следует из теории . Можно утверждать, что если мы по каким-то причинам предполагаем, что математическое ожидание шоков может быть отлично от нуля, то это нужно учитывать в содержательной части регрессии, а в шоках оставлять только неизвестную часть ε: | (2-8) E [y X] = Xβ. 3 Модели, описывающие первые разности переменных, часто специфицируются без константы. Рассмотрим − . Если в правой части присутствует константа то является y y α, y t t t−1 функцией т.е. имеет временной тренд. Моделям с временным трендом уделяется отдельное αt, место в литературе об анализе временных рядов. Мы вернемся к этой теме в главе 21. 2.3. Предположения модели линейной регрессии 29 выборки, порождающий эти регрессоры. Основным здесь является предположение 3 (отсутствие корреляции между X и Однако такой подход тоε). неидеален: X может содержать неслучайные элементы (например, константу, временной тренд или дамми-переменные, обозначающие временные периоды). Таким образом, ситуация не очень ясна. Однако есть простой способ избежать излишних трудностей: мы будем считать, что X может содержать смесь констант и случайных величин, а математические ожидания и дисперсии ε не зависят ни от каких элементов X. i X может быть как фиксированным, так и случайным. (2-10) 2.3.6. Нормальность Удобно предположить, что шоки распределены нормально и имеют нулевые средние и постоянную дисперсию. Таким образом, предположения 3 и 4 мы дополняем предположением о нормальности распределения. 2 ε | X∼N[0,σ I]. (2-11) В случае если источник возникновения шоков соответствует нашему ε описанию выше, будет, хотя бы приблизительно, приложима центральная предельная теорема, а значит, в большинстве ситуаций предположение о нормальности имеет смысл. Полезным следствием предположения 6 является то, что не только не коррелируют между собой, но еще и статистиε независимы. [См. третий пункт в разделе B.9 (B-97) и (B-99).] Предположение о нормальности часто считают ненужным и даже излишним дополнением к классической модели регрессии. Однако это предположение представляется разумным в большинстве случаев, кроме ситуаций, когда явно предполагается другое распределение, как, например, в модели стохастической границы в главе 19. Условие нормальности не является необходимым для получения многих результатов, используемых при анализе регрессий, однако это предположение позволяет получить ряд точных статистических результатов. Оно оказывается полезным при построении статистических тестов и доверительных интервалов, как мы увидим в разделе 4.5 и главе 5. Позже мы сможем ослабить это предположение, сохранив при этом большую часть полученных статистических результатов. (См. разделы 4.4 и 5.6.) 2.3.7. Независимость Слово «независимость» в этой главе использовалось в нескольких разных смыслах. В разделе 2.2 переменные из правой части уравнения модели называются независимыми. Здесь понятие независимости относится к источнику изменений. В контексте рассматриваемой модели источники изменения независимых переменных лежат за пределами описываемого процесса. Так, 30 Глава 2. Модель линейной регрессии в нашем примере из введения о связи дохода и пользования услугами здравоохранения мы предложили теорию, связывающую изменение дохода и изменение объема пользования услугами здравоохранения. Но мы не пытались объяснить изменение дохода в выборке; предполагается, что доход изменится по причинам, лежащим вне данной модели. Предположение 3, |X] называют независимостью в среднем E[ε = 0, i (mean independence). Из него следует, что изменения шоков не объясняются изменениями независимых переменных. В подразделе 2.3.4 мы также предположили, что возмущения не коррелируют между собой. (Предположение A4 в табл. 2.1.) Отсюда также следует, что |ε при — возE[ε ] = 0 i = j i j мущения независимы в среднем между собой. Условная нормальность возмущений, сформулированная в подразделе 2.3.6 (предположение A6), влечет статистическую независимость (statistical independence) возмущений друг от друга, что является более сильным утверждением, чем независимость в среднем. Наконец, в подразделе 2.3.2 говорится о линейной независимости (linear independence) столбцов матрицы Здесь используется алгебраичеX. понятие независимости, связанное с рангом матрицы по столбцам. В X данном случае это нужно интерпретировать так: переменные модели должны иметь возможность изменяться без сохранения какой-либо линейной зависимости. В примере 2.6 мы видели, что логарифмы площади, отношения сторон и высоты картины не могут изменяться независимо. Последствие этого для построения модели состоит в том, что если переменные не могут независимо изменяться, то их невозможно изучать в модели линейной регрессии, которая предполагает, что значение переменной можно изменять при сохранении значений остальных переменных. Здесь есть некоторая неясность: в примере 2.2 мы включили в модель возраст и квадрат возраста. Ответ заключается в том, что, хоть эти две переменные и связаны функциональной зависимостью, между ними нет линейной зависимости. E ( y x) | x ( ) E y | x x 2 2 N ( x , ) 2 E ( y x x ) | 1 E ( y x x ) | 0 x x x x 0 1 2 Рис. 2.3. Классическая модель регрессии 2.4. Заключение 31 2.4. Заключение В этой главе была введена модель линейной регрессии, являющаяся основой для построения эконометрических моделей. Все предположения классической модели регрессии изображены на рис. 2.3 для случая двух переменных. термины и понятия Autocorrelation — Автокорреляция Linear independence — Линейная незаCentral limit theorem — Центральная висимость предельная теорема Linear regression model — Модель лиConditional median — Условная медиана нейной регрессии Conditional variation — Условная дисLoglinear model — Логлинейная модель персия (линейная в логарифмах модель) Constant elasticity — Постоянная элаMean independence — Независимость в стичность среднем Counterfactual — Гипотетический Multiple linear regression model — МоCovariate — Ковариата дель множественной линейной регресDependent variable — Зависимая пересии — Отсутствие автоDeterministic relationship — Детермикорреляции зависимость Nonstochastic regressors — НеслучайDisturbance — Возмущение, шок ные регрессоры Exogeneity — Экзогенность Normality — Нормальность Explained variable — Объясняемая переNormally distributed — Нормально расменная variable — Объясняющая переменная Path diagram — Граф Flexible functional form — Гибкая функPopulation regression equation — Теоциональная форма ретическое уравнение регрессии Full rank — Полный ранг Regressand — Регрессанд Heteroscedasticity — ГетероскедастичRegression — Регрессия ность Regressor — Регрессор Homoscedastity — Гомоскедастичность Second-order effects — Эффекты второго Identification condition — Условие иденпорядка — Полулогарифмический Impact of treatment on the treated — Spherical disturbances — Сферические Эффект воздействия на подвергшегося возмущения воздействию Independent variable — Независимая Translog model — Транслогарифмичепеременная модель ГЛАВА 3 Метод наименьших квадратов 3.1. Введение В главе 2 модель линейной регрессии определялась через набор свойств распределения, из которого получены данные. Существует несколько различных подходов к оценке параметров модели. По ряду причин как теоретического, так и практического характера, которые мы рассмотрим в нескольких последующих главах, метод наименьших квадратов долгое время оставался наиболее популярным. Более того, в большинстве случаев, даже если найден более предпочтительный метод оценки, метод наименьших квадратов все равно используется для сравнения, а зачастую и сам используемый метод оказывается некоторой модификацией метода наименьших квадратов. В этой главе мы начнем изучать этот метод и вначале представим ряд полезных результатов алгебраического характера. 3.2. Регрессия наименьших квадратов Объектом оценки являются неизвестные параметры стохастической зависимости Необходимо различать параметры распределения y = x β + ε β i i i и и их выборочные аналоги, которые мы будем обозначать b и . ε e i i Теоретическая регрессия (population regression) имеет вид | E [y x ] = x β, i i i а наша оценка E [y | x ] записывается в виде i i y ˆ = x b. i i Шок, соответствующий наблюдению, равен i-му − ε = y x β. i i i Для любого значения b мы будем оценивать при помощи остатка (residual): ε i − e = y x b. i i i Из этих определений получаем y = x β + ε = x b + e . i i i i i Эти уравнения применительно к регрессии с двумя переменными представлены на рис. 3.1. Характеристика распределения (population quantity) есть вектор неβ параметров распределения вероятности , оценку которых мы y i будем пытаться построить на основе данных выборки (y , x ), i = 1, . . . , n. i i 3.2. Регрессия наименьших квадратов 33 Это есть статистическая задача. Однако полезно начать с чисто алгебраической задачи выбора вектора b, при котором подобранная прямая максиx b i мально близка к нашим наблюдениям. Мера близости определяется критерием подгонки (fitting criterion). Несмотря на то что предлагались разные 1 критерии, чаще всего используют метод наименьших квадратов . x y e a bx E ( y|x) x ˆ y a bx x Рис. 3.1. Теоретическая и выборочная регрессии 3.2.1. Вектор коэффициентов метода наименьших квадратов Вектор коэффициентов метода наименьших квадратов минимизирует сумму квадратов остатков: n n 2 2 − (3-1) e = (y x b ) , i 0 i0 i i=1 i=1 где обозначает некоторый вектор коэффициентов. В матричных термиb минимизация суммы квадратов в (3-1) требует выбора такого , что b 0 Minimize S(b ) = e e = (y − Xb ) (y − Xb ). (3-2) b 0 0 0 0 0 0 Раскрывая скобки, получаем − − , (3-3) e e = y y b X y y Xb + b X Xb 0 0 0 0 0 0 или − S(b ) = y y 2y Xb + b X Xb . 0 0 0 0 1 Нам еще необходимо показать, что наилучшее с точки зрения метода наименьших квадратов приближение данных прямой линией дает оценки с хорошими статистическими свойствами. Интуитивно кажется, что это и действительно справедливо. К этим вопросам мы вернемся в главе 4. 34 Глава 3. Метод наименьших квадратов 2 Необходимым условием минимизации является ∂S(b ) 0 2 −2X (3-4) = y + 2X Xb = 0 . 0 ∂b 0 Пусть b — решение этого уравнения. Тогда, преобразовывая (3-4), получаем, что b удовлетворяет нормальным уравнениям метода наименьших квадратов (least squares normal equations): (3-5) X Xb = X y. Если существует матрица, обратная к (что следует из предположения о X X полноте ранга A2 из раздела 2.3), то решением будет −1 (3-6) b = (X X) X y. Чтобы это решение минимизировало сумму квадратов остатков, матрица S(b ) 0 = 2X X ∂b ∂b 0 0 должна быть положительно определенной. Пусть для некоторого q = c X Xc произвольного ненулевого вектора c. Тогда n 2 q = v v = v , где v = Xc. i i=1 Если не все элементы v равны нулю, то положительно. Но если вектор v q нулевой, то, поскольку v является линейной комбинацией столбцов X, нарушается предположение о полноте ранга X. Поскольку c произвольно, q положительно для всех ненулевых c, значит, 2X X положительно определена. Таким образом, если X имеет полный ранг, то минимум суммы квадратов остатков достигается, он единственный и равен b. 3.2.2. Приложение: уравнение инвестиций Чтобы проиллюстрировать вычисления метода наименьших квадратов в случае множественной регрессии, рассмотрим пример, основанный на макроэкономических данных из табл. F3.1 приложения. Чтобы оценить параметры уравнения инвестиций, мы сначала переведем данные инвестиций (Investment) и ВНП (GNP) из табл. F3.1 к реальному (Real) исчислению, разделив их на ИПЦ (CPI), а затем нормируем их так, чтобы значения были даны в триллионах долларов. Другие переменные регрессии — временной тренд (1, 2, . . .), процентная ставка и темп инфляции, вычисляемый как процентное изменение ИПЦ. Полученные матрицы данных приведены в табл. 3.1. Рассмотрим сначала регрессию реальных инвестиций на константу, временной тренд и реальный ВНП, обозначив их за и . (По причинам, котоx , x x 1 2 3 рые мы будем обсуждать в главе 21, это не очень удачно специфицированное 2 См. соответствующие результаты из курса математического анализа для матриц и векторов в приложении A.8. 3.2. Регрессия наименьших квадратов 35 уравнение для этих переменных. Однако оно вполне подойдет нам для простого численного примера.) Подставляя эти переменные в (3-5), получаем b n + b Σ T + b Σ G = Σ Y , 1 2 i i 3 i i i i 2 b Σ T + b Σ T + b Σ T G = Σ T Y , 1 i i 2 i 3 i i i i i i i 2 b Σ G + b Σ T G + b Σ G = Σ G Y . 1 i i 2 i i i 3 i i i i i Решение можно получить следующим образом. Сначала разделим первое уравнение на и преобразуем его так, чтобы n − − b = Y b T b G = 1 2 3 − × − × (3-7) = 0, 20333 b 8 b 1, 2873. 2 3 После подстановки этого результата в остальные два уравнения и ряда преобразований получаем набор из двух уравнений: 2 − − − − − b Σ (T T ) + b Σ (T T )(G G ) = Σ (T T )(Y Y ), 2 i i 3 i i i i i i 2 b Σ (T − T )(G − G ) + b Σ (G − G ) = Σ (G − G )(Y − Y ). 2 i i i 3 i i i i i (3-8) Это показывает, что оценки коэффициентов наклона (при переменных) можно получить из сумм квадратов и попарных произведений переменных, записанных в отклонениях от своего среднего. Обозначая строчными буквами величины, записанные в отклонениях от среднего, получаем оценки метода наименьших квадратов и в виде b b 2 3 2 Σ t y Σ g −Σ g y Σ t g 1,6040(0,359609)−0,066196(9,82) i i i i i i i i i i −0, b = i = = 0171984, 2 2 2 −(Σ 2 280(0,359609)−(9,82) 2 Σ t Σ g g t ) i i i i i i i 2 Σ g y Σ t −Σ t y Σ t g 0,066196(280)−1,6040(9,82) i i i i i i i i i i b = i = = 0, 653723. 3 2 2 −(Σ 2 280(0,359609)−(9,82) 2 Σ t Σ g g t ) i i i i i i i Имея эти оценки, оценку b можно получить из (3-7): b = −0, 500639. 1 1 Подумаем, что было бы, если бы мы оценивали регрессию только на константу и ВНП, без временного тренда. Корреляция, наблюдаемая в данных, будет частично объясняться, поскольку и инвестиции, и ВНП явно имеют временные тренды. Посмотрим, как этот эффект проявляется в вычислениях. Обозначая за b коэффициент при x в парной регрессии y на x и yx константу, имеем Σ g y i i i (3-9) b = = 0, 184078. yg 2 Σ g i i 2 2 Теперь разделим числитель и знаменатель выражения для на . b Σ t Σ g 3 i i i i Преобразовывая полученную формулу, используя определение выборочной 2 2 2 2 корреляции между G и T, r = (Σ g t ) /(Σ g Σ t ), и определив таким же i i i i i gt i i образом и , мы получаем b b yt tg b b b yg yt tg − (3-10) b = = 0, 653723. yg·t 2 2 − − 1 r 1 r gt gt 3.3. Раздельная и частичная регрессии 39 Рис. 3.2. Проекция y на плоскость, порожденную столбцами X менее вынуждены включить в модель еще и возраст. Здесь мы рассматриваем вопрос о том, какие вычисления нужно провести для получения коэффициентов лишь при некоторых переменных множественной регрессии (например, коэффициента при уровне образования в вышеупомянутой модели). что в регрессии участвуют два набора переменных, и X 1 X , т.е. модель имеет вид 2 y = Xβ + ε = X β + X β + ε. 1 1 2 2 Какой вид имеет алгебраическое решение для ? Запишем нормальные b 2 уравнения: (1) X X X X b X y 1 2 1 1 1 1 (3-17) = . (2) X X X X b X y 1 2 2 2 2 2 Решение можно получить с помощью блочной обратной матрицы из (A-74). Также можно напрямую воспользоваться формулами (1) и (2) в (3-17), решив их относительно . Сначала решим (1), выразив : b b 2 1 −1 −1 −1 b = (X X ) X y − (X X ) X X b = (X X ) X (y − X b ). (3-18) 1 1 1 2 2 1 2 2 1 1 1 1 1 1 Таким образом, b состоит из коэффициентов регрессии y на X и поправоч1 вектора. Сейчас мы сделаем небольшое отступление и обсудим важный результат, содержащийся в (3-18). Предположим, что Тогда X X = 0. b = 2 1 1 −1 т.е. совпадает с вектором коэффициентов в регрессии y на = (X X ) X y, 1 1 1 X . Общий результат сформулирован в следующей теореме. 1 40 Глава 3. Метод наименьших квадратов Теорема 3.1. Ортогональная частичная регрессия При оценке методом наименьших квадратов множественной регрессии y на два ортогональных множества переменных и векторы коэффициX X 1 2 ентов при переменных из каждого множества можно получить, оценивая регрессии отдельно на переменные из и отдельно на переменные из y X 1 . X 2 Доказательство. Предпосылка теоремы состоит в том, что X X = 0 в 2 1 нормальных уравнениях (3-17). Подставляя это в (3-18), получаем −1 и аналогичный результат для . b = (X X ) X y b 1 1 2 1 1 Если множества переменных и неортогональны, то полученные в X X 1 2 (3-17) и (3-18) решения относительно и несколько сложнее, чем проb b 1 2 стые регрессии в теореме 3.1. Более общее решение описывается следующей 3 теоремой, впервые опубликованной в первом томе журнала Econometrica . Теорема Фриша–Во–Ловелла Теорема 3.2. При оценке методом наименьших квадратов регрессии переменной y на два набора переменных, и подвектор есть множество X X , b 1 2 2 коэффициентов, получаемых при оценке регрессии остатков регрессии на y на набор остатков регрессий каждого из столбцов матрицы на . X X X 1 2 1 Доказательство. Начнем доказательство теоремы 3.2 с уравнения (2) в (317), т.е. X X b + X X b = X y. 1 1 2 2 2 2 2 Подставим сюда выражение для b из (3-18). Получаем 1 −1 −1 − X X (X X ) X y X X (X X ) X X b + X X b = X y. 1 1 1 1 2 2 2 2 2 1 1 2 1 1 2 2 Отсюда получаем решение: −1 −1 −1 − − b = X (I X (X X ) X )X X (I X (X X ) X )y = 2 1 1 2 1 1 2 1 1 2 1 1 −1 (3-19) = (X M X ) (X M y). 1 2 1 2 2 Матрицы в круглых скобках представляют собой «генераторы остатков», определенные в уравнении (3-14). В данном случае они определяются для регрессии на столбцы X . Значит, M X есть матрица остатков: каждый стол1 2 бец есть вектор остатков в регрессии соответствующего столбца M X X 1 2 2 3 Теорема была сформулирована во введении к статье следующим образом: «Включение тренда в регрессию никогда не даст лучших результатов, чем выделение тренда из отдельных переменных, поскольку оба метода по определению приводят к идентичным результатам». То есть Фриша и Во (Frisch and Waugh (1933)) интересовало отсутствие разницы между оценкой регрессии y на временной тренд t и переменную x и оценкой регрессии остатков от y при регрессии на константу и временной тренд на вычисленные так же остатки от Приводимая x. формулировка теоремы в терминах матриц была сформулирована позднее Ловеллом в работе Lovell (1963). 3.3. Раздельная и частичная регрессии 41 на переменные . Учитывая, что матрица , как и M, симметрична и X M 1 1 идемпотентна, можно переписать (3-19) в виде ∗ ∗ −1 ∗ ∗ (3-20) b = (X X ) X y , 2 2 2 2 где ∗ ∗ X = M X и y = M y. 1 2 1 2 Этот результат является фундаментальным для анализа регрессий. Эти действия часто называют выделением (partialing out, netting out) эффекта . По этой же причине коэффициенты множественной регрессии X 1 иногда называют коэффициентами частичной (partial) регрессии. Приложение этой теоремы к предложенной в начале этой главы задаче вычисления отдельного коэффициента производится следующим образом. Возьмем регрессию y на переменные X и дополнительную переменную z. Обозначим коэффициенты как b и c. Вывод 3.2.1. Отдельные коэффициенты регрессии Коэффициент при в множественной регрессии на можно z y W = [X, z] −1 ∗ ∗ −1 ∗ ∗ ∗ ∗ записать в виде где и — векторы c = (z Mz) (z My) = (z z ) z y z y ∗ остатков метода наименьших квадратов из регрессий и на z y X; z = Mz ∗ и где определялась формулой (3-14). y = My, M Это есть частный случай теоремы 3.2 с X , равным X, и X , равным z. 1 2 Говоря в терминах примера 2.2, мы можем получить коэффициент при уровне образования в множественной регрессии, сначала оценив регрессии заработка и уровня образования на возраст (или возраст и квадрат возраста), а затем использовать остатки этих регрессий в простой парной регрессии. Классическое применение этого результата, сделанное в работе Frisch and Waugh (1933) (авторы которой и были авторами самой теоремы), состоит в том, что при анализе временных рядов оценка регрессии с временным трендом дает те же результаты, что и регрессия, использующая переменные 4 с устраненным трендом (детрендированные переменные) . В качестве примера рассмотрим случай, когда является постоянным X 1 членом (т.е. — первый столбец состоит из единиц). Тогда — это коэфi наклона в регрессии с постоянным членом. Используя теорему 3.2, получаем вектор остатков для любой переменной из X : 2 −1 x∗ = x − X (X X ) X x 1 1 1 1 −1 − = x i(i i) i x = x − i(1/n)i x (3-21) − = x i ¯ x 0 = M x. (См. раздел A5.4, где мы выводим этот результат алгебраически.) Значит, в этом случае остатки есть отклонения от выборочного среднего. Таким образом, каждый столбец M X — это первоначальная переменная, записанная 1 2 4 Как в нашем примере про инвестиции. 42 Глава 3. Метод наименьших квадратов в отклонениях от своего выборочного среднего. Этот общий результат может быть записан как следующий вывод. Вывод 3.2.2. Регрессия с постоянным членом Коэффициенты наклона (коэффициенты при «экономических» переменных) множественной регрессии, содержащей постоянный член, могут быть получены путем замены всех переменных их отклонениями от выборочного среднего и построения оценки коэффициентов регрессии переменной y, записанной в новом виде, на объясняющие переменные, также записанные в виде отклонений. [Этот результат использовался в (3-8).] После получения коэффициентов при как получить коэффициенты при (коэффициент при константе)? МожX конечно, повторить всю процедуру, поменяв местами и . Но есть и X X 1 2 более простой способ. Мы уже нашли b . Значит, мы можем воспользоваться 2 (3-18) и найти . Если — просто столбец единиц, то первое уравнение b X 1 1 приводит к известной формуле − − · · · − b = y x b x b , 1 2 2 K K [чем мы воспользовались в (3-7)]. Теорему 3.2 и выводы 3.2.1 и 3.2.2 вместе можно использовать для интерпретации раздельной регрессии в том случае, если модель содержит постоянную. По теореме 3.1 если столбцы ортогональны, т. е. X x x = 0 m k для любых столбцов и то коэффициенты в регрессии на при k m, y X X = равны . Если регрессия содержит постоянную, то = [x , x , . . . , x ] x y/x x 1 2 K k k k мы можем вычислить коэффициенты множественной регрессии путем построения регрессии y в отклонениях на столбцы X тоже в отклонениях от их средних. В этом случае «ортогональность» столбцов означает, что выборочные ковариации (и корреляции) переменных равны нулю. Получаем новую теорему. Теорема 3.3. Ортогональная регрессия Если множественная регрессия на содержит постоянную и переменные y X регрессии не коррелируют между собой, то коэффициенты наклона в множественной регрессии равны коэффициентам парных регрессий на y константу и каждую переменную по отдельности. Доказательство. Этот результат следует из теорем 3.1 и 3.2. 3.4. Частичная регрессия и частные коэффициенты корреляции Множественная регрессия может применяться для проведения мысленного эксперимента, который, возможно, нельзя провести в реальности, анаceteris paribus лиза (при прочих равных условиях), который часто встреча- 3.4. Частичная регрессия и частные коэффициенты корреляции 43 ется в экономических рассуждениях. Возвращаясь к примеру 2.2, уравнение регрессии, связывающей заработок с возрастом и уровнем образования, позволяет нам провести мысленный эксперимент, сравнивающий заработда- двух людей одинакового возраста с разными уровнями образования, же если выборка не содержит ни одной такой пары. Именно это свойство регрессий подразумевается под названием частные коэффициенты регрессии. Чтобы провести такой эксперимент, нужно сначала оценить регрессии заработка и уровня образования на возраст и вычислить остатки этих регрессий. По построению возраст совершенно никак не будет объяснять разброс этих остатков. Значит, корреляция между такими «очищенными» заработком и уровнем образования не будет зависеть от возраста (она «очищена» от его влияния). Тот же подход можно применить к изучению коэффициентов корреляции между переменными. Продолжая наш пример, с какой долей уверенности мы можем утверждать, что корреляция между заработком и уровнем образования отражает прямую связь между ними, а не их совместную положительную зависимость от возраста? Чтобы ответить на этот вопрос, используются частные коэффициенты корреляции, способ расчета которых похож на способ вычисления отдельных коэффициентов регрессии. В нашем примере частный коэффициент корреляции заработка и уровня образования, исключающий эффект возраста, вычисляется так: 1. остатки в регрессии заработка на константу и возраст. y = ∗ 2. z = остатки в регрессии уровня образования на константу и возраст. ∗ ∗ 3. Частная корреляция равна простой корреляции и . r y z ∗ ∗ yz Может показаться, что здесь требуется большой объем вычислений. С помощью вывода 3.2.1 можно записать векторы остатков в пунктах 1 и 2 в −1 виде и где − — генератор остатков, y = My z = Mz, M = I X(X X) X ∗ ∗ определенный в (3-14). Мы будем предполагать, что содержит константу, X так что векторы остатков и имеют нулевые средние. Тогда квадрат y z ∗ ∗ частного коэффициента корреляции равен 2 (z y ) ∗ ∗2 ∗ r = . yz (z z )(y y ) ∗ ∗ ∗ ∗ Есть также еще одно удобное соотношение. После оценки множественной регрессии из (5-13), применяемую для проверки гипотезы о t-статистику равенстве коэффициента нулю (т.е. последний столбец табл. 4.1), можно использовать для вычисления: 2 t ∗2 z (3-22) r = , yz 2 t + число степеней свободы z где число степеней свободы равно Доказательство этого неочеn−(K +1). видного интуитивно результата может быть полезно в качестве иллюстрации к некоторым результатам, касающимся частичной регрессии. Мы будем пользоваться двумя полезными алгебраическими результатами метода наименьших квадратов. Первый дает способ вычислить отдельный диагональный элемент матрицы, обратной матрице моментов, такой как −1 (X X) . 44 Глава 3. Метод наименьших квадратов Теорема 3.4. Диагональные элементы матрицы, обратной к матрице моментов Пусть — блочная матрица т.е. матрица, состоящая из WPl [X, z], столбцов и дополнительного столбца Последний диагональный K X z. −1 −1 −1 элемент равен , где и (W W) (z Mz) = (z z ) z = Mz M = I− ∗ ∗ ∗ −1 −X(X X) X . Доказательство. Эта теорема есть приложение формулы обращения блочной матрицы (A-74), где и A = X X, A = X z, A = z X A = z z. 11 12 21 22 Обратим внимание, что эта теорема обобщает результат раздела A2.8, где содержал только константу, т.е. столбец X i. Мы можем воспользоваться теоремой 3.4, чтобы получить (3-22). Пусть и c u обозначают соответственно коэффициент при z и вектор остатков множественной регрессии y на W = [X, z]. Тогда по определению квадрат в (3-22) равен t-статистики 2 c 2 t = , z −1 u u (W W) K+1,K+1 n−(K+1) −1 где — это (последний) диагональный элемент матри(W W) K +1-й K+1,K+1 −1 цы . (Член в скобках входит в формулу (4-17). Мы пока пользуемся (W W) только алгебраическим результатом.) Теорема утверждает, что этот элемент −1 2 2 равен . Из вывода 3.2.1 мы знаем, что . Для удоб(z z ) c = [(z y )/(z z )] ∗ ∗ ∗ ∗ ∗ ∗ ства обозначим − Тогда DF = n (K + 1). 2 2 (z y /z z ) (z y ) DF ∗ ∗ ∗ 2 ∗ ∗ ∗ t = = . z (u u/DF )/z z (u u)(z z ) ∗ ∗ ∗ ∗ Отсюда следует, что формула (3-22) эквивалентна: 2 2 ( ) ( ) z y DF z y ∗ ∗ ∗ ∗ 2 2 t (z y ) (u u)(z z ) (u u)(z z ) ∗ ∗ z ∗ ∗ ∗ ∗ = = = . 2 2 2 2 t + DF (z y ) DF (z y ) (z y ) + (u u) (z z ) ∗ ∗ ∗ + DF ∗ +1 z ∗ ∗ ∗ ∗ (u u)(z z ) (u u)(z z ) ∗ ∗ ∗ ∗ Разделив числитель и знаменатель на мы получаем (z z ) (y y ), ∗ ∗ ∗ ∗ 2 2 t (z y ) /(z z )(y y ) ∗ ∗ ∗ z ∗ ∗ ∗ = = 2 2 t + DF (z y ) /(z z )(y y ) + (u u)(z z )/(z z )(y y ) ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ z ∗2 r yz = . (3-23) ∗2 r + (u u)/(y y ) ∗ ∗ yz Теперь нам нужно воспользоваться еще одной теоремой для преобразования u u. Нужный нам результат формулируется как теорема 3.5. 3.4. Частичная регрессия и частные коэффициенты корреляции 45 Теорема 3.5. Изменение суммы квадратов при включении в регрессию дополнительной переменной Если — сумма квадратов остатков регрессии на а — сумма e e y X, u u квадратов остатков при регрессии на и то y X z, 2 u u = e e − c (z z ) ≤ e e, (3-24) ∗ ∗ где — коэффициент при в удлиненной регрессии на а — c z y [X, z], z = Mz ∗ вектор остатков регрессии на z X. Доказательство. В удлиненной регрессии на и вектор остатков равен y X z − − Отметим, что если не выполняется равенство u = y Xd zc. X z = 0, −1 то d не будет равно b = (X X) X y. (См. подраздел 4.3.2.) Более того, если не выполняется равенство то не будет равно − c = 0, u e = y Xb. −1 Согласно выводу 3.2.1, c = (z z ) (z y ). ∗ ∗ ∗ ∗ Из (3-18) следует, что коэффициенты при X в этой удлиненной регрессии равны −1 −1 − − d = (X X) X (y zc) = b (X X) X zc. Подставляя это выражение для в выражение для мы получаем d u, −1 − − − − u = y Xb + X(X X) X zc zc = e Mzc = e z c. ∗ Значит, 2 − u u = e e + c (z z ) 2c(z e). ∗ ∗ ∗ Однако , а Подставляя эти равенства в e = My = y z e = z y = c(z z ). ∗ ∗ ∗ ∗ ∗ ∗ выражение для выше, мы получаем утверждение теоремы. u u Возвращаясь к нашему рассуждению, мы получаем, что e e = y y и ∗ ∗ 2 2 Таким образом, c (z z ) = (z y ) /(z z ). ∗ ∗ ∗ ∗ ∗ ∗ 2 − u u y y (z y ) /z z ∗ ∗ ∗ ∗ ∗ ∗ ∗2 − = = 1 r . yz y y y y ∗ ∗ ∗ ∗ Подставляя эти выражения в знаменатель выражения (3-23), мы выводим желаемый результат. Пример 3.1. Частные корреляции В данных из приложения в подразделе 3.2.2 простые корреляции между ∗ инвестициями и регрессором и частные корреляции между инвеr и четырьмя регрессорами (при заданных значениях остальных переменных) приведены в табл. 3.2. Как видно из таблицы, нет четкой связи между простыми и частными корреляциями. Стоит обратить внимание на знаки коэффициентов. Знаки частных коэффициентов корреляции равны знакам соответствующих коэффициентов регрессии, три из которых отрицательны. Все простые коэффициенты корреляции положительны из-за «скрытых» временных эффектов. 46 Глава 3. Метод наименьших квадратов Таблица 3.2. Корреляция между инвестициями и другими переменными Простая корреляция Частная корреляция Временной тренд 0,7496 –0,9360 ВНП 0,8632 0,9680 Процентная ставка 0,5871 –0,5167 Темп инфляции 0,4777 –0,0221 3.5. Качество приближения и анализ разброса Используемый нами критерий качества приближения, сумма квадратов остатков, является мерой близости линии регрессии к данным. Однако легко видеть, что сумма квадратов остатков может произвольно изменяться при умножении всех значений y на некоторую константу. Поскольку приближенные значения, получаемые из регрессии, определяются значениями x, нас, скорее, интересует вопрос, насколько хорошим объяснением изменения y являются изменения x. На рис. 3.3 показаны три возможных случая для модели линейной регрессии. Мера качества приближения, которую мы сейчас опишем, определяется как критерием качества приближения, так и мерой ковариации между и x. y Рис. 3.3. Выборка 3.5. Качество приближения и анализ разброса 47 Дисперсия зависимой переменной определяется с помощью отклонений значений этой переменной от среднего − Полная вариация — это (y 2y ). y i сумма квадратов отклонений: n 2 − SST = (y 2y ) . i i=1 В контексте уравнения регрессии можно записать ˆ y = Xb + e = y + e. Для отдельного наблюдения имеем y = y ˆ + e = x b + e . i i i i i Если регрессия содержит константу, то сумма остатков будет равна нулю, а среднее предсказанных значений y будет равно среднему настоящих знаi в выборке. Вычитая из обеих частей и применяя результат 2 из y 2y i подраздела 3.2.3, получаем − − − y y = y ˆ y + e = (x x) b + e . i i i i i Рисунок 3.4 иллюстрирует эти вычисления в случае регрессии с двумя переменными. Интуитивно понятно, что регрессия будет хорошо описывать данные в том случае, когда отклонения y от среднего в большей степени объясняются отклонениями x от среднего, чем остатками. Поскольку сумма членов этого разложения равна нулю, для оценки воспользуемся суммой квадратов. Для полной выборки имеем 0 0 0 M y = M Xb + M e, Рис. 3.4. Разложение y i 48 Глава 3. Метод наименьших квадратов 0 где — идемпотентная матрица размером × приводящая наблюдеM n, ния к отклонениям от средних значений. (См. (3-21) и раздел A2.8.) Столбец 0 соответствующий постоянному члену, равен нулю, а так как среднее M X, 0 0 остатков тоже равно нулю, то M e = e. Далее, поскольку e M X = e X = 0, сумма квадратов равна 0 0 y M y = b X M Xb + e e. Перепишем это как: Полная (total) сумма (sum of) квадратов (squares) Сумма квадратов регрес= (regression) Сумма квадратов ошибок (error), т. е. + SST = SSR + SSE. (3-25) (Отметим, что это же разложение используется в конце подраздела 3.2.4.) Теперь мы можем получить меру того, насколько хорошо линия регрессии подгоняет наблюдаемые данные: 0 SSR b X M Xb e e − коэффициент детерминации: = =1 . (3-26) 0 0 SST y M y y M y 2 Коэффициент детерминации обозначают . Как мы показали, он должен R лежать между 0 и 1 и измерять часть вариации значений y, объясняемую изменениями регрессоров. Он равен нулю, если регрессия есть горизонтальная линия, т. е. все элементы b, кроме константы, равны нулю. В этом случае предсказываемые значения всегда равны так что изменения значений y y, x никак не сказываются на предсказываемых значениях y. В этом случае регрессоры x не имеют объясняющей силы. В другом крайнем случае, при 2 все значения x и лежат в одной гиперплоскости (на прямой в слуR = 1, y чае регрессии с двумя переменными) и все остатки равны нулю. Если все 2 наблюдения лежат на одной вертикальной прямой, то R не имеет смысла и не может быть вычислен. Регрессионный анализ часто используется для прогнозирования. В этом случае нас интересует, с какой точностью модель регрессии предсказывает изменения зависимой переменной. Имея это в виду, полезно иметь еще 2 один способ вычисления . Запишем R 0 0 b X M Xb = y ˆ M y ˆ , 0 0 0 но y ˆ = Xb, y = y ˆ + e, M e = e и X e = 0, так что y ˆ M y ˆ = ˆ y M y. Умножим 2 0 0 0 0 0 0 ˆ ˆ ˆ на ˆ ˆ и получим R = y M y /y M y = y M y/y M y 1 = y M y/ˆ y M y ˆ 2 [Σ (y − y )(ˆ y − y )] i i i 2 (3-27) R = , ˆ 2 2 [Σ (y − y ) ][Σ (ˆ y − y ) ] i i i i что есть квадрат коэффициента корреляции между наблюдаемыми значениями и значениями, предсказываемыми регрессией. y 3.5. Качество приближения и анализ разброса 49 Пример 3.2. Качество подгонки функции потребления Данные, представленные на рис. 2.1, приведены в табл. F2.1. Для этих данных с y в качестве C и x в качестве X мы получаем y = 273, 2727, и x = 323, 2727, S = 12618, 182, S = 12300, 182, S = 8423, 182 SST = yy xx xy 2 = 12618, 182, b = 8423, 182/12300, 182 = 0, 6848014, SSR = b S = 5768, 2068 xx 2 2 − и SSE = SST SSR = 6849, 975. Тогда R = b S /SST = 0, 457135. Как xx видно из рисунка, получается удовлетворительное, но все-таки не очень хорошее приближение этого агрегированного временного ряда. С другой стороны, ясно, что на качество отрицательно влияет то, что модель не 2 учитывает аномальных военных лет. Полученное значение относится к R модели, соответствующей пунктирной линии на рисунке. Если мы просто пропустим наблюдения за 1942–1945 гг. и проведем те же вычисления для оставшихся наблюдений, то полученная линия (жирная на рисунке) 2 будет иметь Если дополнить наблюдения переменной R = 0, 93697. W AR, равной 1 в 1942–1945 гг. и нулю в остальных случаях, то получим модель, 2 обозначенную двойной линией, а ее повысится до R 0, 94639. 2 Вычисление можно отразить таблицей дисперсионного анализа R или таблицей анализа разброса (analysis of variance), такой как табл. 3.3. Таблица 3.3. Дисперсионный анализ Исходная Степени свободы Средний запись квадрат 2 Регрессия − − (предполагая b X y ny K 1 наличие постоянного члена) 2 Остаток − e e n K s 2 Всего − − − y y ny n 1 S /(n 1) = yy 2 s y 2 Коэффициент − − R = 1 e e/(y y ny ) детерминации Пример 3.3. Анализ разброса для уравнения инвестиций Анализ разброса для уравнения инвестиций из подраздела 3.2.2 показан в табл. 3.4. Таблица 3.4. Анализ разброса для уравнения инвестиций Исходная запись Степени свободы Средний квадрат Регрессия 0,0159025 4 0,003976 Остаток 0,0004508 10 0,00004508 Всего 0,016353 14 0,0011681 2 R =0,0159025/0,016353=0,97245 50 Глава 3. Метод наименьших квадратов 3.5.1. Скорректированный R-квадрат и меры качества подгонки 2 При использовании R для оценки точности подгонки (goodness of fit) возникает ряд проблем. Первая касается числа степеней свободы, использо2 при оценке параметров. [См. (3-22) и табл. 3.3.] никогда не уменьR при добавлении переменных к уравнению регрессии. Это можно легко понять с помощью уравнения (3-23). Фактически мы сравниваем регрессию y на P, имеющую сумму квадратов остатков с регрессией y на X и доe e, полнительную переменную z, которая имеет сумму квадратов остатков u u. Векторы остатков равны и откуда следует, что z = Mz y = My = e, ∗ ∗ e e = (y y ). Пусть c — коэффициент при z в удлиненной регрессии. Тогда ∗ ∗ −1 c = (z z ) (z y ), и, подставляя это в (3-24), получаем ∗ ∗ ∗ ∗ 2 (z y ) ∗ ∗ ∗2 − − (3-28) u u = e e = e e 1 r , yz (z z ) ∗ ∗ ∗ где r — частная корреляция y и z при заданных X. Разделим обе части yz 0 0 2 равенства на y M y. Из (3-26) u u/y M y есть (1 − R ) для регрессии на Xz 0 2 X и z, а есть − Преобразовывая, получаем следующий e e/y M y (1 R ). X результат. 2 Теорема 3.6. Изменение при добавлении переменной к регрессии R 2 Пусть есть коэффициент детерминации в регрессии на и R y X Xz ∗ 2 дополнительную переменную — в регрессии только на а — z, R y X, r X yz частная корреляция между и при данном Тогда y z X. ∗2 2 2 2 − (3-29) R = R + 1 R r . Xz X X yz 2 Таким образом, удлиненной регрессии не может быть меньше. Возникает R соблазн воспользоваться этим, включая в модель дополнительные перемен2 R будет возрастать, стремясь к 1 . Скорректированный R (скорректированный на число степеней свободы), учитывающий эту возможность, 6 записывается так : − e e/(n K) 2 − (3-30) R = 1 . 0 − y M y/(n 1) 2 2 При вычислениях полезна следующая связь между R и R : − n 1 2 2 − − R = 1 (1 R ). − n K 2 Скорректированный R может убывать при добавлении независимой пере2 В действительности может даже принимать отрицательные знаR Можно рассмотреть экстремальный случай: если выборочная корре2 x и y равна нулю, то скорректированный будет равен −1/(n − R 2). 5 У этого метода есть недостаток: точность оценки коэффициентов при включении дополнительных переменных уменьшается. Это будет показано в главе 4. 6 Использование этой меры часто рекомендуют из-за несмещенности обеих величин, входящих в дробь. Впрочем, это отношение не является несмещенной оценкой какого-либо параметра распределения, так что этот довод не очень убедителен. 3.5. Качество приближения и анализ разброса 51 [В этом контексте название «скорректированный представляетR-squared» не совсем подходящим: из (3-30) можно видеть, что не является квадR какой-либо величины.] Рост или уменьшение зависят от того, комR ли улучшение качества приближения при добавлении переменной уменьшение коэффициента из-за уменьшения числа степеней свободы. Общий результат (доказательство которого остается в качестве упражнения) выглядит следующим образом. 2 Теорема 3.7. Изменение при добавлении переменной к регрессии R 2 В множественной регрессии будет уменьшаться (или возрастать) при R удалении переменной из регрессии, если квадрат для этой x t-статистики переменной больше (меньше) 1. 2 Мы показали, что не будет убывать при добавлении переменной к реR Теперь мы попробуем обобщить этот результат. Изменение суммы квадратов остатков при добавлении к регрессии переменных равно X 2 e e = e e − b X M X b , 1,2 1 1 2 2 1,2 1 2 2 где нижний индекс 1 обозначает регрессию только на переменные X , а ин1 1,2 обозначает регрессию на все переменные. Вектор коэффициентов — это коэффициенты при в множественной регрессии y на и . b X X X 2 2 1 2 [См. определения и в (3-19) и (3-20).] Следовательно, b M 2 1 − e e b X M X b b X M X b 1 1 2 2 1 2 2 2 1 2 2 2 2 2 − R = 1 = R + , 1,2 1 0 0 y M y y M y 2 что больше R при ненулевом векторе b . (M X не равно нулю, если толь2 2 1 ко не является линейной функцией , а в этом случае нельзя было бы X X 2 1 построить оценку регрессии на и .) Дальнейшее преобразование этого X X 1 2 уравнения дает y M y b X M X b 1 1 2 2 2 2 2 2 R = R + . 1,2 1 0 y M y y M y 1 2 Но , так что первый множитель равен . Второй множитель y M y = e e 1−R 1 1 1 1 равен множественной корреляции в регрессии на или частной M y M X 1 1 2 корреляции (учитывающей эффект ) в регрессии y на . Приводя подобX члены, получаем 2 2 2 2 − R = R + 1 R r . 1,2 1 1 y2·1 [Это аналог формулы (3-29) для случая многих переменных.] 2 Таким образом, R можно увеличивать до желаемой величины простым добавлением регрессоров. Это свойство является причиной того, чтобы ис2 скорректированный , определяемый формулой (3-30), вместо R 2 2 при выборе из нескольких моделей. Поскольку включает поправку, отR за уменьшение числа степеней свободы, и при этом все равно реагирует на улучшение качества приближения, можно взять модель с макси2 . Есть мнение, что скорректированный недостаточно сильно R R 7 «наказывает» за уменьшение числа степеней свободы . В связи с этим пред7 См., например, работу Amemiya (1985, p. 50–51). 52 Глава 3. Метод наименьших квадратов лагалось сравнивать модели (которые мы обозначаем с помощью индекса используя, например, j), n + K j ˜ 2 2 R = 1 − 1 − R , j j − n K j который минимизирует предсказательный критерий (prediction criterion) Амемии или информационные критерии Акаике и Шварца, которые приво8 в (5-43) и (5-44) . 3.5.2. R-квадрат и константа в модели 2 Вторая сложность с касается постоянного члена в модели. ДоказаR того, что ≤ ≤ предполагает, что матрица X содержит столбец 0 R 1, 0 0 0 единиц. Если это не так, то (1) и (2) и член M e = e, e M X = 0, 2e M XbPla 0 0 0 0 0 y M y = (M Xb + M e) (M Xb + M e) не может быть исключен из уравнения, приводящего к (3-25). Значит, при вычислении e e 2 − R = 1 0 y M y будет получен непредсказуемый результат. Он никогда не может быть больше, но может быть намного меньше того значения, которое было бы получено в регрессии с константой. Может даже получиться отрицательное зна2 Компьютерные программы по-разному вычисляют R в этом случае. 2 Другой подход к вычислению , R 0 b X M y 2 R = , 0 y M y также приводит к проблемам. Полученное значение тоже будет отличаться от значения, полученного в регрессии с константой: здесь может получиться 2 значение больше 1. Некоторые программы обходят проблему, приводя R 2 в этом случае «третий» : квадрат выборочной корреляции значений и R y значений, предсказываемых регрессией. Этот подход может давать обманчивый результат. Если регрессия содержит константу, то, как мы видели, все три способа дают один и тот же результат. Последний способ дает значение между 0 и 1 даже при отсутствии постоянного члена. Однако это значение не равно доле объясненной вариации. С другой стороны, это значение может все же быть полезно при сравнении моделей. При использовании компью2 программ нужно понимать, как вычисляется . Некоторые пакеR выдают предупреждение в случаях, когда вычисляется для регрессий R без константы или при оценке методом, отличным от метода наименьших квадратов. 3.5.3. Сравнение моделей 2 Значение полученное нами для функции потребления в R = 0, 94639, примере 3.2, кажется высоким. Но является ли оно на самом деле высоким? 8 Большинство авторов и компьютерных программ приводят логарифмы именно этих критериев. 3.5. Качество приближения и анализ разброса 53 К сожалению, не существует абсолютных критериев для сравнения. Вообще говоря, при изучении агрегированных данных временных рядов зачастую получаются высокие коэффициенты детерминации, подобные этому. Для исследований, использующих межобъектные данные, высокими считаются 2 и значения около 0,5. Даже коэффициент, равный 0,2, иногда можно счиR успехом. Ответ на вопрос о том, качественно ли регрессия приближает данные, зависит от постановки задачи. Сложно что-либо сказать о сравнительном качестве регрессий в разных контекстах или на разных данных, даже если данные предположительно порождаются одним и тем же процессом. Даже в одной и той же ситуации нужно убедиться, что используется одинаковая основа для сравнения. Так, например, надо выяснить, как именно вычисляются значения зависимой переменной. К примеру, часто возникает вопрос: какая модель лучше описывает данные — линейная или логлинейная? На этот вопрос, к сожалению, 2 2 нельзя ответить прямым сравнением. R линейной модели отличается от R 2 логлинейной модели. Вариация y отличается от вариации ln y. R логлинейной модели обычно оказывается больше, но это не значит, что логлинейная модель действительно лучше описывает данные. 2 линейную Нужно подчеркнуть, что R отражает связь между x и y. Например, на рис. 3.3 показаны данные, которые могут быть порождены моделью 2 − y = α + β(x γ) + ε . i i i (Константа γ позволяет x иметь среднее, отличное от нуля.) Связь y и x в этой модели является нелинейной, и линейная регрессия не даст качественного приближения. 2 Упомянем еще одно обстоятельство. R интерпретируется как объясненная доля изменчивости только в том случае, когда при оценке параметров регрессии использовался метод наименьших квадратов. Выражение − − y y = (ˆ y y ) + e i i i будет всегда верным независимо от того, как были вычислены . Значит, y ˆ i можно использовать взятую из логлинейной модели для выy = exp( lny ), i i числения сумм квадратов в обеих частях. Однако член с перекрестным произведением сокращается, только если при оценке использовался метод наименьших квадратов, а модель содержит константу. Поэтому мы игнориро2 этот член при расчете в логлинейной модели. Только в той ситуаR когда метод наименьших квадратов применяется для оценки линей2 регрессии с константой, мы можем интерпретировать как долю изR y, объясняемую изменчивостью x. Эквивалентное вычисление можно провести, не приводя переменные к отклонениям от среднего, если регрессия не содержит постоянного члена. Однако в регрессиях без константы мы столкнемся с другими трудностями алгебраического характера. Так, 2 значение R будет изменяться при добавлении константы ко всем y, хоть и ясно, что никакого существенного изменения связей между переменными при этом не происходит. Нужно быть крайне осторожным (и даже скептически настроенным) при вычислении и интерпретации мер качества подгонки регрессий, не содержащих постоянного члена. 54 Глава 3. Метод наименьших квадратов 3.6. Линейные преобразования регрессий В качестве последнего способа применения инструментария, разработанного в этой главе, рассмотрим еще один чисто алгебраический результат, полезный для понимания особенностей вычисления линейных моделей. Пусть в регрессии y на X столбцы X были подвергнуты некоторому линейному преобразованию. На практике типичным линейным преобразованием может быть, например, изменение используемых единиц измерения: изменение типа валюты, перевод часов в минуты, миль в километры. В примере 3.4 демонстрируется несколько более сложный случай. Пример 3.4. Оценка произведений искусства Первая теория, объясняющая аукционные цены картин Моне, утверждает, W H) что цена определяется размерами (шириной и высотой картины: ln P = β (1) + β ln W + β ln H + ε 1 2 3 = β x + β x + β x + ε. 1 1 2 2 3 3 Вторая теория говорит, что покупатели интересуются скорее площадью и отношением сторон картины: ln P = γ (1) + γ ln(WH ) + γ ln(W /H ) + ε 1 2 3 = γ z + γ z + γ z + u. 1 1 2 2 3 3 Видно, что , и − . В матричном виде Z XP, z = x z = x + x z = x x = 1 1 2 2 3 3 2 3 где   1 0 0 P = 0 1 1 .   0 1 −1 Эффект преобразования линейной регрессии y на X по сравнению с регрессией y на Z описывается следующей теоремой. . Теорема 3.8. Преобразованные переменные В линейной регрессии на где — невырожденная матрица, преобZ = XP, P −1 разующая столбцы коэффициенты будут равны где — вектор X, P b, b 2 коэффициентов линейной регрессии на а величина R сохраняется. y X, Доказательство. Коэффициенты равны −1 −1 −1 d = (Z Z) Z y = [(XP) (XP)] (XP) y = (P X XP) P X y = −1 −1 −1 −1 = P (X X) P P X y = P b. 56 Глава 3. Метод наименьших квадратов Partial regression coefficient — Коэф- Population regression — Теоретичефициент частной регрессии ская регрессия Partialing out — Выделять эффект Projection — Проекция Partitioned regression — Частичная реProjection matrix — Проектор грессия Prediction criterion — ПредсказательResidual — Остаток ный критерий Residual maker — Генератор остатков Population quantity — Характеристика распределения Total variation — Полная вариация Упражнения 1. Регрессия с двумя переменными Для модели регрессии y = α + βx + ε: a. Покажите, что из нормальных уравнений метода наименьших квадратов следует, что и Σ e = 0 Σ x e = 0; i i i i i b. Покажите, что оценка постоянного члена будет равна − a = y bx; n n 2 c. Покажите, что оценка для равна −x)(y −y)]/[ −x) b b = [ (x (x ]; i i i i=1 i=1 d. Докажите, что при этих значениях параметров достигается единственный минимум суммы квадратов. Для этого покажите, что диагональные элементы матрицы вторых производных суммы квадратов по параметn положительны, а ее определитель равен − 4n[( x ) nx ] = i i=1 n 2 − и положителен всегда, кроме случая, когда все значе- = 4n[ (x x ) ] i i=1 ния одинаковы. x 2. Изменение суммы квадратов Пусть — это полученный с помощью метода наименьших квадратов b вектор коэффициентов регрессии на а — другой вектор размером × y X, c K Докажите, что разность сумм квадратов остатков равна 1. (y − Xc) (y − Xc) − (y − Xb) (y − Xb) = (c − b) X X(c − b). Покажите, что эта разность положительна. 3. Частная теорема Фриша–Во При оценке коэффициентов регрессии y на константу и X мы для вычисления коэффициентов регрессии при можем сначала преобразовать X вычтя из каждого значения выборочное среднее, так же преобразовать y, каждый столбец а затем оценить регрессию преобразованных на преX, X (без константы). Получим ли мы такой же результат, если преобразуем только А если только y? X? 4. Генераторы остатков Чему равно произведение матриц M M, где M определяется формулой 1 1 (3-19), а — формулой (3-14)? M 5. Добавление наблюдения Выборка состоит из наблюдений и . Оценка методом наименьn y n n −1 ших квадратов, основанная на этой выборке, равна b = (X X ) X y . n n n n n 3.7. Заключение 57 Получено еще одно наблюдение, и . Докажите, что оценка методом наиx y s s меньших квадратов, вычисленная после включения этого наблюдения, будет равна 1 −1 − b = b + (X X ) x (y x b ). n,s n n s s n n s −1 1 + x (X X ) x n s s n Заметьте, что последний множитель равен , остатку при предсказании e y s s с помощью оценок коэффициентов, построенных по X и b . Отсюда можно n n сделать вывод, что новые данные изменяют результат оценки только в том случае, когда новые наблюдения не в точности равны их предсказываемым y значениям. 6. Удаление наблюдения В случае если в одном из наблюдений отсутствуют значения нескольких независимых переменных, часто поступают следующим образом: пропущенные значения заменяют нулями, а набор переменных дополняют еще одной переменной, равной 1 для этого наблюдения и 0 для остальных. Покажите, что эта «стратегия» дает такую же оценку коэффициентов, как и отбра2 этого наблюдения, но изменяет . Рассмотрите частный случай, R когда состоит из константы и одной переменной. Покажите, что замена X пропущенных значений средними значениями по всей выборке даст такие x же результаты, что и добавление новой переменной. 7. Оценка спроса на группу товаров Обозначим полные расходы на потребительские товары повседневноY спроса и длительного пользования и услуги, а , и — расходы в E E E d n s каждой отдельной категории. По определению . Рассмотрим Y = E +E +E d n s систему уравнений для расходов: E = α + β Y + γ P + γ P + γ P + ε , d d d dd d dn n ds s d E = α + β Y + γ P + γ P + γ P + ε , n n n nd d nn n ns s n E = α + β Y + γ P + γ P + γ P + ε . s s s sd d sn n ss s s Докажите, что если все уравнения оцениваются с помощью метода наименьших квадратов, то сумма коэффициентов при Y будет равна 1, а сумма любого другого столбца коэффициентов будет равна 0. 2 8. Изменение скорректированного R 2 Докажите, что скорректированный , задаваемый (3-30), растет (убыR при удалении переменной x из регрессии, если квадрат t-статистики k при в множественной регрессии меньше (больше) 1. x k 9. Регрессия без константы Пусть множественная регрессия оценивается сначала с константой, а потом без. Ответ на вопрос о том, будет ли во втором случае получен более 2 2 высокий R , зависит среди прочего от метода вычисления R . Какая регрессия даст более высокое значение, если используется (стандартная) формула 2 0 − R = 1 (e e/y M y)? 10. Три переменные, и , имеют нулевые средние и единичные дисN, D Y персии. Четвертая переменная C = N + D. В регрессии C на Y коэффициент 58 Глава 3. Метод наименьших квадратов наклона равен 0,8, в регрессии на — 0,5, в регрессии на — 0,4. Какова C N D Y сумма квадратов остатков в регрессии на Всего имеется 21 наблюдеC D? ние, и при вычислении всех моментов используется делитель − 1/(n 1). 11. Используя матрицы сумм квадратов и попарных произведений, приведенные непосредственно перед подразделом 3.2.3, найдите коэффициенты в множественной регрессии реальных инвестиций на константу, реальный 2 ВНП и процентную ставку. Вычислите . R 12. В номере журнала American Economic Review за декабрь 1969 г. (с. 886–896) Натаниел Лефф (Nathaniel Leff) приводит следующие результаты оценки методом наименьших квадратов регрессии, связывающей накопления и возраст по данным из 74 стран за 1964 г.: − − ln S/Y = 7, 3439 + 0, 1596 ln Y /N + 0, 0254 ln G 1, 3520 ln D 0, 3990 ln D , 1 2 − − ln S/N = 2, 7851 + 1, 1486 ln Y /N + 0, 0265 ln G 1, 3438 ln D 0, 3966 ln D , 1 2 где — доля накоплений в доходе, — подушевые накопления, S/Y S/N Y /N — подушевой доход, D — процент населения моложе 15 лет, D — 1 2 процент населения старше 64 лет и — темп роста подушевого дохода. ВерG ли эти результаты? Поясните. [См. обсуждение в работах Goldberger (1973) и Leff (1973).] Эмпирическое приложение Данные, приведенные в табл. 3.5, взяты из статьи Купа и Тобиаса (Koop, Tobias (2004)), посвященной связи между уровнем дохода и характеристиками образования, способностей и семейного окружения. (См. табл. F3.2.) Их данные представляют собой панель из 2178 человек и 17 919 наблюдений. В таблице показаны данные за первый год (и неизменные во времени переменные) для первых 15 индивидов из выборки. Переменные определены в статье. Таблица 3.5. Подвыборка данных Купа и Тобиаса Человек Образо- Зарплата Опыт Способ- Образо- Образо- Братья вание ности вание вание и сестры матери отца 1 2 3 4 5 6 7 8 1 13 1,82 1 1,00 12 12 1 2 15 2,14 4 1,50 12 12 1 −0,36 3 10 1,56 1 12 12 1 4 12 1,85 1 0,26 12 10 4 5 15 2,41 2 0,30 12 12 1 6 15 1,83 2 0,44 12 16 2 7 15 1,78 3 0,91 12 12 1 8 13 2,12 4 0,51 12 15 2 9 13 1,95 2 0,86 12 12 2 10 11 2,19 5 0,26 12 12 2 11 12 2,44 1 1,82 16 17 2 12 13 2,41 4 −1,30 13 12 5 3.7. Заключение 59 Окончание табл. 3.5 1 2 3 4 5 6 7 8 13 12 2,07 3 −0,63 12 12 4 14 12 2,20 6 −0,36 10 12 2 15 12 2,12 3 0,28 10 12 3 Пусть — константа, образование, опыт и способности (собственные X 1 свойства наблюдаемого). Пусть содержит данные об образовании матеX и отца и числе братьев и сестер (свойства семьи). Пусть — заработная y плата. a. Найдите оценки метода наименьших квадратов коэффициентов регрессии y на X . 1 b. Найдите оценки метода наименьших квадратов коэффициентов регрессии на и . y X X 1 2 c. Оцените регрессии каждой из переменных на все переменные и X X 2 1 вычислите остатки этих регрессий. Обозначьте матрицу остатков этих ∗ регрессий . Каковы их средние значения? Объясните матрицу. X 2 2 d. С помощью (3-26) вычислите для регрессии на и . Повторите R y X X 1 2 2 вычисления в случае, когда константа не входит в . Как изменится ? X R 1 2 e. Найдите скорректированный R для полной регрессии с константой. Интерпретируйте полученный результат. ∗ f. Возвращаясь к результату пункта c: оцените регрессию на и . Как y X X 1 2 отличаются полученные результаты от результатов регрессии на и y X 1 X ? Здесь требуется сравнить оценки метода наименьших квадратов ре2 y на X и M X и регрессии y на X и X . Выведите этот резуль1 2 1 2 тат аналитически. (Полученные численные значения, разумеется, должны соответствовать аналитическому результату.) 4.2. Почему именно метод наименьших квадратов? 61 При исследовании предполагается, что имеющиеся данные удовлетворяют предположениям модели. В разделе 4.7 мы рассмотрим ряд проблем, возникающих при изучении неэкспериментальных данных. Предположение А2 о полноте ранга X обычно считается данностью. В подразделе 2.3.2 мы видели, что при нарушении этого условия построение оценки не представляется возможным ни при каком размере выборки. Мультиколлинеарность, или близость реальных данных к нарушению этого условия, рассматривается в подразделах 4.7.1–4.7.3. Пропущенные данные могут существенно помешать изучению выборки. Благоприятный случай, когда пропущены случайные наблюдения, рассматривается в подразделе 4.7.4. Более сложный случай неслучайных пропусков будет рассмотрен в главе 18. Наконец, проблема ошибок в наблюдениях описана в подразделе 4.7.5. Таблица 4.1. Предположения классической модели линейной регрессии A1. Линейность: y = x β + x β + · · · + x β + ε . i i1 1 i2 2 iK K i A2. Полный ранг: Матрица данных размером × X, имеет полный ранг по n K, столбцам. | A3. Экзогенность независимых переменных: E [ε x , x , . . . , x ] = 0, i j1 j2 jK i, j = 1, . . . , n. Корреляция между шоками и независимыми переменными отсутствует. A4. Гомоскедастичность и отсутствие автокорреляции: Все шоки имеют ε i 2 одинаковую дисперсию, σ , и не коррелируют между собой условно по X. A5. Случайные или неслучайные данные: (x , x , . . . , x ) i = 1, . . . , n. i1 i2 iK A6. Нормальное распределение шоков: Шоки распределены нормально. ε i 4.2. Почему именно метод наименьших квадратов? Одна из причин широкого применения метода наименьших квадратов — это простота необходимых вычислений. Впрочем, есть и другие причины для использования этого метода. Во-первых, метод наименьших квадратов реализует естественный подход к оцениванию, явно используя все условия модели. Во-вторых, метод наименьших квадратов дает оптимальный линейный предиктор зависимой переменной, даже если истинное распределение зависимой переменной не описывается линейной моделью. Таким образом, метод наименьших квадратов обладает некоторой устойчивостью, которой лишены другие методы. В-третьих, при некоторых специальных условиях метод наименьших квадратов наиболее оптимально в некотором разумном смысле использует имеющиеся данные. Мы рассмотрим все эти соображения по очереди. 4.2.1. Условия ортогональности генеральной совокупности Пусть x — вектор независимых переменных в регрессионной модели, причем в соответствии с предположением A5 данные могут быть как стохастическими, так и нестохастическими. Предположение A3 гласит, что распределение ошибок стохастически ортогонально независимым переменным, 62 Глава 4. Оценки методом наименьших квадратов т.е. | Следовательно, Поскольку (по закону повторноE [ε x] = 0. Cov[x, ε] = 0. го математического ожидания — теорема B.1) {E | то E [ε x]} = E [ε] = 0, x можно записать это в виде E E [xε] = E E [x(y − x β)] = 0 x ε x y или (4-1) E E [xy] = E [xx ]β. x y x (Поскольку правая часть не является функцией y, можно брать математическое ожидание только по x.) Возьмем обычное уравнение для оценки методом наименьших квадратов: Поделим его на n и перепишем в X y = X Xb. виде суммы, получая n n 1 1 (4-2) x y = x x b. i i i i n n i=1 i=1 Уравнение (4-1) описывает распределение, а (4-2) — его выборочный аналог. Предположим, что выполняются требования законов больших чисел (см. приложение D). Тогда суммы в левой и правой частях (4-2) являются оценками соответствующих частей (4-1). Таким образом, метод наименьших квадратов основывается на переносе теоретических соотношений между переменными на имеющуюся выборку. Мы вернемся к этому подходу построения оценок в главах 12 и 13 при рассмотрении оценок GMM. 4.2.2. Предиктор, минимизирующий среднеквадратичную ошибку Разберем другой подход. Попробуем найти оптимальный линейный предиктор для y. Опустим предположения A6 и A1 (т. е. распределение необязательно описывается линейной моделью). В качестве критерия оптимальности возьмем минимальность среднего квадрата ошибки и найдем преy, минимизирующий среднеквадратичную ошибку, который обозначим Ожидаемый квадрат ошибки этого предиктора: x γ. 2 − MSE = E E [y x γ] . y x Это можно переписать в виде 2 2 MSE = E y − E [y | x] + E E [y | x] − x γ . y,x y,x Мы хотим найти минимизирующее эту величину. Первый член не являγ, функцией так что нужно минимизировать только второй член. Замеγ, что он не является функцией y, а значит, внешнее матожидание можно было бы опустить. Однако оно нам скоро понадобится, поэтому пока оставим его. Необходимое условие представляет собой 2 | − 2 ∂E E [E(y x) x γ] | − ∂[E(y x) x γ] y x = E E = y x ∂γ ∂γ = −2E E x[E(y | x) − x γ] = 0. y x 4.3. Свойства МНК на конечных выборках 65 наклона методом наименьших квадратов, где — номер выборки, по r формуле 100 100 2 − − b = Σ (x x ¯ )y / Σ (x x ¯ ) . r ir r ir ir r j=1 j=1 Гистограмма на рис. 4.1 показывает результат такого эксперимента. Обратите внимание, как близко среднее этого распределения к «истинному» значению 0,5, а также на то, что это распределение имеет значительную дисперсию, что отражает тот факт, что оценка коэффициента, как и любая другая статистика, вычисленная по выборке, есть случайная величина. Понятие несмещенности относится к средним значениям распределения оценок, полученных множеством последовательных выборок. Форма гистограммы также наводит на мысль, что оценка распределена нормально. Мы докажем этот факт в подразделе 4.3.8. (Результаты этого эксперимента могут быть воспроизведены с помощью любой программы построения регрессии, имеющей генератор случайных чисел и умеющей подсчитывать среднее случайной выборки из генеральной совокупности.) 4.3.1. Несмещенность оценки Оценка метода наименьших квадратов является несмещенной на каждой выборке. Чтобы это доказать, запишем −1 −1 −1 (4-4) b = (X X) X y = (X X) X (Xβ + ε) = β + (X X) X ε. Теперь возьмем условные математические ожидания относительно X: −1 | | E [b X] = β + E [(X X) X ε X]. По предположению A3 второй член равен 0, поэтому | (4-5) E [b X] = β. Таким образом, | (4-6) E [b] = E E [b X] = E [β] = β. X X Этот результат можно интерпретировать так: для каждого набора наблюдений X оценка методом наименьших квадратов имеет математическое ожидание, равное Усредняя это по всем возможным X, получаем, что безβ. математическое ожидание также равно β. Вы могли заметить, что в этом разделе весь анализ проводился условно относительно X, т. е. по всей выборке, а в разделе 4.2 мы рассматривали условные распределения y по x . (Внимательные читатели также могi заметить, что в табл. 4.1 в предположении A3 мы обусловливали E[ε |.] i по x , т. е. по всем i и j, по X, а не только по x .) В разделе 4.2 мы предj рассматривать оценки методом наименьших квадратов в контексте совместного распределения случайной величины y и случайного вектора x. Это справедливо, если данные представляют собой межобъектную выборку независимых наблюдений. В этом случае, как мы показали в подразделе 4.2.2, оценка методом наименьших квадратов является выборочным ана- 66 Глава 4. Оценки методом наименьших квадратов логом вектора — коэффициента наклона предиктора, минимизирующеγ среднеквадратичную ошибку, который, в свою очередь, является свойством распределения. В разделе 4.3 мы переходим к изучению самого проE[b|X] генерирующего наблюдаемую выборку. Утверждение = β лучше всего понимать в байесовском смысле: если наблюдался набор данных X, то мы можем ожидать определенного поведения некоторой вычисляемой нами статистики, например коэффициент наклона, вычисленного методом наименьших квадратов, b. Остаток этой главы, да и всей книги будет в большой степени посвящен изучению поведения статистики в следующем смысле: можем ли мы делать выводы из значений статистики, вычисленных для одной выборки, о значениях той же статистики, вычисленных на выборках, полученных таким же образом из того же распределения? Или же можно по значению статистики что-то узнать о свойствах распределения в целом? То есть можно воспринимать условие в E[b|X] в обоих смыслах: и с чисто статистической точки зрения — как вывод относительно свойств оценки, и с точки зрения методологической — что можно узнать о распределении из конкретной конечной выборки. 4.3.2. Смещение, вызванное пропущенными значимыми переменными Весь наш анализ в предыдущих разделах основывался на том, что известно верное уравнение регрессионной модели y = Xβ + ε. (4-7) Однако возможны различные ошибки спецификации модели, которые можно допустить при построении модели регрессии. К наиболее распространенным относятся пропуск значимых переменных и включение излишних переменных. Предположим, что на самом деле уравнение регрессии имеет вид y = X β + X β + ε, (4-8) 1 1 2 2 где две части X имеют соответственно K и K столбцов. Если мы оцениваем 1 2 регрессию y на X , не включая X , то получим оценку 1 2 −1 −1 −1 b = (X X ) X y = β + (X X ) X X β + (X X ) X ε. (4-9) 1 1 1 1 2 2 1 1 1 1 1 1 1 При взятии математического ожидания мы видим, что если не выполняется одно из соотношений, X X = 0 или β = 0, то оценка b является сме2 Широко известен следующий результат, называемый формулой смещения из-за пропущенных переменных (omitted variables formula): E [b | X] = β + P β , (4-10) 1 1 1.2 2 где −1 P = (X X ) X X . (4-11) 1.2 1 2 1 1 Каждый столбец матрицы размером × представляет собой столP K 1.2 1 2 бец коэффициентов наклона, полученных методом наименьших квадратов регрессии соответствующего столбца X на столбцы X . 2 1 4.3. Свойства МНК на конечных выборках 67 Пример 4.2. Пропущенные переменные Если уравнение спроса оценивается без включения значимой переменной, отражающей доходы потребителей (Income), то (4-10) показывает смещение оценки эластичности цены. В качестве убедительного примера рассмотрим данные о ценах на бензин, которые мы использовали в b примере 2.3. Пусть — оценка. Имеем Cov[price, income] E[b|price, income] = β + γ, Var[price] где — коэффициент при доходе. γ Рис. 4.2. Потребление бензина на душу населения в зависимости от цены, 1953–2004 гг. По агрегированным данным нельзя сказать, будет ли γ положительным или отрицательным. Знак смещения b будет совпадать со знаком ковариации, поскольку Var[price] и положительны для нормальных γ благ, каким является бензин. На рис. 4.2 изображен график потребления G/Pop PG. бензина на душу населения в зависимости от индекса цен График существенно отличается от ожидаемого. Однако если посмотреть непосредственно на данные (табл. F2.2 в приложении), то причины этого становятся яснее: при постоянных доходе Income/Pop и ценах других товаров результаты были бы другими. Однако доходы растут и простые G/Pop Income/Pop PG Income/Pop корреляции между и и между и довольно велики — 0,938 и 0,934 соответственно. Чтобы увидеть, существует ли на самом деле ожидаемая связь между ценой и уровнем потребления, нам понадобится очистить наши данные от эффектов Income/Pop. Чтобы это сделать, мы воспользуемся результатом Фриша–Во из теоремы 3.2. В простой регрессии логарифма потребления бензина на душу населения на константу и логарифм индекса цен получается коэффициент 0,29904, у которого, как мы, вообще говоря, и ожидали, «неправильный» знак. 68 Глава 4. Оценки методом наименьших квадратов В регрессии логарифма потребления бензина на душу населения на константу, логарифм цены и логарифм дохода на душу населения оценка ˆ эластичности потребления относительно цены, равна −0, а β, 16949, оценка эластичности относительно дохода, , равна 0,96595. Здесь знаки γ ˆ коэффициентов соответствуют ожиданиям. Результат также соответствует известному наблюдению, что основным фактором, влиявшим на потребление бензина в это время (1953–2004), было не изменение цены, а рост доходов (выпуска). В этом примере использовались всего одна переменная, включенная в регрессию, и всего одна пропущенная переменная. В таких случаях обычно легко определить знак смещения. Важно понимать, что если включено более одной переменной, то в формулу пропущенных переменных входит несколько коэффициентов регрессии, знаки которых соответствуют частным, а не простым корреляциям. Например, если бы в уравнение спроса из предыдущего примера входила цена похожего продукта, то по простой корреляции цены и дохода нельзя было бы определить знак смещения оценки эластичности. Потребовалось бы получить знак корреляции цены и дохода, очищенных от влияния этой цены. Это может оказаться непросто, и сложность задачи возрастает при росте числа переменных. 4.3.3. Включение лишних переменных Если верным уравнением регрессии является (4-12) y = X β + ε, 1 1 а мы проводим оценивание так, будто верно (4-8) (т. е. включаем дополнительные переменные), то можно было бы предположить, что возникнут похожие проблемы. На самом деле это не так. Пропуск значимых переменных можно рассматривать как введение неверных условий на (4-8). Например, пропуск эквивалентен оценке (4-8) при неверном условии ВвеX = 0. 2 2 дение ложного ограничения дает смещенную оценку. Другая точка зрения состоит в том, что мы используем при оценивании неверную информацию. Предположим, однако, что наша ошибка заключается в том, что мы не использовали часть информации, которая является верной. Включение в регрессию лишних переменных X эквивалентно тому, что2 забыть наложить ограничение β = 0 в (4-8) при оценивании. Но (4-8) не 2 является неверным, оно лишь не включает условие Таким образом, β = 0. 2 не нужно отдельно доказывать, что OLS-оценка в (4-8) не смещена при β включении дополнительного условия; на самом деле мы это уже доказали. На основе наших предшествующих результатов можно заключить, что β β 1 1 | (4-13) E [b X] = = . β 0 2 Так в чем же тогда заключается проблема? Казалось бы, нужно всегда включать в модель как можно больше переменных. С теоретической точки зрения проблема здесь заключается в том, что отказ от использования инфор- 4.3. Свойства МНК на конечных выборках 69 Рис. 4.3. Влияние увеличения дисперсии x при неизменных условной и безусловной дисперсиях y мации имеет свою цену. В данном случае этой ценой оказывается уменьшение точности оценки. В подразделе 4.7.1 мы покажем, что матрица ковариаций укороченной регрессии (без ) никогда не будет больше матрицы X 2 2 ковариаций оценки, получаемой при включении лишних переменных . Рассмотрим пример с одной переменной: если сильно коррелирована с , x x 2 1 то ошибочное включение x в регрессию значительно увеличит дисперсию 2 оценки . β 1 4.3.4. Дисперсия оценки наименьших квадратов Если рассматривать регрессоры как неслучайные величины, например, когда исследователь сам выбирает значения в X, то выборочную дисперсию оценки наименьших квадратов можно получить, обращаясь с X, как с матрицей констант. В противном случае мы можем рассматривать X как случайную величину, провести анализ условно относительно наблюдаемых X, а затем усреднить по X, как мы делали при выводе (4-6) из (4-5). С помощью (4-4) можно получить −1 −1 b = (X X) X (Xβ + ε) = β + (X X) X ε. (4-14) −1 Поскольку где A является линейной функцией от b = β+Aε, = (X X) X , b шоков, что мы будем называть линейной оценкой. Как мы уже видели, математическое ожидание второго слагаемого в (4-14) равно 0. Следовательно, независимо от распределения при условии выполнения остальных сделанных ε нами предположений b является линейной несмещенной оценкой По предпоβ. A4 Var[ε|X] = σ I. Значит, матрица условных ковариаций вектора оценки коэффициентов методом наименьших квадратов равна 2 Потери в точности не будет, если в этом случае не содержит никакой X X = 0, X 2 2 1 информации об X . На практике такое случается крайне редко. 1 70 Глава 4. Оценки методом наименьших квадратов | − − | Var[b X] = E [(b β)(b β) X] −1 −1 | = E [(X X) X εε X(X X) X] −1 −1 | (4-15) = (X X) X E [εε X]X(X X) −1 2 −1 = (X X) X (σ I)X(X X) −1 2 = σ (X X) . Выборочная дисперсия оценки в модели парной регрессии. Пример 4.3. Предположим, что X содержит только константу (столбец из одних единиц) и единственный регрессор x. Нижний правый элемент матрицы −1 2 равен σ (X X) 2 σ | − | Var [b x] = Var [b β x] = . n − 2 (x x) i i=1 b. Обратим особенное внимание на знаменатель дисперсии Чем больше дисперсия x, тем меньше дисперсия b. Например, рассмотрим задачу оценки коэффициентов наклона регрессий на рис. 4.3. Более точный результат будет получен для данных правой части рисунка. 4.3.5. Теорема Гаусса–Маркова Получим общий результат для класса линейных несмещенных оценок β. Теорема Гаусса–Маркова Теорема 4.2. В модели линейной регрессии с матрицей регрессоров оценка методом X наименьших квадратов имеет наименьшую дисперсию среди всех линейb несмещенных оценок параметра Для любого вектора констант β. w линейной несмещенной оценкой с наименьшей дисперсией параметра w b является w β. Заметим, что доказательство теоремы не использует предположение A6 (нормальности распределения шоков). Необходимы только предположения A1–A4. Прямой подход к доказательству этой теоремы — это определить класс линейных несмещенных оценок (b Cy, таких что |X] и = E[b = β) L L потом найти в этом классе оценку с наименьшей дисперсией. Мы пойдем другим путем. Нам уже известно, что b — линейная несмещенная оценка. Мы рассмотрим другие линейные несмещенные оценки и покажем, что любая другая линейная несмещенная оценка имеет большую дисперсию. β Пусть — линейная несмещенная оценка где C — матрица. b = Cy β, 0 Поскольку является несмещенной, то b 0 | | E [Cy X] = E [(CXβ + Cε) X] = β, откуда следует, что Существует множество вариантов: например, CX = I. возьмем первые K (или любые K) линейно независимых строк матрицы X. 4.3. Свойства МНК на конечных выборках 71 −1 −1 Тогда где — матрица, обратная к матрице, образованной C = [X : 0], X 0 0 из строк матрицы X. Матрицу ковариаций вектора можно получить, K b 0 −1 2 заменив на C в (4-14); в результате получим | . (X X) X Var[b X] = σ CC 0 −1 Теперь пусть D = C − (X X) X , так что Dy = b − b. Тогда 0 2 −1 −1 | Var[b X] = σ [(D + (X X) X )(D + (X X) X ) ]. 0 −1 Мы знаем, что так что DX должно быть равно CX = I = DX+(X X) (X X), 0. Значит, −1 2 2 2 Var[b | X] = σ (X X) + σ DD = Var[b | X] + σ DD . 0 Поскольку квадратичная форма, соответствующая матрице , равна DD q DD q = z z ≥ 0, условная матрица ковариаций b равна условной матри0 ковариаций b плюс некоторая неотрицательно определенная матрица. Значит, каждая квадратичная форма, соответствующая матрице | Var[b X], 0 больше, чем квадратичная форма, соответствующая матрице | отVar[b X], куда получаем первую часть теоремы. Доказательство второй части теоремы следует из предшествующего рассуждения: дисперсия есть квадратичная форма, соответствующая матw b рице | Аналогично предыдущему, рассматривая произвольный векVar[b X]. тор b , можно получить, что каждый b является линейной несмещенной 0 k оценкой с наименьшей дисперсией для . (Для этого нужно рассмотреть w β k со всеми элементами, кроме k-го, равными нулю.) Утверждение теоремы является более общим, чем этот факт, поскольку он применим, вообще говоря, к любой линейной комбинации элементов β. 4.3.6. Особенности стохастических регрессоров Предыдущий анализ проводился условно относительно наблюдаемой выборки. Безусловный результат удобно получить, проведя анализ условно по b, а затем, «усреднив» (т. е. проинтегрировав по всему множеству условных распределений), по X. Смысл этого состоит в том, что если мы установили несмещенность условно относительно произвольного X, то можем усреднить по всем X и получить безусловный результат. Мы уже пользовались этим подходом для доказательства несмещенности b в подразделе 4.3.1; теперь мы применим его к условной дисперсии. Условная дисперсия b равна 2 −1 | Var[b X] = σ (X X) . Для получения безусловной дисперсии применим (B-69): | | Var[b] = E [Var[b X]] + Var [E [b X]]. X X Второе слагаемое равно нулю, поскольку | для всех X, поэтому E [b X] = β −1 −1 2 2 Var[b] = E [σ (X X) ] = σ E [(X X) ]. X X Вывод, сделанный нами в предыдущем разделе, несколько изменяется: −1 чтобы получить матрицу ковариаций, нужно заменить величину (X X) на 72 Глава 4. Оценки методом наименьших квадратов ее математическое ожидание, что несколько изменяет интерпретацию результата. Безусловную дисперсию b можно описать только в терминах усредненного поведения X, так что необходимо сделать некоторые предположения о дисперсиях и ковариациях регрессоров. Мы вернемся к этому вопросу в разделе 4.4. В подразделе 4.3.5 мы показали, что Var[b | X] ≤ Var[b | X] 0 для любой линейной несмещенной оценки и конкретной выборки X. b = b 0 Но если это неравенство верно для каждого X, то оно должно быть верно и для | Var[b] = E [Var[b X]]. X То есть если неравенство выполняется для каждого конкретного X, то оно должно выполняться и для среднего значения X. Таким образом, полученные нами свойства оценок методом наименьших квадратов — несмещенность и теорема Гаусса–Маркова — верны как условно для конкретной имеющейся выборки, так для случайной выборки из генеральной совокупности. Теорема 4.3. Теорема Гаусса–Маркова (продолжение) В модели линейной регрессии оценка наименьших квадратов является b линейной несмещенной оценкой с наименьшей дисперсией независимо от β того, является случайной или неслучайной матрицей, если при этом X сохраняются остальные предположения модели. 4.3.7. Оценки дисперсии методом наименьших квадратов Если требуется построить тест для гипотезы о векторе или доверительβ интервалы для него, то нам понадобится выборочная оценка его мат−1 ковариаций | . Необходимо оценить параметр Var[b X] = σ (X X) 2 2 генеральной совокупности σ . Поскольку σ — это математическое ожида2 , а — это оценка , по аналогии можно предположить, что ε e ε i i i n 1 2 2 σ ˆ = e i n i=1 2 является естественной оценкой . Однако остатки дают не очень хороσ оценку своих теоретических аналогов: − − − Эта e = y x b = ε x (b β). i i i i i оценка может быть искаженной, поскольку не наблюдается в явном виβ В правой части возникает математическое ожидание квадрата и второе слагаемое может иметь ненулевое математическое ожидание. Остатки равны e = My = M[Xβ + ε] = Mε, 2 поскольку [см. (3-15).] Наш метод оценивания будет основан на MX = 0 σ следующем представлении суммы квадратов остатков: e e = ε Mε. (4-16) 4.3. Свойства МНК на конечных выборках 73 Математическое ожидание этой квадратичной формы равно | | E [e e X] = E [ε Mε X]. Скаляр представляет собой матрицу размером × поэтому ее след ε Mε 1 1, совпадает с ней. Используя результат о циклических перестановках (A-94), получаем | | E [tr(ε Mε) X] = E [tr(Mεε ) X]. Поскольку M является функцией от X, имеем 2 2 | tr ME [εε X] = tr(Mσ I) = σ tr(M). След M равен −1 −1 − − − − tr[I X(X X) X ] = tr(I ) tr[(X X) X X] = tr(I ) tr(I ) = n K. n n n K Таким образом, 2 | − E [e e X] = (n K)σ , так что естественная оценка, рассмотренная ранее, смещена к нулю, хотя смещение и уменьшается с ростом размера выборки. Несмещенная оценка 2 имеет вид σ e e 2 (4-17) s = . n − K Эта оценка является также несмещенной безусловно, поскольку 2 2 2 2 | E [s ] = E E [s X] =E [σ ] = σ . X X 2 Стандартная ошибка регрессии — это s, квадратный корень . Испольs , можно вычислить s 2 −1 | Est. Var[b X] = s (X X) . Далее мы будем обозначать выборочную оценку выборочной дисперсии оценки Est. Var[·]. Квадратный корень k-го диагонального элемента этой мат1/2 называется стандартной ошибкой оценки , [s (X X) ] b kk k хотя часто его называют просто стандартной ошибкой . b k 4.3.8. Предположение о нормальности Пока что наш анализ регрессионных моделей был полупараметрическим (см. раздел 12.3). Мы нигде не пользовались предположением A6 (см. табл. 4.1) о нормальности Это предположение нужно при построении доε. интервалов. Из (4-4) следует, что b является линейной функцией вектора шоков ε. Если допустить, что ε имеют многомерное нормальное распределение, то мы можем использовать результаты раздела B10.2, а так- же уже вычисленные вектор средних и ковариационную матрицу и получить 2 −1 b | X ∼ N [β, σ (X X) ]. (4-18) 74 Глава 4. Оценки методом наименьших квадратов Это дает многомерное нормальное распределение, так что каждый элемент | распределен нормально: b X −1 2 | ∼ (4-19) b X N β , σ (X X) . k k kk Подобную картину мы наблюдали на рис. 4.1 в примере 4.1. Распределение b является условным по X. Нормальное распределение b на конечной выборке — это следствие нашего предположения о нормальности распределения возмущений. В отсутствие этого предположения (или другого похожего условия на распределение ε) мы не могли бы определить точное распределение b, ни условное, ни безусловное. В разделе 4.4 мы сможем получить приближенно нормальное распределение независимо от того, нормально или нет распределение b и случайны ли или нет регрессоры. 4.4. Свойства оценок наименьших квадратов на больших выборках Пользуясь только предположениями A1–A4 из табл. 4.1, мы установили 2 следующие свойства оценок наименьших квадратов b и s параметров и β 2 σ в конечных выборках: • — оценка коэффициента является несмещенной; E[b|X] = E[b] = β 2 2 2 • |X] — оценка дисперсии шоков является несмещенной; E[s = E[s ] = σ 2 −1 2 −1 • и Var[b|X] = σ (X X) Var[b] = σ E[(X X) ]; • теорема Гаусса–Маркова: для любого постоянного вектора w линейной несмещенной оценкой с наименьшей дисперсией (MVLUE, miniw β mum variance linear unbiased estimate) является w b. В этой модели можно также непосредственно вывести асимптотические свойства оценок (или свойства на больших выборках). Предположение о нормальности, A6, здесь перестает быть важным, и мы откажемся от него до обсуждения оценок максимального правдоподобия в подразделе 4.4.6 и главе 14. 4.4.1. Состоятельность оценки наименьших квадратов коэффициента β Несмещенность является полезным свойством для первоначального изучения плюсов некоторой оценки. Знание о несмещенности оценки дает исследователю уверенность в том, что оценка не будет систематически заниженной или завышенной. Однако в качестве стратегии оценивания это знание имеет два недостатка. Во-первых, оценки (за исключением обсуждаемых в этой главе оценок коэффициентов методом наименьших квадратов) редко оказываются несмещенными. Практически всегда в моделях более сложных, чем множественная регрессия, можно лишь надеяться, что оценка будет улучшаться в том смысле, что ее смещение будет становиться все меньше по мере увеличения информации (при росте размера выборки). Таким образом, нам нужен более широкий набор средств для хорошего 4.4. Свойства оценок наименьших квадратов на больших выборках 75 эконометрического анализа. Во-вторых, несмещенность не дает гарантии, что качество оценки улучшается с ростом размера выборки. Выборочные средние, вычисленные по выборкам размеров 2, 100 или 10 000, будут несмещенными оценками среднего генеральной совокупности, и, если использовать лишь критерий несмещенности, нельзя сказать, что какая-то из этих оценок лучше. Естественно, хотелось бы надеяться, что большая выборка лучше маленькой (а соответственно очень большая намного лучше или даже идеальна). Свойство состоятельности в обоих отношениях значительно лучше, чем свойство несмещенности. Для начала мы не будем специфицировать механизм, порождающий матрицу X: матрица X может быть любой комбинацией постоянных и случайных переменных, порожденных независимо от ε. Мы сделаем два важных допущения. Первое является модификацией предположения A5 из табл. 4.1: − последовательность независимых наблюдений. A5a. (x , ε ) i = 1, . . . , n i i Второе касается поведения данных в больших выборках: X X − положительно определенная матрица. (4-20) plim = Q n→∞ n [Мы вскоре вернемся к (4-20).] Оценку методом наименьших квадратов можно записать в виде −1 X X X ε b = β + . (4-21) n n −1 Если определена Q , то X ε −1 plim b = β + Q plim , n поскольку обратная матрица является непрерывной функцией исходной. (Здесь мы воспользовались теоремой D.14.) Нам нужен предел по вероятности последнего члена. Пусть n n 1 1 1 X ε = x ε = w = w. (4-22) i i i n n n i=1 i=1 Тогда −1 plim b = β + Q plim w. Из предположения об экзогенности A3 получаем, что | | E [w ] = E [E [w x ]] = E [x E [ε x ]]= 0, i x i i x i i i так что точное математическое ожидание равно Для неслучайных E [w] = 0. элементов равенство математических ожиданий нулю можно получить x i из одномерных распределений ε . Теперь рассмотрим дисперсию. Согласно i (B-70), | | Второй член равен нулю, поVar[w] = E [Var[w X]] + Var[E[w X]]. скольку | Чтобы вычислить первый член, воспользуемся | E [ε x ] = 0. E [εε i i 2 откуда X] = σ I, 2 1 1 σ X X | | | Var[w X] = E [w w X] = X E [εε X]X = . n n n n 76 Глава 4. Оценки методом наименьших квадратов Таким образом, 2 σ X X Var[w] = E . n n Дисперсия будет сходиться к нулю, если математическое ожидание в скобках сходится к постоянной матрице, так что все выражение при росте n будет определяться первым скалярным членом. Предположения (4-20) для этого будет достаточно. (Вообще говоря, математическое ожидание может расходиться при сходящемся пределе по вероятности, но этот случай маловажен для практических целей.) Тогда отсюда следует, что · (4-23) lim Var[w] = 0 Q = 0. n→∞ Поскольку среднее тождественно равно нулю, а его дисперсия стреw к нулю, то w сходится в среднеквадратичном к нулю, а значит, plim Значит, w = 0. X ε (4-24) plim =0 n и тогда −1 · (4-25) plim b = β + Q 0 = β. Таким образом, при выполнении предположений A1–A4 и дополнительного предположения (4-20) b является состоятельной оценкой в линейной β модели регрессии. При изучении временных рядов, включающих разнообразные временные тренды, часто возникают ситуации, при которых указанные предположения являются слишком строгими. В табл. 4.2 приводится набор более 3 слабых условий Гренандера , которые, как правило, верны для большинства ситуаций. Эти условия гарантируют «доброкачественность» («корректное поведение», «well-behaved») матрицы данных при росте размера выбор4 . Таблица 4.2. Условия Гренандера для доброкачественных данных (Grenander Conditions for Well-Behaved Data) 2 G1. Для каждого столбца матрицы , из условия следует, что X, x d = x x k k nk k 2 Следовательно, не сходится к последовательности нулей. lim d = +∞. x n→∞ k nk Суммы квадратов продолжают расти при росте размера выборки. Ни одна переменная не обращается в ноль. 2 2 G2. для всех Это условие означает, что не lim x /d = 0 i = 1, . . . , n. x x n→∞ k ik nk k будет в большой степени определяться одним-единственным наблюдением и вклад каждого конкретного наблюдения уменьшается при росте n. G3. Пусть R — матрица выборочных корреляций столбцов матрицы X, кроме n столбца констант, если он присутствует. Тогда lim R = C, где n→∞ n C — положительно определенная матрица. Это означает, что условие полноты ранга всегда будет выполняться. Мы уже предполагали, что на конечных выборках X имеет полный ранг. Этим условием мы гарантируем, что наше предположение не будет нарушено при росте размера выборки. 3 Judge et al. (1985, p. 162). 4 Более подробное исследование подобных условий можно найти в White (2001). 4.4. Свойства оценок наименьших квадратов на больших выборках 77 4.4.2. Асимптотическая нормальность оценок наименьших квадратов Как критерий качества оценки состоятельность важнее несмещенности. Поскольку мы стремимся ослабить некоторые условия исходной модели, в частности A6 (нормальность шоков), теряем полученный нами результат о нормальном распределении оценки, который нужен для построения доверительных интервалов в разделе 4.5. Кажется, что за построение более общей модели приходится жертвовать этим результатом. В этом разделе мы покажем, что нормальное распределение шоков не является необходимым условием для получения свойств распределения оценки, которые нам необходимы для статистических выводов, включая построение доверительных интервалов и проверку гипотез. Оказывается, при достаточно широких естественных условиях порождения данных распределения в больших выборках дадут вполне надежный фундамент для статистических выводов в модели регрессии. (Этот подход мы будем использовать и далее в книге при рассмотрении более тонких методов оценивания.) Для получения асимптотических свойств оценок методом наименьших квадратов мы воспользуемся результатами раздела D.3. Чтобы пользоваться различными вариантами центральных предельных теорем, нам придется дополнить условие A3 (отсутствие корреляций) предположением о независимости наблюдений. Из (4-21) следует, что −1 √ X X 1 √ n(b − β) = X ε. (4-26) n n Поскольку обратная матрица является непрерывной функцией исходной, то −1 −1 plim(X X/n) = Q . Значит, если предельное распределение случайного вектора из (4-26) существует, то оно совпадает с предельным распределением X 1 1 −1 √ √ (4-27) plim X ε = Q X ε. n n n Значит, нам нужно найти предельное распределение √ 1 √ − (4-28) X ε = n w E [w] , n √ где [см. (4-22).] Для нахождения предельного распределения E [w] = 0 nw воспользуемся многомерным вариантом центральной предельной теоремы, 5 известным как теорема Линдеберга–Феллера (D19.A) . Заметим, что равw среднему n независимых случайных векторов со средними 0 и w = x ε i i i дисперсиями 2 2 Var[x ε ] = σ E [x x ] = σ Q . (4-29) i i i i i √ Дисперсия равна nw 1 2 2 · · · (4-30) σ Q = σ [Q + Q + + Q ]. 1 2 n n n 5 Заметим, что теоремой Линдеберга–Леви воспользоваться не удастся, так как величина Var[w ] необязательно является постоянной. i 4.4. Свойства оценок наименьших квадратов на больших выборках 81 В табл. 4.3 приведены оценки параметров модели, стандартные отклоt-статистики. и В частности, приведены краткосрочные эластичности. Оценки долгосрочных эластичностей равны − −0, − −0, f = b /(1 c) = 069532/(1 0, 830971) = 411358 2 2 и − f = 0, 164047/(1 0, 830971)0, 970522. 3 Чтобы оценить стандартные отклонения, вычислим частные производные наших функций по шести параметрам модели: ∂φ 2 2 − − g = = 0, 1/ (1 γ) , 0, 0, 0, β / (1 γ) = 2 2 ∂β −2, = [0, 5, 91613, 0, 0, 0, 43365], ∂φ 3 2 − − g = = 0, 1/ (1 γ) , 0, 0, 0, β / (1 γ) = 3 3 ∂β = [0, 0, 5, 91613, 0, 0, 5, 74174], Таблица 4.3. Результаты оценки регрессии уравнения спроса Сумма квадратов остатков: 0,0127352 Стандартная ошибка регрессии: 0,0168227 2 R на основе 51 наблюдения 0,9951081 Переменная Коэффициент Стандартная ошибка Статистика Constant −3,123195 0,99583 −3,136 ln P −0,069532 0,01473 −4,720 G ln Income / Pop 0,164047 0,05503 2,981 ln −0,178395 0,05517 −3,233 P nc ln P 0,127009 0,03577 3,551 uc ln G / Pop в 0,830971 0,04576 18,158 предыдущий момент −n Оцененная матрица ковариаций для b − умножить на (e n = 10 ) Constant ln P ln(Income/Pop) ln P ln P ln(G/Pop) nc uc t−1 G 0,99168 −0,0012088 0,00021705 −0,052602 1,62165e–5 0,0030279 0,0051016 −0,00021705 −0,00024708 0,0030440 0,0091672 −4,0551e–5 −0,00060624 −0,0016782 0,0012795 −0,0001109 −0,0021881 0,043915 0,00068116 8,57001e–5 0,0020943 С помощью (4-36) можно теперь оценить асимптотические дисперсии 2 −1 2 −1 долгосрочных эластичностей, вычислив g [s (X X) ]g и g [s (X X) ]g . 2 3 2 3 Получаем соответственно 0,023194 и 0,0263692. Асимптотические стандартные ошибки — это квадратные корни из этих чисел, равные 0,152296 и 0,162386. 82 Глава 4. Оценки методом наименьших квадратов 4.4.5. Асимптотическая эффективность Мы пока не выводили аналог теоремы Гаусса–Маркова для больших выборок. Это значит, что мы пока не знаем, являются ли оценки методом наименьших квадратов в каком-либо смысле оптимальными в асимптотике. Теорема Гаусса–Маркова дает условия на конечную выборку, при выполнении которых оценка оказывается оптимальной. Требования линейности и несмещенности оценки, однако, существенно ограничивают общность теоремы. В этом подразделе мы попытаемся построить аналог этой теоремы для класса состоятельных (хотя, возможно, смещенных) линейных оценок. Позже мы займемся и нелинейными оценками. Для изучения этих классов оценок нам понадобится новый критерий качества оценки. Определение 4.1. Асимптотическая эффективность Оценка называется асимптотически эффективной, если она состоятельна, асимптотически нормальна и имеет ковариационную матрицу не большую, чем у любой другой состоятельной, асимптотически нормальной оценки. Две оценки можно сравнивать по их асимптотическим дисперсиям. Сложность при сравнении двух состоятельных оценок заключается в том, что обе оценки стремятся к истинному значению параметра при росте размера выборки. Более того, обычно оказывается (как в примере 4.5), что они к тому же имеют одинаковую скорость сходимости, т.е. величины их асимптотических дисперсий имеют одинаковый порядок по размеру выборки, например O(1/n). В этой ситуации иногда можно сравнить дисперсии двух оценок на выборках одинакового размера. В следующем примере мы рассмотрим оценку, минимизирующую модуль отклонения, как альтернативу оценке метода наименьших квадратов. Пример 4.5. Метод наименьших квадратов против метода наименьших абсолютных отклонений: сравнение методом Монте-Карло Ранее (в разделе 4.2) мы видели, что метод наименьших квадратов, несмотря на ряд своих плюсов, не единственный возможный метод построения оценок в линейной модели. В качестве альтернативы можно рассмотреть оценки LAD (least absolute deviations) — оценки, минимизирующие сумму модулей отклонений. (Более подробно эти оценки будут рассмотрены в подразделе 7.3.1.) Эти оценки строятся следующим образом: n b = вектор, минимизирующий |y − x b |, LAD i 0 i i=1 в отличие от оценок метода наименьших квадратов, которые строятся как n 2 b вектор, минимизирующий − = (y x b ) . LS i 0 i i=1 4.4. Свойства оценок наименьших квадратов на больших выборках 83 Предположим, что модель регрессии имеет вид x y = β + ε , i i i причем распределение имеет нулевое условное среднее, постоянную ε i 2 дисперсию и нулевую условную медиану, т.е. распределение симметσ также потребуем, чтобы plim(1/n)X ε = 0. Это обычные предположения линейной модели, но с заменой требования нормальности распределения требованием его симметричности. При таких условиях оценка P состоятельна и асимптотически нормальна, а ее асимптотическая LS ковариационная матрица описывается теоремой 4.4 и будет обозначаться 2 σ A . В ряде работ (Koenker, Bassett (1978, 1982), Huber (1987), Rogers (1993), Koenker (2005)) было показано, что в таких условиях оценка b также LAD является состоятельной. Хорошей оценкой асимптотической дисперсии 2 2 будет величина (1/2) [1/f (0)] где f (0) — плотность распределения b A, LAD ε в нуле, т.е. в его медиане. Таким образом, мы можем сравнить эти две оценки, сравнивая их асимптотические дисперсии. Отношение асимптотической дисперсии элемента b и асимптотической дисперсии k-го LAD соответствующего члена b равно LS 2 2 2 q = Var(b )/Var(b ) = (1/2) (1/σ )[1/f (0)] . k,LAD k,LS k Если на самом деле распределены нормально и имеют нулевое матемаε ожидание и медиану, то 2 −1/2 2 2 f (ε) = (2πσ ) exp(−ε /(2σ )), 2 −1/2 q так что f (0) = (2πσ ) , и в этом случае = π/2. Итак, если k ошибки распределены нормально, то оценки LAD асимптотически менее эффективны в раза. π/2 = 1, 573 Оценки LAD оказываются полезны, когда нормальность распределения ошибок предполагать нельзя. В результате большого количества исследований было установлено, что преимущества LAD-оценок особенно значительны при маленьких размерах выборок и если распределение имеет более толстые хвосты, чем нормальное, т. е. более вероятны ε y большие по модулю значения . При росте размера выборки оценки i можно ожидать, что оценки LS восстановят свое преимущество. Мы рассмотрим этот аспект с помощью маленького исследования методом Монте-Карло. В примерах 2.6 и 3.4 мы наблюдали интересный аспект ценообразования на рынке произведений искусства: оказывается, большие картины на аукционах продаются в среднем дороже, чем маленькие. Таблица F4.1 в приложении содержит информацию о продажной цене, ширине и высоте 430 картин Моне. Все эти картины были проданы на аукционах по ценам от 10 тыс. до 33 млн долл. Результаты оценки линейной регрессии логарифма цены на константу, логарифм площади и отношение сторон холста приведены в верхней строке табл. 4.4. Это основной результат, на который мы опираемся в нашем исследовании. 84 Глава 4. Оценки методом наименьших квадратов Таблица 4.4. Оцененные уравнения для цен на произведения искусства Константа Log Area Aspect Ratio Полная Среднее Стан- Среднее Стан- Среднее Станвыборка –8,42653 0,61184 1,33372 0,09072 0,12753 LAD –7,62436 0,89055 1,20404 0,13626 –0,21260 0,13628 R = 10 LS –9,39384 6,82900 1,40481 1,00545 0,39446 2,14847 LAD –8,97714 10,24781 1,34197 1,48038 0,35842 3,04773 R = 50 LS –8,73099 2,12135 1,36735 0,30025 0,52222 LAD –8,91671 2,51491 1,38489 0,36299 –0,06129 0,63205 R 100 = LS –8,36163 1,32083 1,32758 0,17836 –0,17357 0,28977 LAD –8,05195 1,54190 1,27340 0,21808 –0,20700 0,29465 Чтобы продемонстрировать разницу в поведении оценок LS и LAD, мы 7 проведем следующее исследование методом Монте-Карло . Сделаем 100 R выборок без возвращения размера из нашего набора из 430 наблюдений. Для каждой из этих ста выборок построим оценки b и b . Затем LS,r LAD,r 8 усредним оценки каждого метода и построим их выборочную дисперсию . Выборочная дисперсия 100 наборов результатов соответствует понятию «разброс в повторяющихся выборках». Мы проделаем этот эксперимент для R = 10, 50 и 100. Поскольку вся выборка достаточно велика, можно воспользоваться результатами регрессии, полученными с использованием всей выборки, как истинными значениями параметров. Приведенные в табл. 4.1 стандартные отклонения для оценок LAD, построенных для всей выборки, получены с помощью бутстрэпа (бутстрэпирования, bootstrap). Короче говоря, процедура состоит в следующем: мы берем B — у нас — выборок размером n (430) с возвращением из общей выборки B = 100 размера n. По каждой из этих выборок строится оценка LAD. Оценка дисперсии оценки LAD получается вычислением среднеквадратичного отклонения этих B-оценок от оценки, построенной по первоначальной выборке (не среднее этих B-оценок). Этот метод будет подробно описан в разделе 15.4.Если предположения модели верны, то должно наблюдаться следующее: 1. Поскольку обе оценки состоятельны, полученные средние должны быть близки к результатам регрессии всей выборки и стремиться к ним при росте R. R 2. При росте выборочные дисперсии оценок должны убывать. 3. Вообще говоря, стандартные отклонения оценок LAD должны быть больше стандартных отклонений оценок LS. 86 Глава 4. Оценки методом наименьших квадратов 4.4.6. Оценка максимального правдоподобия Мы видели две причины для применения метода наименьших квадратов: во-первых, теорема 4.1 показывает, что оценка эта является выборочным аналогом линейного предиктора y, минимизирующего среднеквадратичное отклонение; во-вторых, теорема 4.2 Гаусса–Маркова показывает, что при выполнении условий модели эта оценка является несмещенной линейной оценкой имеющей наименьшую дисперсию. Ни один из этих двух реβ, не использовал предположение A6 (нормальность распределения ε). Возникает естественный вопрос: зачем вообще вводилось это предположение? На то есть две причины. Во-первых, предположение нормальности будет использоваться для построения доверительных интервалов в разделах 4.5 и 4.6. Однако в подразделе 4.4.2 было показано, что ЦПТ позволяет делать статистические выводы исходя из асимптотической нормальности, даже если шоки не распределены нормально. Кажется, что предположение A6 становится излишним, что было бы во многом верным, если бы не вторая причина. Если шоки распределены нормально, то оценка наименьших квадратов также является оценкой максимального правдоподобия (maximum likelihood estimator, MLE). Оценки максимального правдоподобия будут подробно рассмотрены в главе 14, а здесь будет приведено лишь их краткое описание. В конечном счете мы придем к тому, что, будучи MLE, оценка LS оказывается асимптотически эффективной в классе всех состоятельных асимптотически нормальных оценок. Это утверждение служит аналогом теоремы Гаусса–Маркова для больших выборок и известно как граница Крамера–Рао. Обе эти теоремы схожи тем, что указывают на то, что оценки LS наиболее эффективны среди оценок из некоторого класса; различие в том, о каком именно классе идет речь: • теорема Гаусса–Маркова: линейные несмещенные оценки; • MLE: cостоятельные и асимптотически нормальные оценки при условии нормальности распределения шоков. Ни один из этих классов не вложен в другой. Заметим, например, что результат, касающийся MLE, не опирается ни на линейность, ни на несмещенность. Теорема Гаусса–Маркова, наоборот, не требует ни нормальности, ни состоятельности. Теорема Крамера–Рао описывает асимптотические свойства. Важным вопросом исследования является эффективность оценки. Результаты, касающиеся эффективности, позволяют определить, как лучше всего пользоваться имеющимся набором данных для статистических выводов. Вообще говоря, обычно трудно говорить об эффективности оценки без упоминания конкретных альтернатив для сравнения. Теорема Гаусса–Маркова представляет собой важный результат для линейной модели. Однако у нее нет аналогов при любом другом моделировании, поэтому, как только мы отходим от линейной модели, нам требуются другие способы сравнения оценок. Принцип максимального правдоподобия позволяет исследователю определять асимптотическую эффективность оценок, но только при наличии дополнительного предположения о распределениях всех наблюдаемых случайных величин. Пример 4.6 показывает, что b является MLE-оценкой 4.4. Свойства оценок наименьших квадратов на больших выборках 87 в модели регрессии с нормально распределенными шоками. В примере 4.7 рассмотрен случай, когда распределение шоков отлично от нормального и как следствие b менее эффективна, чем MLE. MLE с нормально распределенными возмущениями Пример 4.6. Если шоки распределены нормально, условные распределения y |x также i i 2 нормальны и имеют средние x и дисперсии , так что плотность y |x β σ i i i имеет вид 1 2 − − x exp (y β) i i 2 √ |x f (y ) = . i i 2 2πσ Логарифм функции правдоподобия, вычисленной по выборке из n независимых наблюдений, равен логарифму плотности совместного распределения наблюдаемых случайных величин. Если выборка случайна, то это будет произведение плотностей каждой из величин, так что логарифм функции правдоподобия по имеющимся данным, обозначаемый как 2 lnL(β, |y,X), будет равен сумме логарифмов плотностей. После некотоσ преобразований мы придем к 2 2 2 1 2 |y,X) −(n/2)[ln − x lnL(β, σ = σ + ln 2π + (1/σ ) Σ (y β) ]. i i i n 2 Значения и , максимизирующие эту функцию, являются оценками β σ 2 метода MLE для и . Как мы увидим далее в главе 14, функции от β σ данных, максимизирующие эту сумму, будут представлять собой вектор коэффициентов метода наименьших квадратов b и усредненный квадрат остатков Также в главе 14 будет получен следующий результат: e e/n. ˆ 2 −1 2 −1 Asy.Var β = −E[∂ ln L/∂β∂β ] = σ E[(X X) ], M L который в точности совпадает с тем, что мы получили в подразделе 4.3.6. Таким образом, оценка наименьших квадратов является оценкой максимального правдоподобия. Она состоятельна, асимптотически (и точно) нормально распределена и при нормальном распределении шоков по теореме 14.4 асимптотически эффективна. Важно отметить, что свойства оценок MLE зависят от того, каким предполагается распределение наблюдаемых случайных величин. Если предположить распределение отличное от нормального, то b не будет оценкой ε, MLE и может не быть эффективной. Рассмотрим следующий пример. Пример 4.7. Модель гамма-регрессии В работе Green (1980a) рассматривается оценивание регрессионной модели с асимметрично распределенными шоками: √ √ ∗ ∗ − y = (α + σ P ) + x β + (ε σ P ) = α + x β + ε , 88 Глава 4. Оценки методом наименьших квадратов где имеет гамма-распределение (как в разделе B4.5 приложения [см. (Bε а σ = P /λ — это стандартное отклонение шоков. В этой модели ковариационная матрица для оценки коэффициентов методом LS (не включая константу) равна −1 2 0 Asy. Var[b | X] = σ (X M X) , 9 а для оценки MLE (отличной от LS) — ˆ −1 2 0 ≈ − Asy. Var[ β ] [1 (2/P )]σ (X M X) . M L За исключением параметра, соответствующего асимметрии, результат совпадает с аналогом для метода наименьших квадратов. Однако нами показывается, что эта оценка, учитывающая асимметрию, более эффективна асимптотически. На эту модель немного похожа модель стохастической границы (stochastic frontier model), которая будет рассмотрена в главе 18. В обеих этих моделях распределение шоков асимметрично. Оценки MLE вычислены способом, учитывающим этот момент, в то время как оценка наименьших квадратов не различает симметричных наблюдений выше и ниже линии регрессии. Это различие и дает большую эффективность оценок MLE в обеих моделях. 4.5. Интервальные оценки Цель получения интервальных оценок состоит в том, чтобы вместе с оценкой параметра еще и явно показывать степень неопределенности этой оценки. Обычно результатом интервального оценивания параметра окаθ выражение вида ˆ θ ± возможное выборочное отклонение. (4-37) (Здесь мы предполагаем, что интересующий нас интервал симметричен отˆ Поскольку величина возможного выборочного отклонения, θ.) вообще говоря, должна отражать степень неуверенности в значении параметра, рассмотрим естественные ограничения. Например, мы можем быть ˆ абсолютно уверены, что истинное значение лежит в интервале θ ± ∞. Это, разумеется, не слишком информативное ограничение. Другое очевидное ограничение состоит в том, что наша уверенность в том, что истинное значеˆ параметра лежит в 0, равна 0%. В самом деле вероятность того, что θ± наша оценка в точности совпадет с оцениваемым значением, равна нулю. Нужно выбрать какой-то конкретный уровень — обычно берут 0,05 или α 0,01 — и построить интервал вида (4-13), такой, что истинное значение параметра лежит в нем с вероятностью (уровнем доверия) − Далее 100(1 α). 9 С помощью матрицы данные приводятся к отклонениям от выборочного среднего. (См. раздел A.2.8 приложения.) В этой модели P должно быть больше 2. 4.5. Интервальные оценки 89 мы рассмотрим процедуру построения такого интервала, а потом применим ее для решения трех часто встречающихся задач — построения интервальной оценки параметра линейной регрессии, построения оценки функции от параметров модели и предсказания значения зависимой переменной при заданных значениях независимых переменных. Вначале мы будем исходить из предположения A6 о независимости распределений шоков, затем несколько ослабим это требование и будем полагаться на асимптотическую нормальность оценок. 4.5.1. Построение доверительного интервала для коэффициента линейной регрессии −1 2 Из (4-18) следует, что b|X ∼ N[β,σ (X X) ]. Отсюда вытекает, что для любого элемента b, скажем b , верно k 2 kk ∼ b N [β , σ S ], k k −1 kk где — диагональный элемент матрицы . Нормируя эту велиS k-й (X X) чину, мы получаем, что − b β k k √ (4-38) z = k 2 kk σ S имеет стандартное нормальное распределение. Заметим, что z , являясь k 2 kk функцией от b , , и S , тем не менее имеет распределение, не зависяβ σ k k z щее от параметров модели или наблюдаемых данных: является базисной k (или основной) статистикой (pivotal statistic). Если нам нужно построить 95%-й доверительный интервал, то необходимо воспользоваться тем, что Prob[−1,96≤ z ≤1,96]. С помощью простых преобразований получаем k √ √ − 2 kk ≤ ≤ 2 kk (4-39) Prob b 1, 96 σ S β b + 1, 96 σ S = 0, 95. k k k Заметим, что здесь определяется вероятность того, что случайный интервал b ± возможное выборочное отклонение содержит , а не вероятность того, β k k что лежит в конкретном интервале. Если нужно получить интервал с доβ вероятностью α, отличной от 95%, то нужно заменить 1,96 в (4-39) на z . (Через z мы обозначаем такое число, что для случай(1−α/2) величины имеющей стандартное нормальное распределение, Prob[z z, z − Таким образом, что соответствует ] = 1 α/2. z = 1, 96, α = 0, 05.) 0,975 (1−α/2) Требуемый доверительный интервал был получен в (4-39), однако вели2 неизвестна, поэтому воспользоваться этим интервалом нельзя. Каσ естественным воспользоваться здесь полученной нами ранее оценкой 2 s . В самом деле величина 2 − (n K)s e e ε ε (4-40) = = M 2 2 σ σ σ σ является идемпотентной квадратичной формой от стандартного нормального вектора (ε/σ). Значит, она имеет распределение хи-квадрат с числом степеней свободы, равным − (См. доказательrank(M) = trace(M) = n K. ство этого факта в разделе B11.4.) Случайная величина хи-квадрат в (4-40) 90 Глава 4. Оценки методом наименьших квадратов и нормально распределенная случайная величина в (4-38) являются независимыми. Чтобы это доказать, достаточно показать, что b − β ε −1 = (X X) X σ σ 2 2 K)s /σ не зависит от (n − . В разделе B.11.7 (теорема B.12) показывается, что достаточным условием независимости линейной формы Lx и идемпотентной квадратичной формы от стандартного нормального вектора x Ax x является равенство LA = 0. Принимая за x, для нашего случая полуε/σ условие (X X) X M = 0. Это условие выполняется, как мы видели в (3-15). Следующий общий результат является основным при выводе многих тестовых статистик в регрессионном анализе. 2 Независимость и Теорема 4.6. b s Если величина распределена нормально, то оценка коэффициентов ε b, полученная с помощью метода наименьших квадратов, и вектор остатков 2 (а следовательно, и функции этого вектора, в том числе ) распределены e s независимо. Таким образом, отношение √ − 2 kk − (b β )/ σ S b β k k k k √ (4-41) t = = k − 2 2 − 2 kk [(n K)s /σ ]/(n K) s S 10 t-распределение имеет с (n − K) степенями свободы . Мы можем воспользоваться статистикой для проверки гипотез или построения доверительt интервалов для отдельных элементов β. 2 2 Результат (4-41) отличается от (4-38) тем, что вместо используется s , σ t-распределение а также базисным распределением статистики, имеющей с (n – K) степенями свободы вместо стандартного нормального. Таким образом, доверительный интервал для можно построить как β k √ √ − 2 kk ≤ ≤ 2 kk − Prob b t s S β b + t s S = 1 α, k k k (1−α/2),[n−K] (1−α/2),[n−K] (4-42) где t — соответствующее критическое значение t-распределения. (1−α/2),[n−K] Здесь распределение пивотальной статистики зависит от размера выборки (через число степеней свободы (n – K)), но вновь не зависит от данных. Преимущество равенства (4-42) в том, что в нем не используются неизвестные параметры. На его основе можно построить доверительный интервал для . β k 10 См. (B-36) в разделе B.4.2. Это есть отношение стандартной нормально распределенной 2 величины к квадратному корню из случайной величины, имеющей распределение , χ деленной на число ее степеней свободы. 4.5. Интервальные оценки 93 основанная на асимптотическом стандартном распределении, не будет t-распределение иметь с 45 степенями свободы. 4.5.3. Доверительные интервалы для линейных комбинаций коэффициентов: разложение Oxaкa При условии нормального распределения отклонений оценка методом наименьших квадратов b распределена нормально со средним и ковариаβ матрицей . В примере 4.8 было показано, как можно восσ (X X) пользоваться этим фактом для построения доверительного интервала для одного из элементов β. Этот результат можно расширить при построении доверительного интервала для линейной функции параметров. Для этого часто используют разложение Охака и Блаиндера (Oaxaca (1973) и Blinder 11 (1973)) . Пусть w — вектор известных констант размером × Тогда линейная K 1. комбинация распределена нормально и имеет среднее и c = w b γ = w β −1 2 2 2 дисперсию σ = w [σ (X X) ]w, которую можно оценить как s = c c 2 −1 Имея эти величины, можно, воспользовавшись получен- = w [s (X X) ]w. ными результатами, построить доверительный интервал для γ: − ≤ ≤ − (4-43) Prob[c t s γ c + t s ] = 1 α. c c (1−α/2),[n−k] (1−α/2),[n−k] Этот общий результат можно использовать, например, для суммы или разности коэффициентов. Рассмотрим пример из работы Oxaкa (1973). При исследовании предложения на рынке труда были раздельно оценены регрессии для выборок из мужчин и женщин. Использовались уравнения регрессий n n m f ln wage = x β + ε , i = 1, . . . , n m m,i m m,i m,i и ln wage = x β + ε , j = 1, . . . , n . f f,j f f,j f,j В число регрессоров входили социодемографические переменные (такие, как, например, возраст) и переменные, описывающие человеческий капитал (такие, как образование, опыт работы). Мы заинтересованы в сравнении этих двух регрессий, а в особенности в наличии или отсутствии дискриминации при определении зарплат. Oxaкa предложил подход к сравнению этих регрессий. Для двух любых векторов характеристик E [ln wage |x ] − E [ln wage |x ] = x β − x β m,i f,i m f m,i f,j m,i f,j − − = x β x β + x β x β m f f f m,i m,i m,i f,j − − = x (β β ) + (x x ) β . m f m,i f,j f m,i Второй член этого разложения связан с различиями в человеческом капитале и является естественным объяснением различий в уровне заработной 11 См., напр., Bourgignon et al. (2002). 94 Глава 4. Оценки методом наименьших квадратов платы, если рынок труда реагирует на эти характеристики так, как мы обычно предполагаем. Первый член показывает разницу в логарифмах заработной платы, не объясняемую разницей в человеческом капитале, т. е. если зафиксировать эти характеристики на уровне x , то первый член будет отраm влияние других факторов. Oхaкa предложил вычислить это разложение в средних векторов регрессоров, и , и OLS-оценках коэффициентов, x x m f и . Если в уравнения регрессий входят постоянные, то эти действия b b m f эквивалентны рассмотрению ln y − ln y . m f Нас интересует доверительный интервал для первого члена разложения, при построении которого нужно дважды применить наш результат. Будем считать два вектора выборочных средних известными. Предполагая, что две имеющиеся выборки независимы, наши оценки, b и b , независимы и имеm f 2 −1 2 −1 ют средние и и ковариационные матрицы и . β β σ (X X ) σ (X X ) m f m f m m f f Ковариационная матрица разности равна сумме этих двух матриц. Мы построим доверительный интервал для где − . Оцененная x d, d = b b m f m ковариационная матрица равна −1 −1 2 2 (4-44) Est. Var[d] = s (X X ) + s (X X ) . m f m m f f Теперь можно применить полученный ранее результат, а также построить − доверительный интервал для второго члена: нужно взять w = x x и m f применить тот же результат к величине w b . f 4.6. Предсказание и прогнозирование После оценки параметров модели ее часто применяют для предсказания значений зависимой переменной. Мы будем различать предсказание и прогнозирование, основываясь на различии между межобъектными данными и временными рядами. Предсказание (как для межобъектных данных, так и для временных рядов) использует модель регрессии для вычисления подобранных (fited) (или предсказанных) значений зависимой переменной для наблюдений как из выборки, так и вне ее. Результаты, касающиеся предсказания, будут применимы к межобъектным и панельным данным, а так- же к временным рядам. Прогнозирование отличается тем, что временной структуре данных будет отводиться особая роль, причем зачастую будут использоваться лагированные зависимые переменные и шоки, скоррелированные с шоками предыдущих временных периодов. Здесь обычно будут прогнозироваться будущие значения зависимой переменной. Важная разница между предсказанием и прогнозированием (в нашем понимании значений этих слов) заключается в том, что при предсказании обычно исследуется сценарий, определенный исследователем. Например, в приведенном ниже примере мы будем предсказывать цену картин Моне; при этом мы можем пытаться предсказать цену как гипотетической картины по заданным размеру и отношению сторон, так и картины из имеющейся выборки. При изучении временных рядов мы обычно пытаемся спрогнозировать событие (например, реальный объем инвестиций в следующем году), основываясь не на гипотетическом сценарии развития экономики, а на наилучшей имеющейся оценке экономической обстановки в следующем году. Мы будем 4.6. Предсказание и прогнозирование 95 пользоваться термином предсказание ex post (или прогноз ex post) в случаях, когда данные, используемые в уравнении регрессии при построении предсказания (или прогноза), либо наблюдаемы, либо построены экспериментально. Это будет первой из рассмотренных нами в этом разделе ситуаций. Прогноз ex ante (в контексте временных рядов) требует предварительной оценки будущих значений независимых переменных. В одном из примеров этой главы объем реальных инвестиций прогнозируется с помощью модели, в которую входят реальный ВВП и индекс цен. Чтобы спрогнозировать реальные инвестиции в этой модели, нужно сначала построить прогноз для реального ВВП и индекса цен. Прогнозирование ex ante будет кратко рассмотрено в этой главе, а затем более подробно в главе 20. 4.6.1. Доверительные интервалы для предсказаний 0 0 y Пусть нам нужно предсказать значение по вектору регрессоров x . Фактическое значение имеет вид 0 0 0 y = x β + ε . Из теоремы Гаусса–Маркова получаем, что 0 0 y ˆ = x b (4-45) является линейной несмещенной оценкой с минимальной дисперсией для 0 0 0 |x x Ошибка предсказания равна E[y ] = β. 0 0 0 0 0 − − x e = y ˆ y = (b β) + ε . Дисперсия ошибки этой оценки равна −1 0 0 2 0 0 2 0 2 0 |X, x − |X, (4-46) Var[e ] = σ + Var[(b β) x x ] = σ + x σ (X’X) x . Если уравнение регрессии содержит константу, то это эквивалентно   K−1 K−1 1 jk 0 0 2 0 0 0 |X, x − − Z (4-47) Var[e ] = σ 1 + + x x ¯ x x ¯ M Z , j k  j k  n j=1 k=1 0 где Z — K − 1 столбцов X без константы, Z M Z — матрица сумм квадратов и произведений для столбцов матрицы X, выраженных в отклонениях от их средних [см. (3-21)], а верхний индекс jk обозначает элемент jk обратной матрицы. Из этого результата следует, что ширина доверительного интер0 для предсказания зависит от расстояния между элементами вектора x и «центром» данных. Интуитивно это достаточно ясно: чем более удалены новые данные от нашего накопленного опыта, тем меньше точность наших предсказаний. Рисунок 4.5 демонстрирует этот эффект для случая парной регрессии. Обратим внимание, что дисперсия предсказания состоит из трех частей. Вторая и третья уменьшаются при увеличении выборки (т.е. при ро2 n). Но первый член, , является постоянным: это значит, что никакой σ объем данных не даст абсолютно точного предсказания. 96 Глава 4. Оценки методом наименьших квадратов Рис. 4.5. Доверительные интервалы для предсказаний 2 2 s Дисперсию предсказаний можно оценить, используя вместо σ . Дове0 интервал для предсказания y может быть построен как 0 0 интервал предсказания ± (4-48) = y ˆ t se e , (1−α/2),[n−K] где t — подходящее критическое значение для уровня значимо- – (1−α/2),[n K] сти − из таблицы для t-распределения с − степенями свободы, 100(1 α)% n K 0 а se(e — квадратный корень оценки дисперсии предсказания. ) y, 4.6.2. Предсказание если уравнение регрессии описывает логарифм y Часто используют регрессионные модели, описывающие не саму переменную, а некоторую функцию от нее. В примере 4.5 мы описывали цены на картины Моне с помощью уравнения ln Price = β + β ln Area + β AspectRatio + ε. 1 2 3 (Area — произведение ширины и высоты картины, а AspectRatio — высота, деленная на ширину.) Логарифмическая форма удобна тем, что коэффициент равен эластичности зависимой переменной по независимой, т. е. в этой AspectRatio]/∂lnArea. модели β = ∂E[lnPrice|lnArea, Однако уравнение в та2 форме хуже подходит для целей предсказания, чем простая регрессия цены. Естественно было бы взять предиктор для 0 0 ln y = x b в виде 0 0 y ˆ = exp(x b). 4.6. Предсказание и прогнозирование 99 стов» равна желаемому (обычно 0,05). Запишем лагранжиан: α ∗ − − − Minimize (L, U, λ) : I = U L + λ[F (L) + (1 F (U )) α]. Найдем решения, приравнивая частные производные к нулю: ∗ −1 ∂I /∂L = + λf (L) = 0, ∗ − ∂I /∂U = 1 λf (U )0, ∗ ∂I /∂λ = F (L) + [1 − F (U )] − α = 0, где f (L) = F (L) и f (U ) = F (U) — производные функции распределения, т. е. плотности распределения в L и U соответственно. Третье уравнение описывает ограничение на сумму вероятностей «хвостов», но не требует их равенства. Складывая два первых уравнения, получаем f(L) − f(U)] λ[ = 0, ∗ ∗ что при λ = 0 означает, что решение можно найти, найдя такие (L , U ), что сумма вероятностей «хвостов» равна α, а плотности равны между собой. ∗ ∗ Посмотрев на рис. 4.6, можно увидеть, что искомое решение — (L , ), где U ∗ ∗ L и . Это наиболее короткий интервал, и он короче как 0 < L < U < U 0 U так и U]. [0, ], [L, 0 Это рассуждение применимо к любому распределению, как симметричному, так и нет. Для симметричного распределения мы, очевидно, получим симметричный интервал из (4-51). Верное решение мы получим и в случае асимметричного распределения. В байесовском подходе эквивалентом этому при изучении условного распределения параметра при известных данных является интервал с наибольшей апостериорной плотностью. (См. подраздел 16.4.2.) На практике для этого вычисления необходимо знать (или 0 явно предполагать) распределение y|x , как, например, логнормальное. Обычно размытая оценка используется специально для того, чтобы избежать необходимости делать такое предположение. Также нужно помнить, что простой формулы для построения этого интервала не существует даже в случае логнормального распределения. Наилучшим способом, пожалуй, будет обычный поиск по сетке, поскольку при этом вычисления в каждой точке весьма просты. Главным в приведенном выше рассуждении является то, что наивную интервальную оценку можно значительно улучшить, даже просто используя интервал. Пример 4.10. Оценка цен на произведения искусства В примере 4.5 мы рассматривали интересную особенность рынка картин Моне: на аукционах большие картины обычно стоят дороже маленьких. В этом примере мы рассмотрим эту гипотезу с эмпирической точки зрения. Таблица F4.1 содержит данные о 430 результатах аукционных продаж картин Моне, включая данные о размерах картин и некоторых других переменных, которые мы рассмотрим в последующих примерах. Рисунок 4.7 показывает гистограмму цен продаж (в млн долл.). На рис. 4.8 представлена гистограмма логарифмов цен. 100 Глава 4. Оценки методом наименьших квадратов Рис. 4.7. Гистограмма цен продаж 430 картин Моне, млн долл. Рис. 4.8. Гистограмма логарифмов цен картин Моне Результаты линейной регрессии Price на Area (произведение ширины ln ln Aspect Ratio и высоты) и (высота, деленная на ширину) приведены в табл. 4.6. Мы будем применять регрессионную модель для предсказания цены одной из картин — изображения моста Чаринг Кросс 1903 г., которая была продана за 3 522 500 долл. Картина имеет размер 25,6 дюйма в 106 Глава 4. Оценки методом наименьших квадратов Пример 4.11. Мультиколлинеарность в данных Лонгли Данные табл. F4.2 были собраны в работе Лонгли (Longley (1967)) для оценки точности вычисления OLS-оценок компьютерными программами. (Эта база данных и сейчас для этого часто применяется.) Данные Лонгли известны исключительно высокой степенью мультиколлинеарности. Рассмотрим, например, данные за последний год. Последнее наблюдение не кажется сколько-нибудь выделяющимся. Однако результаты, представленные в табл. 4.7, демонстрируют сильнейший эффект, который исключение одного этого наблюдения оказывает на результат регрессии на константу и остальные переменные. Последний коэффициент увеличивается на 600%, а третий — на 800%. Таблица 4.7. Результаты Лонгли: зависимая переменная — занятость 1947–1961 Variance Inflation 1947–1962 Constant 1 459 415 1 169 087 Year −721,756 143,4638 −576,464 GNP deflator −181,123 75,6716 −19,7681 GNP 0,0910678 132,467 0,0643940 −0,0749370 −0,0101453 Armed Forces 1,55319 Предлагалось несколько различных стратегий для обнаружения муль14 и борьбы с нею . Считая, что мультиколлинеарность является следствием недостатка информации, можно было бы рекомендовать найти дополнительные данные. Однако здесь можно возразить, что если у исследователя был бы доступ к дополнительным данным, то их нужно было использовать до появления проблемы мультиколлинеарности. Тем не менее увеличение объема информации необязательно означает увеличение числа наблюдений. Очевидный практический способ (и наиболее часто используемый) — это отбросить переменные, которые, по всей видимости, вызывают эффект мультиколлинеарности, т. е. наложить на регрессию дополнительное (и, возможно, неверное) условие, что «проблемные» переменные отсутствуют в модели. Поступая таким образом, мы можем столкнуться с проблемами спецификации модели, которые рассмотрим в подразделе 4.7.2. Если отброшенная переменная на самом деле должна входить в модель (т. е. соответствующий коэффициент не равен 0), то оценки остальных коэффициентов окаβ смещенными, причем, возможно, достаточно сильно. С другой стороны, включение в модель чрезмерного числа переменных (overfitting) — т. е. попытка оценить слишком большую модель — является распространенной ошибкой, так что отбрасывание переменных из перегруженной модели может иметь некоторые преимущества. 14 Описание обычных способов обнаружения мультиколлинеарности можно найти в работе (Hill, Adkins (2001)). 4.7. Проблемы в данных 107 Методы обнаружения мультиколлинеарности можно рассматривать как способ различить «плохие данные» и «плохую модель». Однако на самом деле проблема возникает из-за несоответствия данных предварительно сформулированным ожиданиям. Если оказывается, что мультиколлинеарность отрицательно влияет на качество оценки, то предполагается, что в отсутствие этой проблемы все переменные будут значимы и будут иметь нужный знак. Конечно, так бывает не всегда. Если данные говорят, что переменная не важна в контексте данной модели, то при наличии сколь угодно убедительных теоретических построений рано или поздно нужно задуматься, насколько нам на самом деле важна эта теория. Предлагаемые методы «борьбы» с мультиколлинеарностью зачастую представляют собой способы притягивания теории к данным. 4.7.2. Предварительное оценивание Часто при столкновении с проблемой мультиколлинеарности трудно противостоять соблазну просто исключить неудобные переменные из регрессии. Эта «стратегия» ставит исследователя перед дилеммой. Рассмотрим модель регрессии y X X = β + β + ε. 1 1 2 2 Если взять регрессию y только на X , то получится смещенная оценка: 1 |X] P E[b = β + β . 1 1 1.2 2 Ковариационная матрица этой оценки равна 2 −1 |X] X Var[b = σ (X ) . 1 1 1 (Обратим внимание, что разброс здесь идет около среднего, равного E[b |X], 1 а не .) Если не равно 0, то дисперсия оценки b около его среднего β β β 1 2 1.2 1 в регрессии y на (X , X ) будет равна 1 2 2 −1 |X] M X Var[b = σ (X ) , 1.2 2 1 1 где −1 M I − X X X = (X ) , 2 2 2 2 2 или −1 −1 2 Var[b |X] = σ [X X − X X (X X ) X X ] . 1.2 1 2 2 1 1 1 2 2 Сравним эти две ковариационные матрицы. Проще сравнивать обратные матрицы. [См. результат (A-120).] Таким образом, −1 −1 −1 2 {Var[b |X]} − {Var[b |X]} X X X X = (1/σ )X (X ) , 1 1.2 2 2 1 1 2 2 что дает неотрицательно определенную матрицу. Следовательно, дисперсия b не выше дисперсии b (так как обратная величина не меньше соот1 обратной). Несмотря на то что оценка b смещена, ее диспер1 не превышает дисперсию несмещенной оценки. В реалистичной ситуации (когда X X не равно 0) ее дисперсия на самом деле будет строго мень2 В случае простой регрессии от двух переменных (представленных в отклонениях от своих средних) можно получить полезное соотношение. Имеn Var[b |X] , где S − и Var[b |X] = σ /S = (x x ¯ ) = σ /[S (1− 1 11 11 i1 1 1.2 11 i=1 2 2 r x x −r )], где — квадрат корреляции между и . 1 2 12 12 108 Глава 4. Оценки методом наименьших квадратов Результат предыдущего параграфа ставит исследователя перед проблемой, часто возникающей при поиске подходящей модели. Если исследователь сталкивается с переменной, которая, по всей видимости, должна участвовать в модели, но ее включение приводит к мультиколлинеарности, то можно либо отбросить ее, либо смириться с тем, что коэффициенты при этой и других переменных будут неточны. Возникает проблема выбора между оценками b и b . На практике исследователи обычно строят третью 1 1.2 оценку. Проблемная переменная включается условно: если при включении ее t-статистика оказывается достаточно велика, то она сохраняется; если нет — отбрасывается. Эта третья оценка обычно называется предварительной (pretest estimator). То, что известно об этих оценках, не внушает энтузиазма. Разумеется, они являются смещенными. Степень смещения зависит от неизвестных параметров. Аналитические результаты свидетельствуют о том, что такая оценка более смещена, чем обе исходные, как раз в тех случаях, когда наиболее велик соблазн ее использовать. [Judge et al. (1985).] Из всего этого можно сделать вывод, что корректная методология оценивания не должна включать стратегий, опирающихся на ad hoc-методы борьбы с мультиколлинеарностью. 4.7.3. Метод главных компонент Для борьбы с мультиколлинеарностью предлагалась [Gurmu, Rilstone, Stern (1999)] следующая конструкция: нужно оценивать регрессию на несколько (скажем L) главных компонент, представляющих собой линейные комбинации K исходных переменных [Johnson, Wichern (2005, Chapter 8).] (Этот метод иллюстрируется в примере 4.12.) Основное возражение против этого метода состоит в том, что если вместо верной регрессии y Xβ мы = + ε оцениваем регрессию y на небольшой набор линейных комбинаций столбцов X, то неясно, что именно мы оцениваем. Для набора L < K главных комE[d] если d — оценка коэффициентов регрессии y на Z = XC , то = L = δ = C β. (Доказательство предлагается читателю в качестве упражнения.) L Если в экономической задаче параметр имеет понятную интерпретацию, β то маловероятно, что имеет ясный экономический смысл. (Например, как δ интерпретировать эластичность по цене минус удвоенная эластичность по доходу?) Этот традиционный подход предостерегает исследователя от использования алгебраических методов, результаты которых приводят к неинтерпретирумым смесям коэффициентов. Однако иногда модель строится так, что смеси наблюдаемых переменных могут иметь ясный смысл. Например, исследователя может интересовать модель, в которой участвуют неясно определенные «способности». Вместо них у исследователя может иметься набор результатов, полученных при прохождении ряда тестов, ни один из которых не имеет собственной интерпретации в контексте рассматриваемой модели. В этом случае отсутствующую переменную «способности» можно заменить некоторой комбинацией имеющихся результатов тестов. Другой естественный случай применения этого подхода рассматривается в примере 4.12. 15 Тестирование мнения «а кто его знает» сейчас может быть проверено на открытой 4.7. Проблемы в данных 109 Пример 4.12. Предсказание успеха фильма Предсказание размера сборов кинофильмов — любимое упражнение эконометристов. [Litman (1983), Ravid (1999), De Vany (2003), De Vany, Walls (1999, 2002, 2003) и Simonoff, Sparrow (2000).] Обычно для предсказания используется уравнение вида Box Office Receipts f(Budget, Genre, MPAA Rating, Star Power, Sequel, = etc.)+ε. Коэффициент детерминации таких уравнений часто достигает 0,4 и более. Однако, несмотря на такую объяснительную силу, обычное мнение в Голливуде — «а кто его знает». Успех фильма часто случаен, и немногие 15 берутся предсказывать его с какой-либо уверенностью . В работе Версачи (Versaci (2009)) в традиционную модель была добавлена новая переменная «шум в интернете». Шум в Интернете здесь определяется как имеющий отношение к фильму трафик и общая заинтересованность на популярных сайтах, таких как RottenTomatoes.com, ImDB.com, Fandango.com и traileraddict.com. Каждый из них, измеренный по отдельности, не определяет меру шума в интернете. Но в совокупности данные об активности на этих веб-сайтах (скажем, за три недели до выхода фильма в прокат) могут быть важным признаком будущего успеха. Данные работы Версачи (Versaci (2009)) (табл. F4.3) содержат информацию о 62 фильмах, вышедших на экраны в 2009 г., включая переменные, описывающие 4 меры шума в интернете, измеренные за три недели до выхода фильма в прокат: buzz число просмотров трейлера фильма на traileraddict.com; = 1 buzz число комментариев о фильме на ComingSoon.net; = 2 buzz = сумма числа голосов «can’t wait» и «don’t care» на Fandango.com; 3 buzz процент голосов «can’t wait» на Fandango. = 4 Мы собрали из этих данных одну главную компоненту следующим образом: сначала вычисляются логарифмы buzz – buzz , чтобы убрать 1 3 z эффекты масштаба. Затем переменные нормируются так, чтобы равk первоначальной переменной минус ее среднее z ¯ , деленной на k стандартное отклонение s . Пусть Z — полученная матрица размером k × из Тогда V Z — выборочная матрица 62 4 (z , z , z , z ). = (1/61)Z 1 2 3 4 корреляций. Пусть c — собственный вектор V, соответствующий наиболь1 собственному значению. Первая главная компонента (описывающая наибольшую долю вариации четырех переменных) равна Zc . (Корни 1 равны 2,4142, 0,7742, 0,4522, 0,3585, так что первая главная компонента описывает 2,4142/4, или 60,3% разброса. В табл. 4.8 представлены результаты оценивания регрессии на выборке из 62 фильмов 2009 г. Оказывается, что переменная «шум в интернете» существенно увеличивает 2 предсказательную силу модели. При добавлении этой переменной R недавно (в апреле 2010) интернет-площадке биржевого типа, где торгуются фьючерсы на будущий успех фильмов (а продюсеры могут захеджировать свои ставки). См. обсуждение на http://www.cantorexchange.com/. Эта торговая площадка была создана компанией Cantor Fitzgerald, Inc. после покупки популярного развивающего интернет-сайта Hollywood Stock Exchange. 110 Глава 4. Оценки методом наименьших квадратов регрессии почти удваивается, с 0,34 до 0,58. Как мы увидим в главе 5, «шум» является еще и очень значимым предиктором успеха. Таблица 4.8. Результаты регрессии для успеха фильма Модель с шумом в Интернете Традиционная модель 22,30215 35,66514 e e 2 0,58883 0,34247 R Переменная Коэффи- Станд. Коэффи- Станд. t t циент ошибка циент ошибка Постоянная 15,4002 0,64273 23,96 13,5768 0,68825 19,73 ACTION –0,86932 0,29333 –2,96 –0,30682 0,34401 –0,89 COMEDY –0,01622 0,25608 –0,06 –0,03845 0,32061 –0,12 HORROR 0,37460 0,37109 1,01 1,02644 0,44008 2,33 G 0,38440 0,55315 0,69 0,25242 0,69196 0,36 PG 0,53359 0,29976 1,78 0,32970 0,37243 0,89 PG13 0,21505 0,21885 0,98 0,07176 0,27206 0,26 LOGBUDGT 0,26088 0,18529 1,41 0,70914 0,20812 3,41 SEQUEL 0,27505 0,27313 1,01 0,64368 0,33143 1,94 STARPOWR 0,00433 0,01285 0,34 0,00648 0,01608 0,40 BUZZ 0,42906 0,07839 5,47 4.7.4. Пропущенные значения и пополнение данных Вследствие различных причин в реальных наборах данных зачастую встречаются пропуски. Чаще всего такое случается с данными опросов населения, где респонденты могут отвечать не на все вопросы. Во временных рядах данные могут быть пропущены из-за того, что их нельзя получать с нужной частотой: например, модель может описывать месячные события, а некоторые переменные могут быть измерены только ежеквартально. В панельных данных пропуски могут возникать из-за истощения выборки, т.е. отсева участников исследования. Особенно часто это наблюдается в медицинских исследованиях, где индивиды могут прекращать свое участие в исследовании, возможно, вследствие успеха или неуспеха изучаемого метода лечения. В зависимости от того, по каким причинам данные оказались пропущены, подходы к проблеме могут различаться. Данные могут быть недоступны по неизвестным исследователю причинам, не связанным с полнотой других наблюдений или значениями переменных в выборке. Это наименее неблагоприятная ситуация. Если дело обстоит так, то полные наблюдения дают выборку, которой можно пользоваться, а единственный вопрос состоит в том, нельзя ли сохранить какую-то информацию из неполных наблюдений. Согласно работе Грилихеса (Griliches (1986)) это называют пренебрежимым случаем (ignorable case), поскольку, если нас мало заботит эффективность получаемой оценки, мы можем просто пренебречь неполными наблюдениями и закрыть глаза на имеющуюся проблему. В работах Рубина (Rubin (1976, 1987)) и Литтла и Рубина (Little, Rubin (1987, 2002)) этот случай назван пол- 4.7. Проблемы в данных 111 ностью случайными пропусками (missing completely at random, MCAR). Второй случай, широко изучаемый в эконометрической литературе, заключается в том, что пропуски в данных не случайны, а систематически связаны с изучаемым явлением. Это чаще всего происходит в данных опросов, особенно когда данные, входящие в выборку, выбирали или определяли 16 респонденты . Например, если опрос нужен для исследования характера трат, а люди с высоким доходом пытаются скрыть свой уровень достатка, то пропущенные данные будут означать нечто большее, чем просто недостаток информации. Другим примером могут быть данные клинических испытаний. В этих (наихудших) случаях подвыборка, состоящая только из полных наблюдений, будет качественно отличаться от случайной выборки, взятой из генеральной совокупности. В этом случае пропущенные данные называют пропущенными не случайно (not missing at random, NMAR). Мы будем рассматривать этот случай в главе 19 в контексте отбора наблюдений (sample selection), а пока отложим эту тему. Промежуточный случай заключается в том, что полные наблюдения содержат информацию, касающуюся пропущенных данных, с помощью которых инференция может быть улучшена. В этой ситуации случайных пропусков (missing at random, MAR) неполные наблюдения снова можно проигнорировать, поскольку, в отличие от случая NMAR, использование подвыборки, состоящей исключительно из полных наблюдений, не приведет к смещению, если процесс, порождающий пропуски, не связан с оцениваемой моделью [Allison (2002).] Это, конечно, маловероятно, если пропуски наблюдаются в значениях зависимой переменной в регрессии. Игнорируя неполные наблюдения в ситуации MAR, в отличие от MCAR мы теряем информацию, а значит, жертвуем эффективностью оценки. Исследователи используют для заполнения пропусков различные методы пополнения данных (data inputation). Самый простой вариант в данной ситуации — это когда пропуски встречаются в регрессорах. В этом случае полезно рассмотреть отдельно простую и множественную регрессии. В первом случае X содержит два столбца: столбец единиц (для свободного члена) и столбец, содержащий пропуски на месте отсутствующих данных. Метод нулевого порядка (zerox method) заменяет пропущенные на x ¯ , вычисленные по имеющимся данным, не меняет оценки и эквивалентен оценке, построенной только по полным наблюдениям. (См. упражнение 7 к главе 3.) При этом, однако, 2 R несколько уменьшается. Альтернативным подходом является модифи(modified zero-ordered method), коцированный метод нулевого порядка торый состоит в заполнении пропусков нулями и добавлении переменной, принимающей значение 1 для пропущенных наблюдений и 0 в остальных 17 случаях . Мы оставляем в качестве упражнения доказательство того факта, что этот метод алгебраически эквивалентен замене пропущенных наблюx на x ¯ . Также можно попробовать подбирать вместо пропущенных 16 Широкие опросы мнений американцев по вопросам пола, собранные в работах Ann Landers (1984, passim) и Shere Hite (1987), — широко известный пример исследований, безусловно испорченных вследствие смещений, вызванных самоотбором. Последнее исследование подверглось резкой критике за то, что в нем пытались выдать за мнение населения в целом мнение группы людей, готовых отвечать на задававшиеся вопросы. Выводы первого исследования были более аккуратными. 17 Maddala (1977a, p. 202). 112 Глава 4. Оценки методом наименьших квадратов данных, построив регрессию x на y по полным данным. Свойства такой оценки изучены мало, но имеющиеся данные говорят не 18 в ее пользу . Те же методы можно использовать и в случае множественной регрессии. Снова возникает соблазн заменить пропущенные значения x простыми k средними, построенными по полным наблюдениям, или предсказаниями, построенными с помощью регрессий x на другие переменные модели. k В большинстве случаев эти методы можно описывать в следующим образом: в местах пропусков «истинное» значение x заменяется неточным приблиik которое можно записать в виде x ˆ = x +u , т. е. в терминах ошиik ik бок измерения (measurement error). Вообще говоря, оценки метода наименьших квадратов при наличии ошибок измерения смещены и несостоятельны (этот вопрос будет исследоваться в главе 8.) Остается вопрос: будет ли это смещение мало? Интуиция подсказывает, что размер смещения будет определяться двумя свойствами имеющихся данных: (a) насколько хороши наши приближения к x , т. е. насколько велика дисперсия ошибки измереik u по сравнению с дисперсией истинных данных x , и (b) насколько ik ik большая часть данных нуждается в пополнении. Метод регрессий заменяет пропущенные значения x предсказанием, поk из регрессии x на другие экзогенные переменные, т. е. заменяет k пропущенные x приближениями, основанными на регрессионной модели. ik В байесовской постановке в приложениях, требующих применения ненаблюдаемых переменных (как, например, в нашем примере для модели бинарного выбора в главе 17), применяется техника расширения данных (data augmentation), когда ненаблюдаемые данные считают «параметрами» модели, оцениваемыми вместе со структурными параметрами, такими как β в регрессионной модели. Основываясь на этом подходе, исследователи (Rubin (1987) и Allison (2002)) предлагают использовать нечто похожее в классической постановке оценивания. В этой технике используется пополнение данных, похожее на предлагавшееся выше, но расширенное так, чтобы учесть возможную изменчивость при оценивании регрессии, использованной для подстановки пропущенных значений. Для иллюстрации этого рассмотрим случай, когда независимая переменная x является нормальной, т. е. выбиk из непрерывного распределения, имеющего среднее, дисперсию и определенные совместные распределения с другими переменными модели. Пополнение будет включать следующие формальные шаги: 1. Используя максимально возможный объем содержащейся в выборке информации (полные данные), оцениваем линейную регрессию x на друk переменные модели (а также, возможно, вне модели, если такая информация доступна), Z , и получаем вектор коэффициентов d , асимпk ковариационную матрицу A и оценку дисперсии шоков s . k k 2. Для пополнения возьмем значение из оцененного выше асимптотического нормального распределения d , т. е. d d , где v — вектор, = +v k k,m k k k выбранный из многомерного нормального распределения со средним 0 и ковариационной матрицей A . k 18 Afifi, Elashoff (1966, 1967) и Haitovsky (l968). В работе Griliches (1986) рассматриваются некоторые другие возможности. 4.7. Проблемы в данных 113 3. Для каждого пропущенного значения x , которое мы хотим заполнить, k вычисляем x d z u , где s — s , деленное на случайное = +s i,k,m i,k k,m i,k k,m k k,m 2 значение, полученное из выборки распределения с числом степеней χ свободы, равным числу степеней свободы использованной для пополнения регрессии. После этих шагов мы имеем результат, похожий на описанный выше, когда пропущенные значения оценивались с помощью регрессии. Приведенная здесь процедура, однако, несколько сложнее. После этого нужно построить оценку коэффициентов регрессии, пользуясь как полными данными, так и пополненными наблюдениями. Отсюда получается вектор коэффициентов b и оценка ковариационной матрицы V . Это одна итерация процедуры m m пополнения. Техника множественного пополнения (multiple inputation) состоит в повторении этой последовательности шагов M раз. Оценки параметров и соответствующей асимптотической ковариационной матрицы равны 1 M ˆ ¯ β = b = b , m M m=1 1 1 1 M M ¯ ¯ ˆ ¯ − − V = V + B = V + 1 + b b b b . m m m − M M M 1 m=1 m=1 Мнения исследователей относительно эффективности и применимости множественного пополнения расходятся. Эта процедура не устраняет ошибки измерения в пополненных значениях. Для того чтобы вывести, что множественное повторение итераций метода приведет к усреднению и исчезновению этой ошибки, нужно принять очень сильные допущения. Были изучены различные техники для работы с данными в случае, когда межобъектные данные являются совместно нормально распределенными переменными, как в рассмотренном нами выше случае. Однако обычно нужно работать с данными опросов населения, где пропуски встречаются в ответах на качественные вопросы типа «да/нет». Эффективность применения теории к бинарным, порядковым и прочим переменным, имеющим качественный смысл, изучена мало. Несколько проще работать в случае наличия пропусков значений зависимой переменной y . Снова нужно, чтобы y была по крайней мере MAR, а i i механизм, порождающий пропуски, не был связан с параметрами модели. Если данные о x полны для всех наблюдений, то можно было бы применить i следующую двухшаговую процедуру: (1) построить оценку b для параметра c используя только полные наблюдения, X и y , а затем (2) заполнить проβ, c пуски в y предсказаниями и заново оценить регрессию. Мы y ˆ = X b m m m c оставляем в качестве упражнения для читателя (упражнение 17 к этой главе) доказательство того, что полученная оценка будет совпадать с b . Однако c 2 получаемая на втором шаге оценка дисперсии s будет занижать истинное 2 значение (интуитивно это ясно: мы добавляем наблюдения, идеально соσ оценке) [Plameron, Trivedi (2005, Chapter 27).] Таким образом, этот метод не является особенно полезным. Недостаток этого метода заключается в использованном механизме пополнения пропущенных значений y . В последнее время предлагаются различные методы, улучшающие i эту процедуру, как правило, путем использования рандомизованной версии 114 Глава 4. Оценки методом наименьших квадратов ˆ ˆ где ˆ случайно выбираются из нормального распредеy = X b + ε , ε m m c m m −1 2 ления с нулевым средним и оцененной дисперсией s X X [I + (X X ) ]. m c c m (Оценка ковариационной матрицы соответствует P b .) Это определя+ ε m c m ет одну итерацию. Снова оценив β с помощью пополненных данных, можно ˆ повторно пополнить данные, уже пользуясь новым потом опять оценить β, b и т. д. Процесс можно повторять до тех пор, пока оценка коэффициентов не прекратит изменяться. (Здесь нужно сделать важное замечание. В каждой итерации следует использовать одни и те же значения случайной переменной. В противном случае нет гарантии, что итерационный процесс сойдется.) Вообще говоря, о свойствах оценок, основанных на использовании предy, для заполнения пропусков в значениях известно немного. Имеющиеся результаты получены в основном из моделирования с использованием конкретного набора данных или механизма, порождающего пропуски. Результаты этих симуляций метода Монте-Карло обычно сложно обобщить. В целом, по всей видимости, можно заключить, что при исследовании регрессий с единственным уравнением пополнение y ведет к смещению в оценках, которое сложно определить. Единственный ясный результат состоит в том, что пополнения чаще оказываются полезны, если доля пропусков в наборе данных мала, причем чем меньше, тем лучше. 4.7.5. Ошибки измерения В целом ряде случаев наблюдаемые данные представляют собой не точные значения, используемые в теоретической модели, а результаты их измерения с некоторой погрешностью. Примерами могут служить доход, уровень образования, навыки, здоровье, процентные ставки, производство, капитал и т. п. Ошибки при измерении переменных модели обычно приводят к негативным последствиям для оценок метода наименьших квадратов. Методы решения этой проблемы сложны и часто требуют чрезмерно сильных допущений. В этом разделе мы кратко опишем суть проблемы. Более полное обсуждение проблемы ошибки измерения и обсуждение наиболее часто используемого решения (инструментальных переменных), а также некоторых приложений мы отложим до раздела 8.5. Удобно будет разделить обсуждение ошибок измерения в зависимой переменной и в регрессорах. В последнем случае также удобно сначала рассмотреть случай модели с одним регрессором, а затем расширить его до случая множественной регрессии. Рассмотрим модель, описывающую ожидаемый уровень дохода населения: ∗ x (4-55) I = β + ε, где I* — полный ожидаемый доход. Предположим, что вместо этого измерен уровень заработанного дохода I. Неясно, как I связана с I*. Обычно предполагают, что ошибка измерения аддитивна, т. е. I I* + w. Подставляя это = I равенство вместо в (4-55), получаем x I = β + ε + w = x β + v, (4-56) 4.7. Проблемы в данных 115 что, кажется, несколько сложнее исходной регрессии, хотя и очень на нее похоже. Если w и x некоррелированы, то это действительно так. Если w — гомоскедастичная ошибка с нулевым средним, не коррелированная с x, то вся разница между моделями (4-55) и (4-56) состоит в том, что дисперсия 2 2 2 шоков в (4-56) равна > . В остальном это две регрессии, и в обоих σ + σ σ w ε ε случаях может быть состоятельно оценена с помощью метода наименьβ квадратов. Ошибка измерения проявляет себя через уменьшение точности оценки, поскольку асимптотическая дисперсия оценки из (4-56) рав2 (σ /n)[plim(X X/n)] в отличие от /n)[plim(X X/n)] в случае, если (σ β v ε оценивается с помощью (4-55). Также ошибка измерения приводит к ухуд2 качества приближения регрессии. Обратите внимание, что R в регрессии (4-55) равен ∗ 0 ∗ 2 − e/n)/(I M I R = 1 (e /n). ∗ 2 Числитель сходится к σ , в то время как знаменатель сходится к полной дисε I*, которая может достигать + Qβ, где Q plim(X X/n). Таким σ β = ε образом, 2 2 plimR = β Qβ/[σ + β Qβ]. ∗ ε 2 2 R Аналогичный показатель для (4-56), , отличается только тем, что σ в знаε 2 менателе заменяется на > . Следовательно, σ σ v ε 2 2 − plimR plimR > 0. ∗ Таким образом, качество приближения, полученного оценкой регрессии (4-56), будет или, по крайней мере, ожидается хуже, чем качество приближения, полученного оценкой регрессии (4-55). (Вывод выше касался асимптотического приближении, так что это неравенство может не выполняться в конкретной конечной выборке.) Мы показали, какие последствия будет иметь ошибка при измерении зависимой переменной. Заметим, что если ошибка неаддитивна, если она коррелирована с x или обладает другими «плохими» свойствами вроде гетероскедастичности, то эти результаты не будут верными, а о последствиях ошибки измерения в этих случаях ничего сказать с уверенностью нельзя. Существует ли здесь «решение», также неясно. Рассуждения, приведенные выше, показывают, что предпочтительнее было бы иметь точные значения зависимой переменной. При их отсутствии не лучше ли использовать какую- нибудь проксипеременную? К сожалению, I и так является прокси, поэтому, если нет доступной I с меньшей дисперсией ошибки измерения, ничего нельзя поделать. С другой стороны, кажется, что вывод довольно безобиден. Выборка содержит меньше информации, чем нам хотелось бы, но имеющейся информации достаточно для построения состоятельной оценки и β для построения соответствующих статистических выводов на этой информации. когда с ошибкой измерены независимые переменные, значительно сложнее. Для простоты мы сохраним обозначения I и I* для наблюдаемой и теоретической переменных соответственно. Возьмем простую парную регрессию = β + β I + ε, 1 2 4.7. Проблемы в данных 117 Рис. 4.9. Диаграмма рассеяния логарифмов цены и площади картин Моне Точка, обозначенная «O» и обведенная в кружок, соответствует неожиданно дешевой (сравнительно с предсказанием регрессии) картине. (Это не самая дешевая картина в выборке, а та, предсказание регрессии для которой оказалось наиболее ошибочным.) Поскольку метод наименьших квадратов основан на квадратах отклонений, оценка, скорее всего, сильно зависит от экстремальных значений вроде этих, особенно если выборка невелика. «Влиятельное наблюдение» — это такое, которое может иметь значительное влияние на оценки коэффициентов регрессии, полученные при помощи метода наименьших квадратов. Для простой регрессии, показанной на рис. 4.9, в работе Belsley, Kuh и Welsh (1980) была определена мера влиятельности i: наблюдения 2 − 1 (x x ¯ ) i n h = + , (4-58) i n − 2 n Σ (x x ¯ ) j n j=1 i. где x ¯ и сумма в знаменателе дроби вычисляются без наблюдения (Эта n мера основывается на разности b и b , где последнее вычисляется без на(i) i. Мы скоро к этому вернемся.) Предлагается считать наблюдение влиятельным, если h > 2/n. Нужно принять решение: отбрасывать это наi или нет. Нужно отметить, что наблюдения с большим «рычагом» необязательно являются «выбросами» (которые мы определим ниже), по- скольку анализ проводится условно по x . Чтобы это проиллюстрировать, i наблюдение «I» на рисунке было бы помечено, даже если бы лежало в точности на линии регрессии — здесь источник влиятельности лежит в числителе второго члена h , который не связан с расстоянием до прямой. В нашем i примере «влиятельное наблюдение» — результат того, что Моне решил написать маленькую картину. Суть здесь в том, что у нас отсутствует теория, x объясняющая экстремальные значения . Устранение таких наблюдений — i 118 Глава 4. Оценки методом наименьших квадратов это чисто алгебраическое действие, которое приведет к тому, что линия регрессии будет строиться по значениям x , наиболее близким к средним. i Изменение вектора коэффициентов множественной линейной регрессии при добавлении к выборке наблюдения равно 1 −1 − − , (4-59) b b = ∆b = X X x y x b i i (i) (i) (i) −1 (i) i 1 + x X X x i (i) i (i) где оценка b построена с учетом наблюдения i, а оценка b — без наблюде(i) i и X не включает наблюдение i. (См. упражнение 5 к главе 3.) Трудно (i) выделить характеристики наблюдения, которые сильно влияли бы на это изменение. Мера влиятельности −1 h = x X X x ii i (i) i (i) K−1 K−1 1 jk 0 − − (4-60) = + x x ¯ x x ¯ Z M Z n,j k (i) i,j i,k (i) n j=1 k=1 обычно используется для определения влиятельных наблюдений [Belsley, Kuh, Welsh (1980) и Cook (1977).] В данном случае критерием было бы h ii > 2(K−1)/n. Квадраты отклонений элементов x от средних значений переi входят в h , так что эта мера снова опирается на удаленность наii от средних значений. (Для примера см. выражение для дисперсии прогноза в подразделе 4.6.1.) Вообще говоря, «выброс» — это наблюдение, которое кажется не подчиняющимся правилам, определяемым моделью. Так, возможно, оно возникает из другого процесса порождения данных. Точка «O» на рис. 4.9 кажется именно такой. Выбросы возникают по разным причинам. Самое простое объяснение — это ошибки в данных. Если предположить, что данные верны, то нужно как-то определить, какое наблюдение является выбросом. Необычно большие остатки являются очевидным кандидатом для подобного выбора. Но поскольку распределение шоков предполагает наличие некоторого количества значительных отклонений, просто убирать неудобные наблюдения будет явной ошибкой. С другой стороны, можно подозревать, что такие наблюдения выбраны из другого распределения. «Стандартизированные» (studentized) остатки строятся с учетом этого факта: оцениваются значения коэффициентов и дисперсия остатков без учета наблюдения i для каждого наблюдения в выборке, а затем модифицированные остатки стандартизируются. i-й стандартизированный остаток равен 2 e e e − e /(1 − h ) i ii i (4-61) e(i) = , − − n 1 K − (1 h ) ii где e — вектор остатков для полной выборки, построенный по b, включающий остаток e для наблюдения i. Вообще говоря, этот остаток имеет ti с − − степенями свободы (или асимптотически станn 1 K дартное нормальное распределение). Наблюдения с большими стандартизированными остатками, скажем, большими 2,0, можно считать выбросами. 4.8. Заключение и выводы Interval estimation — Интервальное оценивание Least squares attenuation — Недооценка метода наименьших квадратов Lindeberg–Feller Central Limit Theorem — Центральная предельная теорема Линдеберга–Феллера Linear estimator — Линейная оценка Linear unbiased estimator — Линейная несмещенная оценка Maximum likelihood estimator — Оценка методом максимального правдоподобия absolute error — Средняя абсолютная ошибка Mean square convergence — Сходимость в среднеквадратичном Mean squared error — Средний квадрат ошибки Measurement error — Ошибка измерения of moments — Метод моментов Minimum mean squared error — Минимальная среднеквадратичная ошибка Minimum variance linear unbiased estimator — Линейная несмещенная оценка с наименьшей дисперсией Missing at random — Случайные пропуски completely at random — Полностью случайные пропуски Missing observations — Пропущенные наблюдения Modified zero-order regression — Модифицированный метод нулевого порядка Monte Carlo study — Исследования методом Монте-Карло Multicollinearity — Мультиколлинеарность missing at random — Неслучайные пропуски Oaxaca’s and Blinder’s decomposition — Разложение Охака и Блаиндера Omission of relevant variables — Пропуск существенных (значимых) переменных linear predictor — Оптимальный линейный предиктор Orthogonal random variables — Ортогональные случайные величины Panel data — Панельные данные Pivotal statistic — Базисная статистика Point estimation — Точечная оценка Prediction error — Ошибка предсказания interval — Доверительный интервал для предсказания Prediction variance — Дисперсия предсказания estimator — Предварительная оценка Principal components — Главные компоненты limit — Предел по вероятности mean squared error — Квадратный корень из среднеквадратичной ошибки Sample selection — Выборочная селективность distribution — Выборочное распределение Sampling variance — Выборочная дисперсия — Полупараметрический estimator — Размытая оценка Specification errors — Ошибки спецификации error — Стандартная ошибка Standard error of the regression — Стандартная ошибка регрессии Stationary process — Стационарный процесс Statistical properties — Статистические свойства — Стохастические Stochastic regressors (случайные) регрессоры Theil statistic — Статистика Тейла ratio — t t-статистика Variance inflation factor — Множитель наполнения дисперсии Zero-order method — Метод нулевого порядка ˆ ˆ 1. Пусть есть две независимые несмещенные оценки параметра и , с θ, θ θ 1 2 различными дисперсиями, v и v . Какая из линейных комбинаций вида 1 2 122 Глава 4. Оценки методом наименьших квадратов ˆ ˆ ˆ будет несмещенной оценкой с наименьшей дисперсией θ = c θ + c θ 1 1 2 2 для θ? 2 2. Рассмотрим парную регрессию , с | и | y = βx + ε E [ε x] = 0 E [ε x] = i i i 2 . = σ a. Найдите линейную оценку с минимальным среднеквадратичным β ˆ отклонением. [Подсказка. Пусть оценка имеет вид Выбери- ( β = c y). ˆ ˆ 2 те c, минимизирующее − Ответ является функциVar( β) + (E( β β)) . ей неизвестных параметров.] b. Для оценки из пункта a) покажите, что отношение среднеквадратичˆ ошибки к среднеквадратичной ошибке оценки методом наиβ квадратов b равно ˆ 2 2 MSE [ β] τ β 2 где = , τ = . 2 2 MSE [b] (1 + τ ) [σ /x x] Заметим, что τ — теоретический аналог для t-статистики, проверяющей гипотезу о том, что β = 0, приведенной в (5-11). Как можно интерпретировать поведение этого отношения при → ∞? τ 3. Предположим, что классическая модель регрессии применима, но истинное значение константы равно 0. Сравните дисперсию оценки методом наименьших квадратов коэффициентов наклона, построенных по уравнению без постоянного члена, с соответствующей дисперсией оценки, построенной по уравнению с (излишним) постоянным членом. 4. Рассмотрим уравнение регрессии где шоки имеют y = α + βx + ε , ε i i i i плотность f (ε ) = (1/λ) exp(−ε /λ), ε ≥ 0. Эта модель несколько необычi поскольку все шоки в этой модели неотрицательны. Заметим, что 2 | а | . Покажите, что оценка OLS коэффициента E [ε x ] = λ, Var[ε x ] = λ i i i i наклона является несмещенной, а оценка свободного члена смещена. 5. Докажите, что оценка OLS для свободного члена в классической модели регрессии является линейной несмещенной оценкой с наименьшей дисперсией. Как монополист, максимизирующий прибыль, вы наблюдаете функцию спроса Q = α + βP + ε. В прошлом вы устанавливали следующие цены и продавали следующие соответствующие количества товара: Q 3 3 7 6 10 15 16 13 9 15 9 15 12 18 21 P 18 16 17 12 15 15 4 13 11 6 8 10 7 7 7 Пусть ваши предельные издержки равны 10. Постройте с помощью метода наименьших квадратов 95%-й доверительный интервал для ожидаемого значения выпуска, максимизирующего прибыль. 7. Следующие выборочные моменты были вычислены на x = [1, x , x , x ] 1 2 3 основе 100 наблюдений, полученных с помощью генератора случайных чисел:     100 123 96 109 460 123 252 125 189 810     ∗Xy ∗y X X = , = , y = 3924.     96 125 167 146 615     109 189 146 168 712 4.8. Заключение и выводы 123 Истинная модель, описывающая эти данные, имеет вид y = x +x +x +ε. 1 2 3 a. Вычислите коэффициенты корреляции между регрессорами. b. Вычислите МНК-оценки коэффициентов в регрессии y на константу , и . x x x 1 2 3 c. Вычислите МНК-оценки коэффициентов в регрессиях на константу y x и x и на константу x и x . 1 2 2 3 d. Вычислите множитель наполнения дисперсии (VIF) для каждого регрессора. Регрессоры очевидно коллинеарны. Из-за какой переменной возникает проблема? 8. Рассмотрим множественную регрессию y на переменных X и дополниK переменную z. Докажите, что при выполнении условий A1–A6 классической модели регрессии истинное значение дисперсии OLS оценки коэффициентов при X больше, когда z включена в оцениваемое уравнение регрессии, чем при ее отсутствии. Будет ли то же самое верно для выборочной оценки ковариационной матрицы? Почему? Предполагайте, что X и z являются нестохастическими и коэффициент при z не равен 0. 9. В классической нормальной модели регрессии без константы y = Xβ + ε и с регрессорами, предполагая, что истинное значение коэффициента K β равно нулю, вычислите точное ожидаемое значение величины F [K, n− 2 2 −K] − − = (R /K)/[(1 R )/(n K)]. K 2 10. Докажите, что где b — OLS-оценка, E [b b] = β β + σ (1/λ ), k k=1 а — собственное значение матрицы λ X X. k 11. Для классической нормальной регрессии y = Xβ + ε без константы и с 2 R /K K регрессорами, чему равно − , если plim F [K, n K] = plim 2 (1−R )/(n−K) истинное значение равно 0? β 12. Пусть e — i-й остаток метода наименьших квадратов в регрессии y на i X в классической модели регрессии и пусть — соответствующий шок. ε i Докажите, что − plim(e ε ) = 0. i i 2 13. В простой модели регрессии y = µ + ε , ε ∼ N [0, σ ] докажите, что i i i выборочное среднее состоятельно и асимптотически нормально распределено. Теперь рассмотрите альтернативную оценку i i µ ˆ = w y , w = = . i i i i (n(n+1)/2) i i Заметьте, что w = 1. Докажите, что это состоятельная оценка µ, и выi ее асимптотическую дисперсию. [Подсказка: i = n(n + 1)(2n+ i +1)/6.] 14. Возьмем выборку из наблюдений, из которых полных, а неполn в которых пропущено значение зависимой переменной y . Данные i о значениях регрессоров полны для всех наблюдений, и . Мы x n X X i c m хотим с помощью этих данных оценить параметры линейной регрессии Рассмотрим следующую стратегию пополнения. Шаг 1: оцеy = Xβ + ε. ним линейную регрессию y на X и вычислим b . Шаг 2: с помощью X c c c m 124 Глава 4. Оценки методом наименьших квадратов построим предсказания значений по , затем оценим регрессию y X b m m c полной выборки наблюдений (y ) на полную выборку регрессоров , X b c m c (X ). , X c m a. Покажите, что оценки векторов коэффициентов, полученные на первом и на втором шаге, совпадают. b. Является ли оценка коэффициентов, полученная на втором шаге, несмещенной? Покажите, что сумма квадратов остатков одинакова для обеих оценок. Покажите, что оценка , полученная на втором шаге, смещена вниз. σ 15. В (4-13) мы видели, что если лишние переменные X добавляются к ре2 y на X , то OLS-оценка вектора коэффициентов является несме1 оценкой истинного вектора параметров , 0 . Покажите, β = (β ) 1 − − что в этой длинной регрессии e e/(n K K ) также является несме1 оценкой . σ 16. В подразделе 4.7.3 мы рассматривали регрессию y на набор главных компонент, а не на исходные данные. Для простоты допустим, что X не соK постоянного члена и что переменных измерены в своих отклонениях от среднего и стандартизированы путем деления на соответствующие стандартные отклонения. Рассмотрим регрессию y на L главных компонент, XC , где L K. Пусть d обозначает вектор коэффициенZ = < L тов. Уравнение регрессии имеет вид y = Xβ + ε. Выше утверждалось, что E[d] = C β. Докажите это утверждение. L 17. В примере 4.10 была рассмотрена регрессионная модель, по которой можно предсказать цены на картины Моне. Самая дорогая картина была продана за $33,0135M (log = 17, 3124). Высота и ширина этой картины равнялись 35 и 39,4 дюйма соответственно. Постройте с помощью этих данных и модели доверительные интервалы для предсказаний логарифма цены и самой цены этой картины. Эмпирические приложения 1. В табл. F2.2 приведены данные по потреблению бензина в США с 1953 по 2004 г. Заметим, что потребление здесь измерено как величина суммарных расходов на бензин. Чтобы получить величину потребления на душу населения, поделите показатель GASEXP на величину GASP, умноженную на Pop. Другие переменные не нуждаются в преобразовании. a. Оцените множественную регрессию душевого потребления бензина на доход на душу населения, цену бензина, другие цены и временной тренд. Приведите все полученные результаты. Соответствуют ли знаки полученных коэффициентов вашим ожиданиям? b. Проверьте гипотезу о том, что с точки зрения спроса на бензин для потребителей не имеет значения, изменяются цены на новые или подержанные автомобили. c. Оцените эластичность спроса на бензин по цене бензина, эластичность по доходу и перекрестную эластичность по цене общественного транспорта. Вычислите их в точке, соответствующей 2004 г. ГЛАВА 5 Тестирование гипотез и выбор спецификации 5.1. Введение Модель линейной регрессии используется для трех важных целей: оценивания и предсказания, которые освещались в предыдущей главе, и тестирования гипотез. В этой главе будут рассмотрены некоторые приложения тестирования гипотез с использованием линейной регрессионной модели. Мы начнем с методологической и статистической теории. Часть этой теории была представлена в главе 4 (включая идею основной (базисной) статистики в подразделе 4.5.1) и в приложении C.7. В разделе 5.2 мы обобщим методологию на случай тестирования на основе регрессионной модели. После изложения теории в разделах 5.3–5.7 будут рассмотрены некоторые приложения регрессионного анализа. Это обобщение будет касаться ограничений, накладываемых на параметры модели, таких как «релевантность» переменной (т.е. наличие при ней ненулевого коэффициента) или адекватность модели данным (т.е. соответствуют ли данные гипотезе о том, что все коэффициенты равны нулю). Основной интерес в обсуждении будут представлять линейные ограничения. Мы обратимся к нелинейным ограничениям в конце изложения, в разделе 5.7. В разделе 5.8 рассматривается более широкий класс гипотез, включающий такие, как выбор из двух моделей, например, между линейной и логлинейной. В каждом из приведенных случаев процедура тестирования разрешала сопоставление двух теорий происхождения данных; в разделах 5.2–5.7 — узкой и широкой моделей, а в разделе 5.8 примерно одинаковых моделей. В разделе 5.9 иллюстрируется конкретный тест спецификации, который в сущности представляет тест такого утверждения, как «модель корректна», против утверждения «модель неадекватна». Этот тест позволяет сравнить теорию, лежащую в основе модели, с «некоторой другой, неназванной теорией». Наконец, в разделе 5.10 представлены некоторые общие принципы и элементы стратегии тестирования модели и выбора спецификации. 5.2. Методология тестирования гипотез Мы начинаем анализ с регрессионной модели как утверждения о том, что y Xβ (5-1) = + ε. В качестве конкретного приложения пример 4.6 иллюстрировал аукционные цены картин: 128 Глава 5. Тестирование гипотез и выбор спецификации (5-2) ln Price = β + β ln Size + β AspectRatio + ε. 1 2 3 Некоторые вопросы могут возникнуть относительно «модели» в (5-2), в сущности, о переменных. Естественно предположить, что ценители изобразительного искусства будут интересоваться соотношением сторон, которое является элементом эстетической ценности картины. Но идея о том, что размер должен влиять на цену, противоестественна, особенно учитывая удивительно малые размеры некоторых наиболее известных картин, таких как Мона Лиза Постоянство памяти (30 в высоту и 21 в ширину) или Дали (лишь 9,5 в высоту и 13 в ширину). Скептик может усомниться в наличии lnSize в уравнении или, другими словами, ненулевого коэффициента . β 2 Чтобы разрешить эту проблему, можно поставить вопрос следующим образом: соответствует ли специфицированное уравнение данным, т. е. наблюдаемым ценам, по которым продаются картины? Чтобы ответить на этот вопрос, естественным представляется сначала оценить регрессию и затем рассмотреть оценку . «Тест» в этом случае будет состоять в том, равен ли β 2 b нулю в регрессии, оцененной методом наименьших квадратов, или нет. 2 Понимая, что наклон оценки линейной регрессии — это случайная величина, которая никогда не будет в точности равна нулю, даже если нулю на самом деле равен коэффициент , мы рассмотрим более мягкую формулиβ — достаточно ли выборочная оценка близка к нулю для того, чтобы мы сделали вывод о том, что ее теоретический аналог на самом деле ноль, т.е. что ненулевое значение, которое мы наблюдаем, — это не что иное, как шум, вызванный выборочной вариацией. Без ответа остаются вопросы: как близка к нулю должна быть оценка, чтобы мы могли сделать этот вывод? в чем измерять эту близость? в какой степени мы можем быть уверены, что сделали правильный вывод? (Конечно, не полностью.) насколько вероятно, что правило принятия решения, которое мы выберем, приведет к неверному выводу? Этот раздел формализует эти идеи. После детального изложения методологии будет рассмотрено несколько численных примеров. 5.2.1. Ограничения и гипотезы В рамках нашего подхода мы будем формулировать гипотезу в форме ограничения на модель. Таким образом, в рамках обсуждаемой здесь классической методологии модель является утверждением общего характера, а гипотеза — предложением, конкретизирующим это утверждение. В примере с изобразительным искусством в (5-2) таким дополнительным утверждением является β = 0 — без комментариев относительно β или β . Мы 2 1 3 определяем нулевую гипотезу как утверждение, конкретизирующее модель, и альтернативную гипотезу как более общее утверждение. В рассматриваемом примере более общая модель позволяет уравнению содерAspectRatio и lnSize и — она допускает возможность того, что любой из коэффициентов может быть равен нулю, но не настаивает на этом. Нулевая гипотеза настаивает на том, что но не утверждает ничего относиβ = 0, 2 тельно или . Формальные обозначения для фиксирования этой гипотеβ β 1 3 зы выглядят как 5.2. Методология тестирования гипотез 129 Price Size AspectRatio ln = β + β ln + β + ε, 1 2 3 H : β = 0, (5-3) 0 2 H : β = 0. 1 2 Отметим, что нулевая и альтернативная гипотезы вместе взаимоисключающи и исчерпывающи. Третьей возможности нет; верна либо одна, либо другая, но не обе. Начиная с этого момента, анализ будет посвящен сопоставлению нулевой гипотезы с данными. Данные могут убедить эконометриста отвергнуть нулевую гипотезу. В этот момент может показаться уместным принятие альтернативы. Однако в интересах поддержания гибкости методологии, т.е. открытости к новой информации, уместным выводом в данном случае будет отвержение или неотвержение нулевой гипотезы. Неотвержение нулевой гипотезы неэквивалентно ее принятию, хотя формулировка и может намекать на это. Принимая нулевую гипотезу, мы неявно отказываемся от дальнейшего продолжения исследования. Таким образом, традиционная, классическая методология оставляет возможность того, что дополнительная информация может поменять выводы. Методология нашего тестирования будет сформулирована таким образом, чтобы или отвергнуть H : дан0 несовместимы с гипотезой с существенной долей уверенности, или не H отвергать : данные совместимы с гипотезой. 0 5.2.2. Вложенные модели Общий подход к тестированию гипотезы состоит в том, чтобы сформулировать статистическую модель, которая включает гипотезу в качестве ограничения на свои параметры. Теория имеет тестируемые утверждения, если из нее следуют какие-либо тестируемые ограничения модели. Рассмотрим, например, модель инвестиций, I , t (5-4) ln I = β + β i + β ∆p + β ln Y + β t + ε , t 1 2 t 3 t 4 t 5 t которая говорит о том, что инвесторы чувствительны к номинальной ставке i процента , темпу инфляции ∆p , логарифму реального выпуска lnY и друt факторам, растущим со временем, включаемым во временной тренд, t. Альтернативная теория говорит о том, что «инвесторы интересуются реальной процентной ставкой». В этом случае альтернативная модель имеет вид − (5-5) ln I = β + β (i ∆p ) + β ∆p + β ln Y + β t + ε . t 1 2 t t 3 t 4 t 5 t Несмотря на то что эта новая модель отражает вторую теорию, уравнение все же содержит номинальную процентную ставку и инфляцию. Теория не порождает тестируемые утверждения для нашей модели. Но рассмотрим более сильную гипотезу «инвесторы интересуются только реальной процентной ставкой». Получаемое уравнение ln I = β + β (i − ∆p ) + β ln Y + β t + ε (5-6) t 1 2 t t 4 t 5 t теперь ограничено; в контексте (5-4) тестируемое утверждение состоит в том, что Более сильное утверждение подразумевает конкретβ + β = 0. 2 3 ное соотношение параметров уравнения, которое может подтверждаться, но может и опровергаться эмпирическими наблюдениями. 130 Глава 5. Тестирование гипотез и выбор спецификации Описание тестируемых утверждений в предыдущем параграфе (верно) указывает на то, что тестируемые ограничения подразумевают, что толь- ко некоторые из возможных моделей, допустимых исходной спецификацией, будут действительны, т.е. совместимы с теорией. В предыдущем примере (5-4) специфицирует модель с пятью неограниченными параметрами Но (5-6) показывает, что только некоторые значения па(β , β , β , β , β ). 1 2 3 4 5 раметров совместимы с теорией, а именно те, для которых верно −β . β = 3 2 Это подмножество значений содержится внутри неограниченного множества. Поэтому модели называются вложенными (nested). Рассмотрим другую гипотезу — «инвесторы не беспокоятся об инфляции». В этом случае меньший набор коэффициентов — это (β , , 0, , И снова ограниβ β β ). 1 2 4 5 чения подразумевают подходящее пространство параметров «меньшее» (имеющее меньшее число измерений), чем неограниченное. Общий результат состоит в том, что гипотеза, специфицируемая ограниченной моделью, содержится внутри неограниченной модели. Теперь рассмотрим альтернативную пару моделей: модель : «инвесторов интересует только инфляция»; 0 модель : «инвесторов интересует только номинальная процентная ставка». 1 В этом случае два вектора параметров — это (β , 0, , , в модель β β β ) 1 3 4 5 0 и (β , , 0, , в модель . В этом случае обе спецификации являются β β β ) 1 2 4 5 1 подмножествами неограниченной модели, но ни одна из них не может быть получена наложением ограничений на другую. Две эти модели не вложены. Пока что нас интересуют только вложенные модели. Невложенные модели рассматриваются в разделе 5.8. 5.2.3. Процедуры тестирования — методология Неймана–Пирсона В примере, приведенном в (5-2), интуиция подсказывает подход к тестированию, основанный на сопоставлении данных и гипотезы. Основа методологии, предложенной в работе Неймана и Пирсона (Neyman, Pearson (1933)), предоставляет надежное основание для тестирования гипотез в постановке, рассматриваемой нами в этой главе. В целом исследователь следует логике, основанной на вопросе: какие данные позволят мне отвергнуть гипотезу? Учитывая формулировку гипотезы в подразделе 5.2.1, он эквивалентен вопросу о том, какого рода данные поддержат модель. Наблюдаемые данные делятся на область отвержения и область принятия. Процедура тестирования сводится к рассмотрению статистических доводов. Как только определился вид области отвержения, если наблюдаемые данные относятся к нему, гипотеза отвергается. Для того чтобы увидеть, как этот подход работает на практике, рассмотрим снова гипотезу о размере в уравнении цены на произведения искусства. Мы проверяем гипотезу о том, что равно нуβ Оценим наклон регрессии методом наименьших квадратов. Определим заранее, как далеко от нуля должна быть оценка , чтобы привести к отверβ нулевой гипотезы. Как только правило определено, сам тест работает 0+ механически. В частности, в этом случае далека от нуля, если > b b β 2 2 2 0− или < . Если происходит одно из этих событий, гипотеза отвергается. b β 2 2 Принципиальным является то, что правило определяется заранее. 134 Глава 5. Тестирование гипотез и выбор спецификации где c(β) — это набор из J нелинейных функций Линейная гипотеза являβ. частным случаем. Аналогом нашего требования для линейного случая является то, что снова J строго меньше K и матрица производных G(β) (5-10) = ∂c(β)/∂β имеет полный ранг по строкам. Это означает, что ограничения функционально независимы. В линейном случае G(β) — это матрица констант R, которую мы видели ранее, и функциональная независимость эквивалентна линейной независимости. Мы подробно рассмотрим нелинейные ограничения в разделе 5.7. На данный момент ограничимся рассмотрением общей линейной гипотезы. Гипотеза, подразумеваемая ограничениями, записывается как H : Rβ − q = 0, 0 H Rβ − q 0. : = 1 Мы рассмотрим два подхода к тестированию гипотезы, тесты Вальда и тесты, основанные на качестве модели. Гипотеза характеризует популяцию. Если гипотеза верна, выборочная статистика должна воспроизводить это описание. Продолжая предыдущий пример, гипотеза утверждает, что некий коэффициент в регрессионной модели равен нулю. Если гипотеза верна, оценка коэффициента должна быть близка к нулю по крайней мере в пределах выборочной вариации. Тесты выглядят следующим образом: • Тест Вальда: гипотеза утверждает, что Rβ − равен 0. Оценка методом q наименьших квадратов b является несмещенной и состоятельной оценкой β. Если гипотеза верна, то выборочное отклонение Rb − q должно быть близко к нулю. Для примера с единственным коэффициентом, если верна гипотеза о том, что равен нулю, то должен быть близок к β b k k − нулю. Тест Вальда измеряет, насколько близок Rb q к нулю. • Тесты на основе качества модели: мы получаем наилучшее качество под2 модели — самый высокий , используя метод наименьших квадR и не накладывая никаких ограничений. Мы доказали это в главе 3. Теперь мы покажем, что сумма квадратов остатков никогда не уменьшится при наложении ограничений. Точнее, она будет увеличиваться, за исключением маловероятного специального случая. Например, когда мы накладываем ограничение , исключая из модели, то должны β = 0 x k k 2 ожидать падения R . Эмпирическим приложением для тестирования ги2 будет мера того, насколько сильно падает R при наложении ограничений. ПРЕДПОСЫЛКА. Для получения тестовых статистик в этом разделе мы предполагаем, что ошибки распределены нормально. Как мы видели в главе 4, с этим предположением мы сможем получить точные распределения тестовых статистик. В разделе 5.6 рассмотрим последствия избавления от этой предпосылки и разработаем альтернативный набор результатов, который позволит нам продолжить анализ без нее. 5.4. Тест Вальда 135 5.4. Тест Вальда Тест Вальда является наиболее часто используемой процедурой. Он нередко называется тестом значимости. Основополагающим принципом его работы служит оценка регрессии без ограничений с последующей оценкой того, совместимы ли результаты с гипотезой в пределах выборочной вариации. Тестирование гипотез о коэффициенте Простейшим случаем является тестирование равенства одного коэффициента какому-либо значению. Рассмотрим еще раз наш пример с рынком произведений искусства из раздела 5.2. Нулевая гипотеза имеет вид 0 H : β = β , 0 2 2 0 где β — это гипотетическое значение коэффициента, в данном случае нуль. 2 Расстоянием Вальда между оценкой коэффициента и гипотетическим значением называется линейное расстояние (разность между этими значениями), измеренное в единицах стандартных отклонений. Таким образом, в 0 b этом случае расстояние между и β будет равно k k 0 − b β k k √ (5-11) W = . k 2 kk σ S Как мы видели в (4-38), W (которая раньше называлась z ) имеет стандартk нормальное распределение в предположении, что . Теперь E[b ] = β k k 0 отметьте, что если не равен , то все так же имеет нормальное E[b ] β W k k k 1 распределение, но среднее не равно нулю. В частности, если E[b ] равно β , k k 0 которое отличается от β , то k 1 0 − β β 1 k k |E[b √ (5-12) E{W ] = β = . k k k 2 kk σ S 0 (Например, если гипотеза состоит в том, что и не равен нулю, β = β = 0 β k k √ √ k 1 W b 2 kk 2 kk то ожидаемое значение = / σ S будет равно β / σ S , что не k k k равно нулю.) Для целей использования в процессе тестирования гипотез W k 0 наша интерпретация состоит в том, что если не равен , то b будет β β k k k 0 близок к в единицах стандартных отклонений. Следовательно, логика теβ будет состоять в принятии решения о ложности H — необходимости ее 0 отвержения, если «велика». W k Прежде чем мы определим, что значит «велика», отметим, что предло2 здесь расстояние Вальда не может быть использовано, поскольку σ 2 s неизвестно. Его оценка была получена с помощью . Воспользуемся снова 2 результатами главы 4 и оценим W , используя выборочную оценку . Тогда σ k получаем 0 − b β k k √ (5-13) t = . k 2 kk s S 0 Предполагая, что действительно равен , т.е. что нулевая гипотеза верβ имеет с n−K степенями свободы. [См. (4-41).] Теперь k 5.4. Тест Вальда 137 существенно больше критического 95%-го значения, равного 1,96, мы отвергаем гипотезу о том, что коэффициент β равен нулю; оказыва2 что покупатели картин Моне интересуются размером. Напротив, коэффициент при AspectRatio равен −0, с оценкой стандартной 16537 ошибки 0,12753, так что соответствующее t-значение для тестирования гипотезы H :β = 0 всего лишь −1, 30. Поскольку это сильно меньше 0 3 1,96, мы делаем вывод, что покупателей произведений искусства (картин Моне) не интересует соотношение сторон картины. В качестве финального замечания рассмотрим другую (столь же загадочную) гипотезу — являются ли аукционные цены неэластичными H : β ≤ 1 или эластичными 0 2 по отношению к площади. Это так называемый односторонний H : β > 1 1 2 тест. Используя подход Неймана–Пирсона к формулировке теста, мы отвергнем нулевую гипотезу, если оценка коэффициента в достаточной степени превысит 1,0 (и не отвергнем, если она будет меньше или равна 1,0). Для поддержания размера теста на уровне 0,05 мы разместим всю площадь критической области (области отвержения) справа от 1,0; критическое значение из таблицы составляет 1,645. Тестовая статисти− — это (1, 33372 1, 0)/0, 09072 = 3, 679 > 1, 645, т. е. мы отвергнем и эту нулевую гипотезу. Пример 5.2. Уравнение зарплаты Таблица F5.1 из приложения содержит 753 наблюдения, использовавшихся в исследовании предложения труда замужних женщин (Mroz (1987)). Мы используем эти данные в качестве примера. Из 753 индивидов выборки 428 формально были участниками рынка труда. Для них мы оценим уравнение зарплаты в полулогарифмической форме, предложенной в примере 2.2: 2 age age education kids lnearnings = β + β + β + β + β + ε, 1 2 3 4 5 где earnings — это hourly wage (почасовая зарплата), умноженная на hours worked (число отработанных часов), education (образование) измеряется в годах полученного образования и kids — это бинарная переменная, равная единице при наличии в домохозяйстве детей до 18 лет. (См. подробное описание данных в приложении F.) Результаты оценки регрессии представлены в табл. 5.1. Так, для оценки 5 параметров используются 428 наблюдений, t-статистика имеет − степени свободы. Для (428 5) = 423 95%-го уровня значимости при таком большом числе степеней свободы можно использовать значение стандартного нормального распределения, равное 1,96. По этому показателю все переменные статистически значимы и знаки соответствуют ожиданиям. Интерес представляет вопрос о том, оказывает ли влияние число детей (kids) на заработную плату, на отработанные часы или на оба показателя. Интерпретация оценки при переменной, характеризующей уровень образования, состоит в том, что дополнительный год обучения дает с 6,7%-й прирост зарплаты. Квадрат возраста предполагает, что для заданного уровня образования и размера 138 Глава 5. Тестирование гипотез и выбор спецификации семьи зарплата растет до максимума у − что составляет примерно b /(2b ), 2 3 43 года, после чего она начинает падать. Некоторые замечания: (1) оценка регрессии только для выборки из индивидов, которые работали положительное число часов, не является безвредным механизмом построения выборки. Поскольку индивиды делали выбор (работать или не работать), вполне вероятно (этого стоит ожидать), что потенциальный уровень зарплаты (вместе с некоторыми другими аспектами, которые мы рассмотрим в главе 19) играл важную роль. (2) Уравнение зарплаты представляет собой смесь уравнения предложения труда — часов, отработанных индивидом, и уравнения спроса на труд, заработная плата — это, надо полагать, принятое предложение. Поэтому неясно, какова точная природа этого уравнения. Скорее всего, это смесь уравнений сложной системы структурных уравнений. (См. обсуждение в примере 10.1.) Таблица 5.1. Результаты оценки регрессии для уравнения зарплаты Сумма квадратов остатков: 599,4582 Стандартная ошибка регрессии: 1,19044 2 R на основе 428 наблюдений 0,040995 Переменная Коэффициент Стандартная t- отношение ошибка Константа 3,24009 1,7674 1,833 Age 0,20056 0,08386 2,392 2 Age –0,0023147 0,00098688 –2,345 Education 0,067472 0,025248 2,672 Kids –0,35119 0,14753 –2,380 −n Оценка ковариационной матрицы для − × b (e n = 10 ) 2 Константа Age Age Education Kids 3,12381 –0,14409 0,0070325 0,0016617 –8,23237e–5 9,73928e–7 –0,0092609 5,08549e–5 –4,96761e–7 0,00063729 0,026749 –0,0026412 3,84102e–5 –5,46193e–5 0,021766 F-статистика 5.4.2. и отклонение метода наименьших квадратов Теперь рассмотрим процедуру тестирования набора из J линейных ограничений, указанных в нулевой гипотезе, − H : Rβ q = 0, 0 против альтернативной гипотезы H : Rβ − q = 0. 1 Имея оценку b, полученную методом наименьших квадратов, наш интерес сосредоточен на векторе отклонений − Маловероятно, что векRb q = m. тор m будет в точности равен 0. Статистический вопрос состоит в том, может 5.4. Тест Вальда 139 ли отклонение m от 0 быть отнесено к выборочной ошибке или оно является значимым. Поскольку b распределен нормально [см. (4-18)] и m — это линейная функция от b, то m также распределен нормально. Если нулевая гипотеза верна, то Rβ − q = 0 и m имеет вектор средних | | − − E [m X] = RE[b X] q = Rβ q = 0 и ковариационную матрицу 2 −1 | − | | Var[m X] = Var[Rb q X] = R Var[b X] R = σ R(X X) R . Мы можем построить тест для гипотезы на основе критерия Вальда. H 0 Условно относительно X мы получаем: −1 W = m Var[m | X] m −1 −1 2 − − (5-14) = (Rb q) [σ R(X X) R ] (Rb q) −1 −1 − − (Rb q) [R(X X) R ] (Rb q) = 2 σ 2 ∼ χ [J]. Если гипотеза верна, то статистика W имеет хи-квадрат-распределение с 1 J степенями свободы . Как подсказывает интуиция, чем больше значение m, т. е. выше степень несоответствия оценки ограничениям, тем больше статистика хи-квадрат. Следовательно, большое значение хи-квадрат будет аргументом против нулевой гипотезы. Статистика хи-квадрат в (5-14) не может быть использована, поскольку 2 2 2 параметр неизвестен. Используя вместо и поделив результат на J, σ s σ F-статистику J мы получаем с и n − K степенями свободы, которую можно использовать. Производя замену в (5-14), поделив на J и умножив и поделив на − мы получаем n K, 2 W σ F = 2 J s −1 −1 2 − − − (Rb q) [R(X X) R ] (Rb q) 1 σ (n K) = 2 2 σ J s (n − K) 2 −1 −1 (Rb − q) [σ R(X X) R ] (Rb − q)/J (5-15) = . − 2 2 − [(n K)s /σ ]/(n K) Если т. е. если нулевая гипотеза верна, то − − Rβ = q, Rb q = Rb Rβ = −1 −1 = R(b − β) = R(X X) X ε. [См. (4-4).] Пусть C = [R(X X) R ] . Так как − R(b β) ε ε −1 = R(X X) X = D , σ σ σ −1 числитель F равен где Числитель — это [(ε/σ) T(ε/σ)]/J, T = D C D. W/J из (5-14). Он распределен как произведение 1/J и хи-квадрат [J ], как по2 выше. В (4-16) мы получили, что − − s = e e/(n K) = ε Mε/(n K), 1 Эти вычисления являются приложением «квадратичной формы полного ранга» из раздела B.11.6. Отметьте, что, несмотря на то что хи-квадрат-распределение рассматривается условно относительно X, оно также свободно от X. 140 Глава 5. Тестирование гипотез и выбор спецификации где M — это идемпотентная матрица. Следовательно, знаменатель F равен − Эта статистика распределена как произведение [(ε/σ) M(ε/σ)]/(n K). − и хи-квадрат [n − Следовательно, F-статистика — это отно1/(n K) K]. шение двух хи-квадрат-переменных, каждая из которых поделена на число своих степеней свободы. Поскольку и обе распределены норM(ε/σ) T(ε/σ) мально и их ковариация TM равна 0, векторы квадратичной формы независимы. Числитель и знаменатель F являются функциями независимых случайных векторов и, следовательно, независимы. Это завершает доказательство того, что полученное распределение является F-распределением. [См. 2 (B-35).] Сокращение в (5-15) дает F-статистику для тестирования линейσ гипотез: −1 −1 2 − − (Rb q) R[s (X X) ]R (Rb q) − (5-16) F [J, n K|X] = . J Для тестирования одного линейного ограничения вида H : r β + r β + · · · + r β = r β = q 0 1 1 2 2 K K (обычно некоторые r равны нулям) F-статистика равна 2 − (Σ r b q) j j j − F [1, n K] = . Σ Σ r r Est. Cov[b , b ] j k j k j k Если гипотеза состоит в том, что j-й коэффициент равен конкретному числу, j-м то R имеет единственную строку с 1 в столбце и нулями в остальных, −1 — это j-й диагональный элемент обратной матрицы и — R(X X) R Rb−q это − F-статистика в таком случае равна (b q). j 2 (b − q) j − F [1, n K] = . Est. Var[b ] j Рассмотрим альтернативный подход. Выборочная оценка равна r β · · · r b + r b + + r b = r b = q ˆ . 1 1 2 2 K K Если существенно отличается от q, то мы заключаем, что данные выборки q ˆ несовместимы с гипотезой. Естественно построить тест на основе − q ˆ q (5-17) t = . se(ˆ q ) Нам нужно оценить стандартную ошибку . Поскольку является линейной q ˆ q ˆ 2 −1 функцией от b и у нас есть оценка ковариационной матрицы b, s (X X) , мы можем оценить дисперсию с помощью q ˆ 2 −1 | Est. Var[ˆ q X] = r [s (X X) ]r. Знаменатель — это квадратный корень из этого числа. Другими словами, t t — это расстояние между гипотетической функцией истинных коэффициентов и той же функцией наших оценок этих коэффициентов, выраженное в 5.4. Тест Вальда 141 единицах стандартной ошибки. Если гипотеза верна, то наши оценки должны отражать этот факт, по крайней мере, в пределах выборочной вариации. Таким образом, если абсолютное значение предыдущего t-значения больше, чем соответствующее критическое значение, гипотеза ставится под вопрос. Между статистиками (5-16) и (5-17) существует полезное соотношение. Мы можем записать квадрат t-статистики как −1 −1 2 2 − − − (r b q) r [s (X X) ]r (r b q) (ˆ q q) 2 t = = . Var(ˆ q − q | X) 1 Следовательно, для тестирования одного ограничения модуль t-статистики — это квадратный корень из F-статистики, которая может быть использована для тестирования этой гипотезы. Пример 5.3. Уравнение инвестиций с ограничениями В подразделе 5.2.2 предложена следующая теория поведения инвесторов: они заботятся только о реальной процентной ставке. Если бы инвесторы интересовались только реальной ставкой процента, одинаковые изменения в процентной ставке и темпе инфляции не оказывали бы независимого влияния на инвестиции. Нулевая гипотеза имеет вид H : β + β = 0. 0 2 3 Оценки параметров уравнений (5-4) и (5-6), полученных с использованием квартальных данных за период между I кварталом 1950 г. и IV кварталом 2000 г. о реальных инвестициях, реальном ВВП, процентной ставке (90-дневной ставке процента по казначейским векселям) и инфляции, измеренной как разность логарифма ИПЦ, приведенные в таблице из приложения F5.2, представлены в табл. 5.2. (При вычислении разности логарифма ИПЦ одно наблюдение потеряно.) Для получения соответствующей тестовой статистики нам требуется стандартная ошибка , которая составляет q ˆ = b + b 2 3 −6 2 2 1/2 × se(ˆ q ) = [0, 00319 + 0, 00234 + 2(−3, 718 10 )] = 0, 002866. t-статистика для теста, таким образом, равна −0, 00860 + 0, 00331 t = = −1, 845. 0, 002866 Таблица 5.2. Оценка уравнений инвестиций (в скобках — оценки стандартных ошибок) β β β β β 1 2 3 4 5 Model –9,135 –0,00860 0,00331 1,930 –0,00566 (5-4) (1,366) (0,00319) (0,00234) (0,183) (0,00149) 2 s =0,08618, R =0,979753, e e =1,47052, Est. Cov[b , b ] =–3,718e–6 2 3 Model –7,907 –0,00443 0,00443 1,764 –0,00440 (5-6) (1,201) (0,00227) (0,00227) (0,161) (0,00133) t2 s =0,8670, R =0,979405, e e =1,49578 142 Глава 5. Тестирование гипотез и выбор спецификации Используя 95%-е критическое значение для t [203-5] 1,96 (значение = для стандартного нормального распределения), мы заключаем, что сумма двух коэффициентов незначимо отличается от нуля, так что гипотеза не должна быть отвергнута. Обычно есть более чем один способ для того, чтобы сформулировать регрессионную модель. Один из удобных способов параметризации ограничений состоит в такой его формулировке, при которой для тестирования гипотезы стандартные тестовые статистики, получаемые из регрессии, могли быть использованы без дальнейших подсчетов. В предыдущем примере мы могли записать регрессионную модель в том виде, в котором она специфицирована в (5-5). Тогда эквивалентный способ тестирования состоял бы H 0 в оценке инвестиционного уравнения со ставкой процента и инфляцией в качестве регрессоров и тестировании нашей теории путем тестирования гипотезы о том, что равен нулю, используя стандартную t-статистику, котоβ получается элементарным вычислением. Когда регрессия оценивается таким образом, −0, и оценка стандартной ошибки равна 0,00287, b = 00529 3 t-статистике, −1, приводя к равной 844(!). (Упражнение: предположим, что номинальная процентная ставки — а не темп инфляции — была включена в качестве дополнительного регрессора. Как вы считаете, чему была бы равна оценка коэффициента и стандартной ошибки?) Рассмотрим, наконец, тест для проверки совместной гипотезы: β + β = 0 (инвесторы рассматривают реальную процентную ставку), 2 3 склонность к инвестированию равна β = 1 (предельная 1), 4 β = 0 (временной тренд отсутствует). 5 Тогда       −0.0053 0 1 1 0 0 0 и − R = 0 0 0 1 0 , q = 1 Rb q = 0.9302 .       −0.0057 0 0 0 0 1 0 Подставляя эти значения в F, получаем Пятипроцентное критичеF = 109, 4. ское значение для равняется 2,65. Таким образом, мы заключаем, F [3, 198] что эти данные несовместимы с гипотезой. Результат не указывает, какое из ограничений оказывает наиболее значимое влияние на отвержение гипотезы. Если три ограничения тестируются по одному, t-статистики в (5-17) равны −1, и −3, Следовательно, на основе отдельных тестовых 844, 5, 076 803. статистик стоит ожидать отвержения второй и третьей гипотез. 5.5. Тестирование ограничений с использованием показателей качества регрессии Другой подход к тестированию основан на использовании характеристик качества регрессии. Вспомним, что вектор оценок b выбирался, миними2 сумму квадратов отклонений, e e. Поскольку равен 1 − e e/y M y 5.5. Тестирование ограничений... 143 0 и y M y постоянна и не включает b, из этого следует, что b выбирается, мак2 R . Возникает вопрос, приведет ли выбор других значений для коэффициентов наклона к значительной потере в качестве описания данных. Например, в уравнении инвестиций (5-4) интерес представляет вопрос о том, приводит ли к существенному ухудшению качества регрессии предположение о выполнении гипотезы (что инвесторы интересуются только реальной процентной ставкой) по сравнению с неограниченной регрессией. Для получения тестовой статистики мы сначала рассматриваем получение оценки методом наименьших квадратов при условии наличия ограничений, 2 затем построим тестовую статистику на основе сравнения R двух регрессий. Оценка наименьших квадратов с ограничениями Предположим, что мы явным образом наложили ограничения общей линейной гипотезы на регрессию. Оценка наименьших квадратов с ограничениями может быть получена как решение задачи минимизации: − − при ограничении (5-18) Minimize S(b ) = (y Xb ) (y Xb ) Rb = q. b 0 0 0 0 0 Функция Лагранжа для этой задачи может быть записана как ∗ 2 − − − (5-19) L (b , λ) = (y Xb ) (y Xb ) + 2λ (Rb q) . 0 0 0 0 Решения и будут удовлетворять необходимым условиям b λ ∗ ∗ ∗ ∂L = −2X (y − Xb ) + 2R λ = 0, ∗ ∗ ∂b ∗ (5-20) ∗ ∂L − = 2(Rb q) = 0. ∗ ∂λ ∗ Деление на 2 и раскрытие скобок приводят к уравнению для блочной матрицы: X R b X y ∗ (5-21) = R 0 λ q ∗ или Ad = v. ∗ Предполагая, что блочная матрица в скобках невырождена, оценка наименьших квадратов с ограничениями — это верхняя часть решения −1 d = A v. (5-22) ∗ Если помимо этого X X невырождена, то явное решение для b и λ может ∗ ∗ быть получено с использованием формулы для блочной обратной матрицы 3 (A-74) : −1 −1 −1 b = b − (X X) R [R(X X) R ] (Rb − q) = ∗ − = b Cm, 2 Так как не ограничена, мы можем сформулировать ограничения в терминах Удобство λ 2λ. масштабирования можно увидеть в (5-20). 3 Общее решение, приведенное для , может быть использовано, даже если вырождеd X ∗ на. Например, предположим, что X X имеет размерность 4×4 и ранг 3. Тогда X X вырождена. Но если на наложено параметрическое ограничение, то матрица в скобках размерности × β 5 5 может иметь ранг 5. Эта формулировка и набор связанных результатов приведены в работе Грина и Сикса (Greene, Seaks (1991)). 144 Глава 5. Тестирование гипотез и выбор спецификации и (5-23) −1 −1 − λ = [R(X X) R ] (Rb q). ∗ Грин и Сикс (Greene, Seaks (1991)) показывают, что ковариационная мат2 b является произведением σ и верхнего левого блока A . Опять же в ∗ обычном случае, в котором невырождена, может быть получена явная X X формула: 2 −1 2 −1 −1 −1 −1 | − Var[b X] = σ (X X) σ (X X) R [R(X X) R ] R(X X) . (5-24) ∗ Таким образом, | | − неотрицательно определенная матрица. Var[b X] = Var[b X] ∗ Одна из интерпретаций такого сокращения в дисперсии заключается в том, сколько информации содержится в ограничениях. Следует отметить, что явное решение для включает вектор отклонеλ − Если оценка методом наименьших квадратов без ограничений Rb q. удовлетворяет ограничению, множители Лагранжа будут равны нулю и b ∗ будет равен b. Конечно, это маловероятно. Решение b с ограничениями ∗ равно решению b без ограничений за вычетом слагаемого, которое отражает невозможность решения без ограничений удовлетворить ограничениям. 5.5.2. Потеря в качестве подгонки оценки наименьших квадратов с ограничениями Для того чтобы получить тест, основанный на оценке наименьших квадратов с ограничениями, рассмотрим сначала один коэффициент, а затем обратимся к общему случаю с J линейными ограничениями. Рассмотрим изменение в качестве множественной регрессии при добавлении переменной z в модель, уже содержащую − переменных, Как показано в разделе K 1 x. 3.5 (теорема 3.6) (3-29), влияние на качество модели будет выражаться как ∗2 2 2 2 − (5-25) R = R + 1 R r , Xz X X yz ∗ 2 2 2 2 где — новый после включения z, — исходный и — частная R R R R r Xz X yz y z корреляция между и с учетом влияния x. Таким образом, как известно, качество улучшается (или, по крайней мере, не ухудшается). При выводе формулы для коэффициента частной корреляции между y и z в (3-22) мы получили удобный результат: 2 t ∗2 z (5-26) r = , yz 2 − t + (n K) z 2 где — это квадрат t-статистики для тестирования гипотезы о том, что коt при z равен нулю в множественной регрессии y на X и z. Если мы ∗2 2 решим (5-25) относительно r и (5-26) относительно t и затем подставим yz z первое решение во второе, получим результат 2 2 − R R /1 Xz X 2 (5-27) t = . z 2 − − 1 R /(n K) Xz 5.5. Тестирование ограничений... 145 Мы видели в конце подраздела 5.4.2, что для единственного ограничения, такого как β = 0, z 2 − − F [1, n K] = t [n K], что дает искомый результат, т.е. из (5-27) видно, что квадрат t-статистики 2 (F-статистика) получается с использованием изменения в . ИнтерпретиR z руя представленные выше преобразования как следствие из регрессии, мы видим, что был доказан результат для случая тестирования гипотезы о равенстве нулю отдельного коэффициента наклона. Но представленный результат имеет общий характер. Тестовая статистика для одt-статистики линейного ограничения равна квадрату в (5-17). По построению можно отметить, что для одного ограничения F является мерой потери качества модели, которая происходит в результате наложения ограничения. Для получения этого результата перейдем к общему случаю J линейных ограничений, который будет включать одно ограничение в качестве частного случая. Качество оценки коэффициентов методом наименьших квадратов с ограничениями не может быть лучше, чем в случае решения без ограничений. − Пусть e равен y Xb . Тогда, используя знакомый подход, имеем ∗ ∗ − − − − − e = y Xb X(b b) = e X(b b). ∗ ∗ ∗ Новая сумма квадратичных отклонений — это e e = e e + (b − b) X X(b − b) ≥ e e. ∗ ∗ ∗ ∗ (Средний член в выражении включает равный нулю.) Потеря в качестве X e, тогда равна −1 −1 e e − e e = (Rb − q) [R(X X) R ] (Rb − q). (5-28) ∗ ∗ Это выражение возникает в числителе F-статистики в (5-7). Подставляя оставшиеся части выражения, мы получаем − (e e e e)/J ∗ ∗ − F [J, n K] = . (5-29) − e e/(n K) 2 Наконец, поделив числитель и знаменатель F на −y) , получаем общий Σ (y i i результат: 2 2 (R − R )/J ∗ − (5-30) F [J, n K] = . − 2 − (1 R )/(n K) Эта форма имеет некоторую интуитивную привлекательность, состоящую в том, что характеристика различия качества двух моделей непосредственно включена в тестовую статистику. В качестве примера этого подхода рассмотрим совместный тест для проверки гипотезы о том, что все коэффициенты F-отношение, наклона в модели равны нулю, т.е. общее которое будет об2 в подразделе 5.5.3, где R = 0. ∗ Для наложения набора исключающих ограничений, таких как β = 0, k для одного или большего числа коэффициентов очевидный подход состоит в исключении переменных из регрессии и построении теста на основе сумм 146 Глава 5. Тестирование гипотез и выбор спецификации квадратов остатков для регрессий с ограничениями и без них. F-статистика для тестирования гипотезы о том, что в подмножестве, например , все β 2 коэффициенты равны нулю, строится с использованием и R = (0 : I), q = 0, −1 J = K = числу элементов в β . Матрица R(X X) R — это K ×K , нижний 2 2 2 2 правый блок полной обратной матрицы. Используя предыдущие результаты для блочных обратных матриц и результаты раздела 3.3, имеем −1 −1 R(X X) R = (X M X ) 1 2 2 и − Rb q = b . 2 Подставляя эти выражения в (5-28) получаем потерю в качестве, которая происходит при исключении набора переменных из регрессии: − e e e e = b X M X b . ∗ 1 2 2 ∗ 2 2 Процедура для подсчета соответствующей F-статистики состоит в простом сравнении сумм квадратичных отклонений от «короткой» и «длинной» регрессий, которые мы видели ранее. Пример 5.4. Производственная функция Данные в таблице из приложения F5.3 использовались в нескольких 4 исследованиях производственных функций . Регрессия логарифма выпуска (добавленной стоимости) на константу и логарифма труда и капитала, оцениваемая методом наименьших квадратов, дает оценки производственной функции Кобба–Дугласа, представленные в табл. 5.3. Мы протестируем несколько гипотез на основе этих результатов. Обобще5 модели Кобба–Дугласа — это транслогарифмическая модель , которая записывается как 2 2 1 1 ln Y = β + β ln L + β ln K + β ln L + β ln K + β ln L ln K + ε. 1 2 3 4 5 6 2 2 Как станет ясно позднее, в главе 10, эта модель отличается от модели Кобба–Дугласа тем, что в нее не вводится предпосылка о единичной эластичности замещения. Модель Кобба–Дугласа получается из нее при наложении ограничения Результаты оценки двух β = β = β = 0. 4 5 6 регрессий представлены в табл. 5.3. F-статистика для проверки гипотезы о том, что модель имеет форму Кобба–Дугласа, равна − (0, 85163 0, 67993)/3 F [3, 21] = = 1, 768. 0, 67993/21 4 База данных состоит из наблюдений по штатам в металлургическом производстве и производстве готовых металлических изделий (SIC 33). Изначально данные были собраны Хильдебрандом и Лью (Hildebrand, Liu (1957)) и затем использованы рядом авторов, в частности Эйгнером, Ловеллом и Шмидтом (Aigner, Lovell, Schmidt (1977)). 28-е наблюдение, использованное в исходном исследовании, неполно; мы использовали только оставшиеся 27. 5 Берндт и Кристенсен (Berndt, Christensen (1973)). См. обсуждение в примере 2.4 и подразделе 10.5.2. 5.5. Тестирование ограничений... 147 Таблица 5.3. Оценка производственной функции Транслогарифмическая Кобба–Дугласа Сумма квадратов остатков 0,67993 0,85163 Стандартная ошибка регрессии 0,17994 0,18837 R-квадрат 0,95486 0,94346 Скорректированный R-квадрат 0,94411 0,93875 Число наблюдений 27 27 ПереКоэффициент Стан- t-отно- Коэффи- Стан- t-отноменная шение циент дартная шение ошибка ошибка Константа 0,944196 2,911 0,324 1,171 0,3268 3,582 3,61364 1,548 2,334 0,6030 0,1260 4,787 ln L ln K –1,89311 1,016 –1,863 0,3757 0,0853 4,402 1 2 ln L –0,96405 0,7074 –1,363 2 1 2 0,08529 0,2926 0,291 ln K 2 0,31239 0,4389 0,712 ln L ln K Ковариационная матрица для 1 2 1 2 Константа ln L ln K ln L ln K ln L ln K 2 2 Константа 8,472 (0,1068) ln L –2,388 2,397 (–0,01984) (0,01586) –0,3313 –1,231 1,033 ln K (0,001189) (–0,009) (0,00728) 1 2 ln L –0,08760 –0,6658 0,5231 0,5004 2 1 2 –0,2332 0,03477 0,02637 0,1467 0,08562 ln K 2 0,3635 0,1831 –0,2255 –0,2880 –0,1160 0,1927 ln L ln K Критическое значение из таблицы для F-распределения равно 3,07, так что нет оснований отвергать гипотезу о том, что производственная функция может быть оценена в виде функции Кобба–Дугласа. Гипотеза о постоянной отдаче от масштаба часто тестируется в исследованиях, касающихся оценки вида производственной функции. Эта гипотеза эквивалентна ограничению, состоящему в том, что сумма двух коэффициентов производственной функции Кобба-Дугласа равна единице. Для описанных выше данных получаем 2 − (0, 6030 + 0, 3757 1) F [1, 24] = = 0, 1157, − 0, 01586 + 0, 00728 2(0, 00961) что существенно меньше, чем 95%-е критическое значение, составляющее 4,26. Оснований отвергнуть гипотезу нет; данные согласуются с гипотезой о постоянной отдаче от масштаба. Эквивалентными ограничениями для транслогарифмической модели были бы и β + β = 1 β + β + 2β = 0. 2 3 4 5 6 F-статистика с 2 и 21 степенями свободы равна 1,8991, что меньше, чем критическое значение 3,47. Снова гипотеза не отвергается. В большинстве случаев, встречающихся на практике, можно включить соответствующие гипотезе ограничения непосредственно в регрессию и 148 Глава 5. Тестирование гипотез и выбор спецификации 6 оценить модель с ограничениями . Например, ограничение в β = 1 2 модели Кобба–Дугласа можно записать так: ln Y = β + 1, 0 ln L + β ln K + ε 1 3 или так: − ln Y ln L = β + β ln K + ε. 1 3 Таким образом, модель с ограничениями оценивается с помощью регрессии − на константу и Отдельного внимания требует ln Y ln L ln K. использование этой регрессии для получения F-статистики. Если Fстатистика получается с использованием сумм квадратов остатков [см. (529)], то проблем не возникнет. Однако если используется выражение (530), то может потребоваться учесть наличие в регрессии с ограничениями другой зависимой переменной. В предыдущей регрессии зависимой переменной в регрессии без ограничений была ln Y , тогда как в регрессии 2 с ограничениями ln Y − ln L. R из регрессии с ограничениями составляет всего 0,26979, что дает F-статистику, равную 285,96, тогда как верное 2 значение составляет 9,935. Если же мы оценим , используя правильный R ∗ знаменатель, его значение составит 0,92006, что даст верное значение Fстатистики. что коэффициент при ln K в транслогарифмической модели отрицателен. Можно заключить, что оценка эластичности выпуска по капиталу имеет неверный знак. Однако такой вывод будет неверен; в транслогарифмической модели эластичность выпуска по капиталу составляет ∂ ln Y = β + β ln K + β ln L. 3 5 6 ∂ ln K Если мы подставим оценки коэффициентов и средние значения для ln K и (не логарифмы средних), равные 7,44592 и 5,7637 соответственно, то ln L результат составит 0,5425, что примерно соответствует нашим ожиданиям и не сильно отличается от значения 0,3757, полученного для модели Кобба–Дугласа. Оценка стандартной ошибки для этой линейной комбинации МНК-оценок получается как квадратный корень из Est. Var[b + b ln K + b ln L] = w (Est. Var[b])w, 3 5 6 где w = (0, 0, 1, 0, ln K, ln L) и b представляет полный вектор коэффициентов размерности Это значение равно 0,1122, что достаточно близко 6×1. к предыдущей оценке, равной 0,0853. 5.5.3. Тестирование значимости регрессии Нередко интерес представляет вопрос о том, значимо ли регрессионное уравнение в целом. Тогда это совместный тест для проверки гипотезы о том, все что коэффициенты, за исключением константы, равны нулю. Если все 6 Это не так, когда ограничения нелинейны. Мы рассмотрим этот случай в главе 7. 5.5. Тестирование ограничений... 149 2 коэффициенты наклона равны нулю, то коэффициент детерминации R так- же равен нулю, поэтому мы можем построить тест для проверки этой гипо2 на основе R . Центральный результат, необходимый для проведения 2 R теста, приведен в (5-30). Это специальный случай, в котором = 0, так что ∗ F-статистика, которая обычно приводится вместе с результатами множественной регрессии, представима в виде 2 R /(K − 1) − − F [K 1, n K] = . − 2 − (1 R )/(n K) Если гипотеза о том, что 0 (часть , не включающая константу), верна и β = β 2 ошибки распределены нормально, то эта статистика имеет F-распределение с − и − степенями свободы. Большие значения F выступают в пользу K 1 n K F отвержения гипотезы. Следует отметить, что большое значение вызвано 2 большим значением R . Логика теста состоит в том, что F-статистика — это 2 мера потери качества описания данных (а именно всего R ), что происходит, когда мы накладываем ограничение, состоящее в равенстве нулю всех F наклонов. Если велика, гипотеза отвергается. Пример 5.5. F-тест для уравнений доходов F-статистика для тестирования гипотезы о том, что четыре коэффициента наклона в уравнении доходов из примера 5.2 равны нулю, равна − 0, 040995/(5 1) F [4, 423] = = 4, 521, − − (1 0, 040995)/(428 5) что сильно превышает 95%-е критическое значение, составляющее 2,39. Отсюда следует вывод, что данные не согласуются с гипотезой о том, что все коэффициенты наклона в уравнении доходов равны нулю. Возможно, этого результата следовало ожидать, учитывая большие значения t-статистик, представленные ранее. Но так происходит не всегда. Можно привести пример того, как коэффициенты оказываются статистически значимыми по одному, но незначимыми в совокупности. Этот случай может рассматриваться как патологический и обратный более распространенному примеру, в котором ни один из коэффициентов незначим, тогда 2 как R имеет высокую значимость. Проблема состоит в том, что взаимное влияние между переменными может скрыть их индивидуальный вклад в качество регрессии, тогда как их совместный вклад может оказаться значимым. 2 5.5.4. Вывод ограничений и замечание об использовании R Как правило, ограничения, накладываемые линейной гипотезой, можно выразить при помощи алгебраического выражения. Для этого нужно разбить матрицу R на две части, одну с J столбцами и другую с K − J столбцами, так что первый набор линейно независим. (Существует много способов это осуществить; в данный момент подойдет любой.) Затем, используя вектор β, разбитый и упорядоченный соответствующим образом, можно запи- 156 Глава 5. Тестирование гипотез и выбор спецификации ранее, будет ˆ − c( β) q (5-33) z = , оценка стандартной ошибки или ее квадрат, которые ранее были распределены как − и − t[n K] F [1, n K] соответственно. Вычисление отклонения в числителе не представляет сложˆ Получение оценки выборочной дисперсии c(t β)−q, однако, включает ˆ дисперсию нелинейной функции β. Результаты, требуемые для этой оценки, представлены в подразделах ˆ 4.4.4, B.10.3 и D.3.1. Линейное приближение рядом Тейлора около исc( β) тинного вектора параметров имеет вид β ∂c(β) ˆ ˆ ≈ − (5-34) c( β) c(β) + ( β β). ∂β Тут приходится опираться на состоятельность, а не на несмещенность, по- скольку в общем случае ожидаемое значение нелинейной функции не равно ˆ ˆ функции от ожидаемого значения. Если plim то использование в β = β, c( β) качестве оценки обоснованно. (Требуемый здесь результат — это теоc(β) Слуцкого.) Предполагая, что использование этого приближения здесь уместно, дисперсия нелинейной функции приблизительно равна дисперсии правой части, которая в таком случае равна ∂c(β) ∂c(β) ˆ ˆ ≈ (5-35) Var[c( β)] Var[ β] . ∂β ∂β Производные в выражении для дисперсии являются функциями неизвесных параметров. Поскольку они оцениваются, для оценки производных используются выборочные аналоги. В качестве оценки дисперсии оценки −1 2 можно использовать . Наконец, основываемся на теореме D.22 из s (X X) tподраздела D.3.1 и берем стандартное нормальное распределение вместо ˆ распределения для тестовой статистики. Используя для оценки g( β) g(β) = можно проверить гипотезу тем же способом, что и ранее. = ∂c(β)/∂β, Пример 5.6. Долгосрочная предельная склонность к потреблению Функция потребления, имеющая различные — краткосрочную и долгосрочную — предельные склонности к потреблению, может быть записана в виде ln C = α + β ln Y + γ ln C + ε , t t t−1 t что является примером модели с распределенными лагами. В этой модели краткосрочная предельная склонность к потреблению (MPC) (эластичность, поскольку переменные в логарифмах) равна β, а долгосрочная MPC равна − Рассмотрим тестирование гипотезы о том, что δ = β/(1 γ). δ = 1. Квартальные данные об агрегированных потреблении и располагаемом доходе в США за период с 1950 по 2000 г. представлены в таблице из 5.7. Тестирование нелинейных ограничений 157 приложения F5.2. Оценки уравнения для этих данных представлены ниже: ln C = 0, 003142 + 0, 07495 ln Y + 0, 9246 ln C + e , t t t−1 t (0, 01055) (0, 02873) (0, 02859) 2 R = 0, 999712, s = 0, 00874. Оценки стандартных ошибок приведены в скобках. Также требуется Est. Asy. Cov[b, c] = −0, 0008207. Оценка долгосрочной MPC тогда равна − − Для получения оценки d = b/(1 c) = 0, 07495/(1 0, 9246) = 0, 99403. дисперсии d потребуется ∂d 1 ∂d b g = = = 13, 2626, g = = = 13, 1834. b c − − 2 ∂b 1 c ∂c (1 c) Оценка асимптотической дисперсии d равна 2 2 Est. Asy. Var[d] = g Est. Asy. Var[b] + g Est. Asy. Var[c]+ b c 2 2 + 2g g Est. Asy. Cov[b, c] = 13, 2626 × 0, 02873 + b c 2 2 × + 13, 1834 0, 02859 + 2(13, 2626)(13, 1834)(−0, 0008207) = 0, 0002585. Ее квадратный корень равен 0,016078. Для тестирования гипотезы о том, что долгосрочная MPC больше или равна 1, следует использовать − 0, 99403 1 z = = −0, 37131. 0, 016078 Поскольку используется асимптотическое приближение, обратимся к таблице для стандартного нормального распределения, а не для t. Гипотеза не отвергается. γ = 1 Можно было отметить, что эта гипотеза могла быть протестирована − с помощью линейного ограничения; если δ = 1, то β = 1 γ, или β + γ = 1. Оценка q = b + c − 1 = −0, 00045. Оценка 2 2 стандартной ошибки этой линейной функции равна − [0, 02873 + 0, 02859 1/2 −2(0, t-статистика для этого теста равна −0, 0008207)] = 0, 00118. 38135, что примерно совпадает с предыдущим значением. Поскольку выборка в данном случае достаточно велика, этого следует ожидать. Однако в расчетах нет ничего, что обеспечивало бы этот результат. В меньшей выборке ответ мог получиться другим. Например, используя последние 11 лет наблюдений, t-статистики для двух гипотез равны 7,652 и 5,681. Тест Вальда неинвариантен относительно формулировки гипотезы. В пограничном случае можно было получить иной вывод. Такое отсутствие инвариантности не характеризует тесты отношения правдоподобия или множителей Лагранжа, обсуждаемые в главе 14. С другой стороны, оба этих теста требуют предположения о нормальности, тогда как статистика Вальда его не требует. Все это является примером своего рода баланса между более детальной спецификацией и мощностью соответствующей процедуры тестирования. 158 Глава 5. Тестирование гипотез и выбор спецификации Обобщение в случае наличия более одной функции параметров получаˆ аналогично. Пусть — это набор J функций вектора оценки. Обоc( β) ˆ значим матрицу производных размерностью × как c( β) J K ˆ ∂c( β) ˆ (5-36) G = . ˆ ∂ β Оценка асимптотической ковариационной матрицы этих функций тогда имеет вид ˆ ˆ ˆ (5-37) Est. Asy. Var[ˆ c ] = G Est. Asy. Var[t β] G . ˆ ˆ j-я строка представляет собой K производных по K элементам НаприG ковариационная матрица для оценок краткосрочной и долгосрочной предельной склонности к потреблению может быть получена с использованием = . 2 − − 0 1/(1 γ) β/(1 γ) Статистика для тестирования J гипотез равна c(β) = q −1 − − (5-38) W = (ˆ c q) Est. Asy. Var[ˆ c ] (ˆ c q). В больших выборках W имеет распределение хи-квадрат с числом степеней свободы, равным числу ограничений. Следует отметить, что для одного ограничения это значение равно квадрату статистики (5-33). 5.8. Выбор между невложенными моделями Классические процедуры тестирования, приведенные выше, являются 7 наиболее мощными для рассмотренных типов гипотез . Несмотря на то что использование этих процедур, безусловно, желательно, требование спецификации гипотезы в виде y = Xβ + ε, H : Rβ = q 0 против H : Rβ = q, 1 может вносить некоторые ограничения. Два популярных исключения: общая проблема определения того, какой из двух наборов регрессоров подходит лучше для описания данных, а также выбор между линейной и логлинейной моделями. В настоящий момент интерес представляет сравнение двух конкурирующих линейных моделей: (5-39) H : y = Xβ + ε 0 0 и (5-40) H : y = Zγ + ε . 1 1 7 Stuart, Ord (1989, ch. 27). 5.8. Выбор между невложенными моделями 159 Классические процедуры, рассматривавшиеся до сих пор, не предлагают методов выбора более предпочтительной модели. Общей проблеме тестирования невложенных гипотез такого типа уделяется значительное внимание в теоретической литературе, она встречается в большом числе эмпирических 8 приложений . 5.8.1. Тестирование невложенных гипотез Полезное различие между процедурами тестирования гипотез, обсуждавшимися в предыдущих разделах, и выбором модели, рассматриваемым здесь, заключается в асимметрии между нулевой и альтернативной гипо9 являющейся частью классической процедуры тестирования . По- скольку по построению классические процедуры рассматривают выборку на предмет наличия аргументов в пользу отвержения «нулевой» гипотезы, конкретная формулировка этой гипотезы может быть принципиальна для результата. К счастью, методология Неймана–Пирсона дает рекомендацию; нулевой гипотезе обычно соответствует самая узкая модель в рассматриваемом наборе. С другой стороны, классические процедуры никогда не приводят к точным выводам. Пока уровень значимости процедуры тестирования не настолько высок, чтобы исключить все альтернативы, всегда останется вероятность ошибки I рода. В результате нулевая гипотеза никогда не отвергается с убежденностью, а лишь с заданной степенью уверенности. Тесты для выбора спецификации, напротив, рассматривают конкурирующие гипотезы как равные. Естественной нулевой гипотезы в этом случае нет. Однако процесс заканчивается четким решением — при тестировании в виде (5-39a, b) одна из моделей будет отвергнута, а другая принята; затем анализ продолжится в рамках исключительно выбранной модели независимо от отвергнутой. Действительно, он и не может быть продолжен, пока одна из моделей не отвергнута. Частой практикой, например, в такой постановке для исследователя является тестирование с одной из моделей в качестве нулевой, а затем с другой. К сожалению, учитывая способ построения тестов, может сложиться ситуация, при которой ни одна из моделей не будет отвергнута; в любом случае необходимо проводить дальнейший анализ. Как будет показано, наука в этом вопросе несколько неточна. Первые работы, посвященные тестированию невложенных гипотез, в частности работа Кокса (Cox (1961, 1962)), были написаны в рамках процедур, использующих выборочные правдоподобия и принцип максимального правдоподобия. Последние исследования были выстроены вокруг общей основы, получившей название принцип охвата [Mizon, Richard (1986)]. В сущности, принцип концентрирует внимание на вопросе о том, может ли выбранная модель объяснить особенности конкурирующих моделей, т.е. может ли эта модель охватить альтернативу. Третий подход основан на формулировке полной модели, которая включает обе конкурирующие модели 8 Обзоры работ по данной тематике представлены в работах Уайта (White (1982a, 1983)), Гурьера и Монфора (Gourieroux, Monfort (1994)), Макалера (McAleer (1995)), Песарана и Уикса (Pesaran, Weeks (2001)). В обзоре Макалера описано много приложений, тогда как Гурьер и Монфор сосредоточены на теоретических аспектах вопроса. 9 См. работу Грейнджера и Песарана (Granger, Pesaran (2000)) для обсуждения. 160 Глава 5. Тестирование гипотез и выбор спецификации в качестве частных случаев. Когда это возможно, тест между моделями основывается, в сущности, на процедурах тестирования, похожих на классические. Далее будут рассмотрены тесты, использующие все три подхода. 5.8.2. Принцип охвата Всеобъемлющим называется подход, при котором тестируется способность одной модели объяснить особенности другой. Модель 0 «охватывает» модель 1, если особенности модели 1 могут быть объяснены моделью 0, но 10 обратное неверно . Поскольку не может быть записана в качестве ограH на , ни одна из рассмотренных до сих пор процедур не может H 1 быть использована. Одной из возможностей является искусственное вложение двух моделей. Пусть X представляет набор переменных в X, не входящих в Z. Определим аналогично по отношению к X, и пусть W будут Z переменными, которые входят в обе модели. Тогда и могут быть объH H 0 1 единены в «супермодель»: y = X β + Z γ + Wδ + ε. В принципе H отвергается, если обнаруживается, что γ = 0, при помо1 обыкновенного F -теста, тогда как H отвергается, если обнаруживается 0 что С этим подходом связаны две проблемы. Во-первых, остается β = 0. δ смесью из частей и и не указывает на равенство нулю какой-либо из β γ F этих частей. Таким образом, этот тест на самом деле не позволяет различить между собой H и H ; он различает между собой H и гибридную модель. 0 1 1 Во-вторых, эта объединенная модель может иметь очень большое число регрессоров. В контексте временных рядов может возникнуть проблема мультиколлинеарности. альтернативный подход. Если H верна, то y будет полно0 объясняться X, за исключением случайного члена Предположим, что ε. затем следует попытка оценить при помощи регрессии y на Z. Какой бы γ вектор параметров не получился в результате оценки этой регрессии, назовем его c, если H верна, мы должны оценить в точности тот же вектор 0 коэффициентов в результате регрессии на Z, поскольку является слуXβ шумом при выполнении . Поскольку должен быть оценен вектор H 0 предположим, что вместо этого мы используем Xb и оцениваем . Тестиβ, предположения о том, что модель 0 «охватывает» модель 1, будет представлять тест для проверки гипотезы о том, что Несложно E [c−c ] = 0. 0 показать [см. книгу Дэвидсона и Маккиннона (Davidson, MacKinnon (2004, с. 671–672))], что тест может быть проведен с использованием стандартного F -теста для тестирования гипотезы γ = 0 в дополненной регрессии: 1 y = Xβ + Z γ + ε , 1 1 1 где Z — это переменные в Z, которые не входят в X. (Можно показать, что 1 и совпадают, а значит, совпадают и тесты.) Z Z 1 10 См.: Дитон (Deaton (1982)), Дастур (Dastoor (1983)), Гурьер и др. (Gourieroux et al. (1983, 1995)) и особенно Мизон и Ричард (Mizon, Richard (1986)). 5.8. Выбор между невложенными моделями 161 5.8.3. Полная модель — J-тест Подход, основанный на полной модели, связан с функцией плотности как характеристики процесса порождения данных. Пусть f (y | данные, β ) 0 i 0 будет предполагаемой функцией плотности для модели 0. Определим альтернативу соответственно как | данные, Тогда функция плотности f (y β ). 1 i 1 для полной модели, включающей обе модели, имеет вид 1−λ λ | данные, | данные, [f (y β )] [f (y β )] 0 i 0 1 i 1 | f (y данные, β , β ) = , c i 0 1 | 1−λ | λ [f (y данные, β )] [f (y данные, β )] dy 0 i 0 1 i 1 i где интеграл берется по области определения функции плотности. Оценка полной модели с последующим тестом или 1 используется для оценки λ = 0 11 обоснованности модели 0 или 1 соответственно . -тест, предложенный Дэвидсоном и Маккинноном (Davidson, MacKinJ (1981)), является приложением этого принципа к линейной регрессионной модели, что может быть показано [см. Pesaran и Weeks (2001)] . Предложенная ими альтернатива предыдущей полной модели имеет вид − y = (1 λ)Xβ + λ(Zγ) + ε. В этой модели тестирование ограничения будет тестом против альтерλ = 0 нативы . Проблема состоит в том, что не может быть оценена отдельно в H λ 1 этой модели; это означало бы излишнее масштабирование регрессионных коэффициентов. J-тест Дэвидсона и Маккиннона заключается в оценке γ при помощи оценки регрессии y на Z с последующей оценкой регрессии y на X и являющиеся значениями, предсказанными первой регрессией. Zˆ γ , Обоснованный, по крайней мере асимптотически, тест состоит в тестиH H : λ = 0. Если H истинна, то plim λ = 0. Асимптотически отноше0 ˆ ние (т.е. обычная распределено согласно стандартному λ/se( λ) t-статистика) нормальному закону распределения, и при тестировании могут использоваться значения из стандартной таблицы. К сожалению, при тестировании H против H и наоборот возможны все четыре варианта (отвергнуть обе 0 1 или какую-либо одну из гипотез, не отвергнуть ни одну). Эта проблема, однако, связана с конечностью выборки. Дэвидсон и Маккиннон показали, что ˆ при → ∞, если верна, вероятность того, что будет значимо отличаться n H λ 1 от 0, стремится к 1. J-тест функции потребления Пример 5.7. Гэвер и Гейзель (Gaver, Geisel (1974)) рассматривали две модели функции потребления: H : C = β + β Y + β Y + ε 0 t 1 2 t 3 t−1 0t и H : C = γ + γ Y + γ C + ε . 1 t 1 2 t 3 t−1 1t 11 Сильва (Silva (2001)) демонстрирует приложение к выбору между логит- и пробитмоделями для случая моделей бинарного выбора. 162 Глава 5. Тестирование гипотез и выбор спецификации Первая модель предполагает, что потребление реагирует на изменение в доходах в течение двух периодов, тогда как вторая — что изменение в доходах влияет на потребление на протяжении многих периодов. Квартальные данные по агрегированному реальному потреблению в США и реальному располагаемому доходу приведены в таблице из приложения F5.2. Здесь будет показано применение J-теста к этим данным и двум предложенным спецификациям. Во-первых, две модели оцениваются отдельно (используя наблюдения со II квартала 1950 г. по IV квартал 2000 г.). Регрессия на константу, , лаг и предсказанные второй C Y Y моделью значения дают оценку λ, равную 1,0145, с t-статистикой 62,861. Таким образом, должна быть отвергнута в пользу . Но, меняя и H H H 0 1 0 местами, получается оценка равная −10, с −7, H λ, 677, t-статистикой 188. 1 12 Таким образом, также отвергается . H 1 5.9. Тестирование спецификации модели Рассмотренные до сих пор тесты оценивали вложенные модели. Предполагалось, что одна из двух моделей верна. В разделе 5.8 мы расширили класс рассматриваемых моделей на случай двух невложенных моделей. При этом не предполагается, что любая из них обязательно является истинным процессом порождения данных; мы лишь пытаемся выяснить при помощи теста, какая из двух моделей находится ближе к истине. Тесты на спецификацию находятся между этими двумя подходами. Идея теста на спецификацию модели состоит в рассмотрении конкретной нулевой модели и альтернатив, которые не задаются явным образом в качестве ограничений на регрессионное уравнение. Полезным способом рассмотрения некоторых тестов на спецификацию является подход, при котором центральная модель y = Xβ + ε отождествляется с нулевой гипотезой, а альтернатива представляет собой, возможно, незаявленное обобщение этой модели. Тест Рамсея (Ramsey (1969)) RESET-тест рассматривает нелинейности в функциональной форме и является одним из примеров таких тестов. Один (являющийся неоднозначным) подход к анализу выглядит следующим образом: • y Xβ H : = + ε, 0 • y Xβ более высокие степени и другие переменные H : = + x +ε. 1 k Естественным подходом было бы включение в модель квадратов, кубов и перекрестных произведений регрессоров с последующим тестированием до H как ограничения на большую модель. Сложности состоят в том, что, во0 этот подход может слишком конкретно задавать форму альтернативной гипотезы и что, во-вторых, при большом числе регрессоров X он может быстро разрастись. Решение, предложенное Рамсеем, заключается во включении степеней x в регрессию, используя предсказания метода наиβ квадратов, обычно следует добавить квадраты и, возможно, кубы регрессоров. Для этого нужна двухшаговая процедура, поскольку, чтобы 12 Обсуждение такой возможности см. в работе Макалера, Фишера и Фолкера (McAleer, Fisher, Volker (1982)). 5.9. Тестирование спецификации модели 163 2 3 добавить b) и (x b) , требуются коэффициенты. Предложение состоит в (x i i том, чтобы сначала оценить модель, используя метод наименьших квадратов, а затем, на втором шаге, квадраты (и кубы) предсказанных на первом шаге значений добавить в уравнение и переоценить его. Затем (асимптотический) тест Вальда используется для тестирования гипотез, соответствующих исходной модели. В качестве общей стратегии такого рода спецификация предназначена для определения нарушений предпосылок нулевой модели. Очевидным преимуществом такого теста является то, что он допускает существенно большую степень общности, чем простая процедура тестирования ограничений, например равенства коэффициента нулю. Но такая общность дается существенной ценой: 1. Тест неконструктивен. Он не указывает, что должен делать исследователь, если модель, лежащая в основе нулевой гипотезы, отвергается. Это общая особенность тестов на спецификацию модели. Отвержение нулевой модели не указывает ни на какую конкретную альтернативу. 2. Поскольку альтернативная гипотеза не указывается, неясно, какова мощность теста против какой-либо конкретной альтернативы. 3. Для этого конкретного теста (возможно, не для некоторых других тестов на спецификацию модели, которые мы рассмотрим позднее), поскольку x b использует один b для всех наблюдений, наблюдения являются корреi тогда как в исходной модели предполагается, что они некоррелированы. Ввиду двухшаговой природы оценки неясно, какую ковариационную матрицу следует использовать для теста Вальда. Две другие сложности возникают в связи с этим тестом. Во-первых, неясно, куда сходятся коэффициенты, предполагая, что они сходятся куда бы то ни было. Во- вторых, дисперсия разности между x b и x β — это функция x, так что реi на втором шаге может оказаться гетероскедастичной. Это приводит к тому, что размер и мощность теста могут оказаться совершенно не теми, чего следовало ожидать. Размер RESET-теста Пример 5.8. Для изучения истинного размера RESET-теста в конкретном приложении при помощи метода Монте-Карло был проведен эксперимент. Результаты, представленные в табл. 4.6, приводят следующие оценки уравнения (5-2): −8, − ln Price = 42653 + 1, 33372 ln Area 0, 16537Aspect Ratio + e, где sd(e) = 1, 10266. Мы рассматриваем правую часть регрессии как нашу генеральную совокупность. Далее генерируем 5000 выборок по 430 наблюдениям (размер исходной выборки), используя один набор регрессионных коэффициентов и генерируя новую выборку ошибок для каждой реализации. Таким образом, для каждой реализации есть новая выборка наблюдений ln Price , r ir для которой регрессионная часть используется много раз, а ошибки генерируются заново. Для каждой выборки оценивается коэффициент и предсказанное значение. Затем регрессия переоценивается с включением 164 Глава 5. Тестирование гипотез и выбор спецификации в нее квадрата и куба предсказанного значения. Наконец, для каждой выборки оценивается статистика хи-квадрат и модель, лежащая в основе нулевой гипотезы, отвергается при значении этой статистики, превышающем 5,99, 95-й процентиль распределения хи-квадрат с двумя степенями свободы. Номинальный размер этого теста составляет 0,05. Таким образом, в выборках, состоящих из 100, 500, 1000 и 5000 наблюдений, модель, лежащая в основе нулевой гипотезы, должна отвергаться 5, 25, 50 и 250 раз. В рассматриваемом эксперименте значение хи-квадрат-статистики превысило 5,99 для 8, 31, 65 и 259 случаев соответственно, что указывает на то, что, по крайней мере, при достаточном числе повторений тест ведет себя, как и ожидается. Затем исследовалась мощность теста путем подключения к предсказаниям ln Area, умноженного на 0,1. Невозможно определить точную мощность RESET-теста в выявлении этого нарушения нулевой модели. В эксперименте с 1000 повторений нулевая гипотеза была отвергнута 321 раз. Следует заключить, что процедура обладает мощностью в отношении выявления этого нарушения предположений модели. 5.10. Построение модели — подход от общего к частному В последние 20 лет произошел сдвиг в подходе к построению моделей отчасти ввиду результатов, представленных в предыдущих двух разделах. Стараясь сохранить простоту спецификации, исследователи обычно начинают с маленькой спецификации, планомерно расширяя ее до интересующей, включая дополнительные переменные. Но на основе предыдущих результатов можно предположить, что любой критерий, который может быть использован для принятия решения о включении переменной в текущую спецификацию, будет испорчен смещениями, вызванными неполной спецификацией на начальных этапах. Пропуск важных переменных в общем случае оказывается худшей из двух возможных ошибок. Таким образом, подход от частного к общему имеет не много доводов в свою пользу. Основываясь на работе Хендри [например, Hendry (1995)] и последних достижениях в компьютерных технологиях, исследователи находятся в более комфортной ситуации, начиная поиск правильной спецификации с больших моделей, включающих много переменных и, возможно, сложные лаговые структуры. Привлекательная стратегия заключается в применении подхода от общего к частному, т.е. при сокращении модели до предпочтительной спецификации. [Этот процесс был полностью автоматизирован в компьютерной (c) программе Hendry PCGets . См., например, Хендри и Котцис (Hendry, Kotzis (2001)).] Конечно, такой подход должен учитывать два связанных между собой соображения. В регрессии «все в кучу», включающей все переменные, которые могут оказаться нужными, принятие фиксированной вероятности ошибки I рода, например 5%, гарантирует для достаточно большой модели, что некоторые переменные покажутся значимыми, скорее всего, «случайно». Во-вторых, проблемы, связанные с предварительным оцениванием и пошаговым построением модели, также связаны с риском итоговой 5.10. Построение модели — подход от общего к частному 165 неправильной спецификации модели. В качестве одного, к сожалению, часто встречающегося примера можно привести ситуацию, когда используемые таким образом статистики приводят к необъясняемым лаговым структурам в динамических моделях с большим количеством лагов зависимой или независимой переменной. 5.10.1. Критерии выбора модели В ходе предшествующего обсуждения было указано на ряд подходов к выбору модели, основанных на тестировании невложенных гипотез. Показатели качества модели и процедуры тестирования, основанные на сумме 2 квадратов ошибок, такие как и тест Кокса (Cox (1961)), полезны, когда R интерес представляет описание данных или прогнозирование зависимой переменной внутри выборки. Когда же построение модели нацелено на прогнозирование, внутривыборочные показатели необязательно оптимальны. 2 Как было показано, не может падать после включения переменных в R модель, так что для него характерна тенденция к «слишком хорошему» описанию выборки. Этот критерий может помешать выбрать наилучшую прогнозирующую модель, поскольку включение переменных в модель может увеличить дисперсию прогнозной ошибки (см. раздел 4.6), несмотря на улучшенное качество описания данных. Учитывая это сооб