Пожалуйста, введите доступный Вам адрес электронной почты. По окончании процесса покупки Вам будет выслано письмо со ссылкой на книгу.

Выберите способ оплаты
Некоторые из выбранных Вами книг были заказаны ранее. Вы уверены, что хотите купить их повторно?
Некоторые из выбранных Вами книг были заказаны ранее. Вы можете просмотреть ваш предыдущий заказ после авторизации на сайте или оформить новый заказ.
В Вашу корзину были добавлены книги, не предназначенные для продажи или уже купленные Вами. Эти книги были удалены из заказа. Вы можете просмотреть отредактированный заказ или продолжить покупку.

Список удаленных книг:

В Вашу корзину были добавлены книги, не предназначенные для продажи или уже купленные Вами. Эти книги были удалены из заказа. Вы можете авторизоваться на сайте и просмотреть список доступных книг или продолжить покупку

Список удаленных книг:

Купить Редактировать корзину Логин
Поиск
Расширенный поиск Простой поиск
«+» - книги обязательно содержат данное слово (например, +Пушкин - все книги о Пушкине).
«-» - исключает книги, содержащие данное слово (например, -Лермонтов - в книгах нет упоминания Лермонтова).
«&&» - книги обязательно содержат оба слова (например, Пушкин && Лермонтов - в каждой книге упоминается и Пушкин, и Лермонтов).
«OR» - любое из слов (или оба) должны присутствовать в книге (например, Пушкин OR Лермонтов - в книгах упоминается либо Пушкин, либо Лермонтов, либо оба).
«*» - поиск по части слова (например, Пушк* - показаны все книги, в которых есть слова, начинающиеся на «пушк»).
«""» - определяет точный порядок слов в результатах поиска (например, "Александр Пушкин" - показаны все книги с таким словосочетанием).
«~6» - число слов между словами запроса в результатах поиска не превышает указанного (например, "Пушкин Лермонтов"~6 - в книгах не более 6 слов между словами Пушкин и Лермонтов)
 
 
Страница

Страница недоступна для просмотра

OK Cancel
РОССИЙСКАЯ АКАДЕМИЯ НАРОДНОГО ХОЗЯЙСТВА И ГОСУДАРСТВЕННОЙ СЛУЖБЫ ПРИ ПРЕЗИДЕНТЕ РОССИЙСКОЙ ФЕДЕРАЦИИ АКАДЕМИЧЕСКИЙ УЧЕБНИК Уильям Г. Грин ЭКОНОМЕТРИЧЕСКИЙ АНАЛИЗ Книга 1 William H. Greene ECONOMETRIC ANALYSIS Seventh edition Prentice Hall 2012 СЕРИЯ «АКАДЕМИЧЕСКИЙ УЧЕБНИК» Уильям Г. Грин ЭКОНОМЕТРИЧЕСКИЙ АНАЛИЗ Книга 1 Перевод с английского под научной редакцией С.С. Синельникова и М. Ю. Турунцевой Рекомендуется Российской академией народного хозяйства и государственной службы при Президенте Российской Федерации в качестве учебника для студентов, обучающихся по экономическим направлениям и специальностям, а также для студентов бакалавриата, магистратуры, аспирантов, преподавателей экономических факультетов вузов. (Основание — приказ Министерства образования и науки № 130 от 22 февраля 2012 г.) Москва 2016 УДК 330.4 ББК 65.05 Г85 Перевод с английского: А. В. Ходырев (главы 1–4), А. С. Степанов (главы 5–6, 12–13), С.С. Синельников (главы 7–8), Б. Н. Гафаров (главы 9, 17), Ю. В. Набатова (главы 10–11), В. В. Громов (главы 14–16), Ю. Ю. Пономарёв (главы 18–19), Е. В. Синельникова (главы 20–21), А. В. Божечкова (приложения) Грин, Уильям Г. Г85 Эконометрический анализ. Книга 1 / Уильям Грин; пер. с англ.; под науч. ред. С.С. Синельникова и М.Ю. Турунцевой. — М. : Издательский дом «Дело» РАНХиГС, 2016. — 760 с. (Академический учебник). ISBN 978-5-7749-0959-9 (общ.) ISBN 978-5-7749-1157-8 (кн. 1) «Эконометрический анализ» является учебником по эконометрике магистерского уровня, в нем рассмотрены все основные разделы, включаемые в современные курсы эконометрики. Он представляет собой попытку соединить введение в область эконометрики и профессиональную литературу для студентов и аналитиков, изучающих социальные науки и специализирующихся на прикладной эконометрике и ее теоретических основах. Книга дает широкий обзор различных областей эконометрики, что позволяет читателю перейти от их изучения к решению практических задач в одной или нескольких областях. Читатель имеет возможность ознакомиться и с базовыми понятиями различных областей эконометрики, представленных в книге, и с теми, которые ему необходимы на практике. УДК 330.43 ББК 65.05 ISBN 978-5-7749-0959-9 (общ.) ISBN 978-5-7749-1157-8 (кн. 1) Authorized translation from the English language edition, entitled ECONOMETRIC ANALYSIS, 7th Edition; ISBN 0131395386; by GREENE, WILLIAM H.; published by Pearson Education, Inc.; publishing as Prentice Hall; Copyright © 2012 Pearson Education Limited All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Pearson Education, Inc. RUSSIAN language edition published by DELO PUBLISHERS. Copyright © 2012 Лицензированный перевод английского издания под названием ECONOMETRIC ANALYSIS, 7th Edition; ISBN 0131395386; под авторством GREENE, WILLIAM H., опубликованного Pearson Education, Inc. под маркой Prentice Hall; Copyright © 2012 Pearson Education Limited Все права защищены. Ни одна часть настоящей книги не может быть распространена или передана ни в каком виде и никакими средствами, электронными или механическими, включая фотокопирование, запись или любые информационно-поисковые системы, без разрешения от Pearson Education, Inc. Издание на русском языке выпущено Издательским домом «Дело» © ФГБОУ ВО «Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации», 2016 Оглавление Предисловие к русскому изданию . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xiv Глава 1. Эконометрика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Парадигма эконометрики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.3. Практическая эконометрика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4. Эконометрическое моделирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.5. План книги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.6. Предварительные замечания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.6.1. Численные примеры. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.6.2. Компьютерное обеспечение и воспроизводимость результатов . . 11 1.6.3. Соглашения об обозначениях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Глава 2. Модель линейной регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2. Модель линейной регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3. Предположения модели линейной регрессии. . . . . . . . . . . . . . . . . . . . . . . 19 2.3.1. Линейность модели регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3.2. Полный ранг . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.3.3. Регрессия. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3.4. Сферические шоки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3.5. Процесс порождения данных для регрессоров . . . . . . . . . . . . . . . . . 28 2.3.6. Нормальность. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.7. Независимость . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.4. Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Глава 3. Метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2. Регрессия наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2.1. Вектор коэффициентов метода наименьших квадратов . . . . . . . . 33 3.2.2. Приложение: уравнение инвестиций . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.2.3. Алгебраические свойства оценки наименьших квадратов . . . . . . 37 3.2.4. Проекции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3. Раздельная и частичная регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.4. Частичная регрессия и частные коэффициенты корреляции . . . . . . . . . 42 3.5. Качество приближения и анализ разброса . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.5.1. Скорректированный R-квадрат и меры качества подгонки . . . . . . 50 3.5.2. R-квадрат и константа в модели. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.5.3. Сравнение моделей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.6. Линейные преобразования регрессий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.7. Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Глава 4. Оценки методом наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.2. Почему именно метод наименьших квадратов? . . . . . . . . . . . . . . . . . . . . 61 4.2.1. Условия ортогональности генеральной совокупности . . . . . . . . . . . 61 4.2.2. Предиктор, минимизирующий среднеквадратичную ошибку . . . 62 4.2.3. Линейная несмещенная оценка с минимальной дисперсией . . . . 63 4.3. Свойства метода наименьших квадратов на конечных выборках . . . . . 65 vi Оглавление 4.3.1. Несмещенность оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.3.2. Смещение, вызванное пропущенными значимыми переменными. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.3.3. Включение лишних переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.3.4. Дисперсия оценки наименьших квадратов . . . . . . . . . . . . . . . . . . . . 69 4.3.5. Теорема Гаусса–Маркова . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.3.6. Особенности стохастических регрессоров . . . . . . . . . . . . . . . . . . . . . 71 4.3.7. Оценки дисперсии методом наименьших квадратов . . . . . . . . . . . 72 4.3.8. Предположение о нормальности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.4. Свойства оценок наименьших квадратов на больших выборках . . . . . . 74 4.4.1. Состоятельность оценки наименьших квадратов  коэффициента . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.4.2. Асимптотическая нормальность оценок наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.4.3. Состоятельность s 2 и построение оценки для Аsу. Var[b] . . . . . . . . . 78 b: 4.4.4. Асимптотическое распределение функций от дельта-метод . . 79 4.4.5. Асимптотическая эффективность . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.4.6. Оценка максимального правдоподобия . . . . . . . . . . . . . . . . . . . . . . . 86 4.5. Интервальные оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.5.1. Построение доверительного интервала для коэффициента линейной регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.5.2. Построение доверительных интервалов для больших выборок . . 91 4.5.3. Доверительные интервалы для линейных комбинаций коэффициентов: разложение Охака . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.6. Предсказание и прогнозирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.6.1. Доверительные интервалы для предсказаний. . . . . . . . . . . . . . . . . . 95 4.6.2. Предсказание у, если уравнение регрессии описывает логарифм у . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.6.3. Доверительный интервал для предсказания у в случаях, когда уравнение регрессии описывает логарифм у . . . . . . . . . . . . . . . . . . 97 4.6.4. Прогнозирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 4.7. Проблемы в данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4.7.1. Мультиколлинеарность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.7.2. Предварительное оценивание. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.7.3. Метод главных компонент. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 4.7.4. Пропущенные значения и пополнение данных . . . . . . . . . . . . . . . 110 4.7.5. Ошибки измерения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.7.6. Влиятельные наблюдения и выбросы . . . . . . . . . . . . . . . . . . . . . . . . 116 4.8. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 Глава 5. Тестирование гипотез и выбор спецификации. . . . . . . . . . . . . . . . . . . . . . . 127 5.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 5.2. Методология тестирования гипотез . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 5.2.1. Ограничения и гипотезы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 5.2.2. Вложенные модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 5.2.3. Процедуры тестирования — методология Неймана–Пирсона 130 5.2.4. Размер, мощность и состоятельность теста . . . . . . . . . . . . . . . . . . . 131 5.2.5. Методологическая дилемма: байесовское тестирование против классического . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 5.3. Два подхода к тестированию гипотез. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 5.4. Тест Вальда. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 5.4.1. Тестирование гипотез о коэффициенте . . . . . . . . . . . . . . . . . . . . . . 135 5.4.2. F-статистика и отклонение метода наименьших квадратов . . . . 138 5.5. Тестирование ограничений с использованием показателей качества регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 5.5.1. Оценка наименьших квадратов с ограничениями . . . . . . . . . . . . . 143 5.5.2. Потеря в качестве подгонки оценки наименьших квадратов с ограничениями . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 Оглавление vii 5.5.3. Тестирование значимости регрессии . . . . . . . . . . . . . . . . . . . . . . . . 148 5.5.4. Вывод ограничений и замечание об использовании R 2 . . . . . . . . 149 5.6. Ошибки, не являющиеся нормально распределенными, и асимптотические тесты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 5.7. Тестирование нелинейных ограничений . . . . . . . . . . . . . . . . . . . . . . . . . . 155 5.8. Выбор между невложенными моделями . . . . . . . . . . . . . . . . . . . . . . . . . . 158 5.8.1. Тестирование невложенных гипотез . . . . . . . . . . . . . . . . . . . . . . . . 159 5.8.2. Принцип охвата . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 5.8.3. Полная модель — J-тест . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 5.9. Тестирование спецификации модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 5.10. Построение модели — подход от общего к частному . . . . . . . . . . . . . . 164 5.10.1. Критерии выбора модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 5.10.2. Выбор модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 5.10.3. Классический подход к выбору модели . . . . . . . . . . . . . . . . . . . . . 166 5.10.4. Байесовское усреднение моделей . . . . . . . . . . . . . . . . . . . . . . . . . . 167 5.11. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 Глава 6. Функциональная форма и структурный сдвиг . . . . . . . . . . . . . . . . . . . . . . . 177 6.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 6.2. Использование бинарных переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 6.2.1. Бинарные переменные в регрессии. . . . . . . . . . . . . . . . . . . . . . . . . . 178 6.2.2. Случай нескольких фиктивных переменных . . . . . . . . . . . . . . . . . . 180 6.2.3. Случай нескольких групп. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 6.2.4. Пороговые эффекты и индикаторные переменные . . . . . . . . . . . . 184 6.2.5. Эффекты воздействия и регрессия «разности разностей» . . . . . . 185 6.3. Нелинейность в переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 6.3.1. Кусочно-линейная регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 6.3.2. Функциональные формы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 6.3.3. Эффект взаимодействия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 6.3.4. Выявление нелинейности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 6.3.5. Внутренне линейные модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 6.4. Моделирование и тестирование структурного сдвига . . . . . . . . . . . . . . 200 6.4.1. Различные векторы параметров . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.4.2. Недостаточное число наблюдений. . . . . . . . . . . . . . . . . . . . . . . . . . . 202 6.4.3. Изменение части коэффициентов . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 6.4.4. Тесты на структурное изменение при различных дисперсиях 204 6.4.5. Тестирование стабильности модели при помощи теста на предсказательную силу . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 6.5. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 Глава 7. Нелинейная, полупараметрическая и непараметрическая модели регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 7.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 7.2. Нелинейные регрессионные модели. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 7.2.1. Предположения нелинейной регрессионной модели . . . . . . . . . . 219 7.2.2. Нелинейная оценка наименьших квадратов . . . . . . . . . . . . . . . . . . 221 7.2.3. Асимптотические свойства оценки нелинейным методом наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 7.2.4. Проверка гипотез и ограничения на параметры. . . . . . . . . . . . . . . 226 7.2.5. Примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 7.2.6. Вычисление оценки нелинейным методом наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 7.3. Медианная и квантильная регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 7.3.1. Оценка методом наименьших абсолютных отклонений . . . . . . . . 246 7.3.2. Модели квантильных регрессий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 7.4. Частично линейная регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 7.5. Непараметрическая регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 7.6. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 viii Оглавление Глава 8. Эндогенность и метод инструментальных переменных . . . . . . . . . . . . . . . 264 8.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 8.2. Предположения расширенной модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 8.3. Оценка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 8.3.1. Метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 8.3.2. Оценка методом инструментальных переменных . . . . . . . . . . . . . 272 8.3.3. Причины, приводящие к методу инструментальных переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 8.3.4. Двухшаговый метод наименьших квадратов . . . . . . . . . . . . . . . . . 278 8.4. Два теста на спецификацию модели. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 8.4.1. Тесты Хаусмана и Ву на спецификацию модели . . . . . . . . . . . . . . . . . . 284 8.4.2. Тест на сверхидентифицирующие ограничения . . . . . . . . . . . . . . . . . . 289 8.5. Ошибка измерения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 8.5.1. Недооценка метода наименьших квадратов . . . . . . . . . . . . . . . . . . 291 8.5.2. Оценка методом инструментальных переменных . . . . . . . . . . . . . 294 8.5.3. Прокси-переменные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 8.6. Оценка нелинейным методом инструментальных переменных . . . . . 299 8.7. Слабые инструменты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 8.8. Естественные эксперименты и поиск причинно-следственных связей. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 8.9. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 Глава 9. Обобщенная регрессионная модель и гетероскедастичность . . . . . . . . . . 313 9.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 9.2. Неэффективность оценок методами наименьших квадратов и инструментальных переменных . . . . . . . . . . . . . . . . . . . . . . . . . 315 9.2.1. Свойства МНК в конечных выборках. . . . . . . . . . . . . . . . . . . . . . . . . 315 9.2.2. Асимптотические свойства МНК . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 9.2.3. Устойчивая оценка асимптотической ковариационной матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 9.2.4. Метод инструментальных переменных . . . . . . . . . . . . . . . . . . . . . . 320 9.3. Эффективное оценивание обобщенным методом наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 9.3.1. Обобщенный метод наименьших квадратов (ОМНК, GLS) . . . . . . 322 9.3.2. Доступный обобщенный метод наименьших квадратов (ДОМНК, FGLS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324 9.4. Гетероскедастичность и взвешенный метод наименьших квадратов 326 9.4.1. Обычный метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . . 328 9.4.2. Неэффективность обычного метода наименьших квадратов 328 b 9.4.3. Оцененная ковариационная матрица . . . . . . . . . . . . . . . . . . . . . . 329 9.4.4. Оценка подходящей ковариационной матрицы для метода наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 9.5. Тесты на гетероскедастичность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 9.5.1. Общий тест Уайта . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 9.5.2. LM-тест Бройша–Пэгана/Годфри . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 9.6. Взвешенный метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . 338 9.6.1. Взвешенный метод наименьших квадратов с известной матрицей Ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338 9.6.2. Оценка при условии, что матрица Ω содержит неизвестные параметры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 9.7. Приложения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 9.7.1. Мультипликативная гетероскедастичность . . . . . . . . . . . . . . . . . . . 341 9.7.2. Групповая гетероскедастичность . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 9.8. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347 Глава 10. Системы уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 10.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 10.2. Системы внешне не связанных уравнений . . . . . . . . . . . . . . . . . . . . . . . 356 Оглавление ix 10.2.1. Обобщенный метод наименьших квадратов . . . . . . . . . . . . . . . . . 357 10.2.2. Системы внешне не связанных уравнений с одинаковыми регрессорами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 10.2.3. Допустимый обобщенный метод наименьших квадратов (ДОМНК, FGLS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360 10.2.4. Проверка гипотез . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 10.2.5. Тест на спецификацию для систем внешне не связанных уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 10.2.6. Объединенная модель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 10.3. Обобщенные модели внешне не связанных регрессий. . . . . . . . . . . . . 369 10.4. Нелинейные системы уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370 10.5. Системы уравнений спроса: вырожденные системы . . . . . . . . . . . . . . 374 10.5.1. Функция издержек Кобба-Дугласа . . . . . . . . . . . . . . . . . . . . . . . . . . 375 10.5.2. Гибкие функциональные формы: транслогарифмическая функция издержек. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 10.6. Модели одновременных уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383 10.6.1. Системы уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384 10.6.2. Общие замечания для моделей линейных одновременных уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387 10.6.3. Проблема идентификации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391 10.6.4. Оценка одного уравнения и проверка гипотез . . . . . . . . . . . . . . . 397 10.6.5. Методы оценки систем уравнений . . . . . . . . . . . . . . . . . . . . . . . . . 400 10.6.6. Тестирование при наличии слабых инструментальных переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 10.7. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408 Глава 11. Модели панельных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 11.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 11.2. Модели панельных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418 11.2.1. Общие подходы к моделированию панельных данных . . . . . . . . 420 11.2.2. Структуры модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421 11.2.3. Расширения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422 11.2.4. Сбалансированные и несбалансированные панели . . . . . . . . . . . 423 11.2.5. Доброкачественные панельные данные . . . . . . . . . . . . . . . . . . . . 423 11.3. Объединенная регрессионная модель . . . . . . . . . . . . . . . . . . . . . . . . . . . 424 11.3.1. Оценка объединенной модели методом наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425 11.3.2. Устойчивая оценка ковариационной матрицы . . . . . . . . . . . . . . . 425 11.3.3. Кластеризация и стратификация . . . . . . . . . . . . . . . . . . . . . . . . . . . 428 11.3.4. Устойчивое оценивание с использованием группового среднего значения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430 11.3.5. Оценка в первых разностях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432 11.3.6. Внутри- и межгрупповые оценки. . . . . . . . . . . . . . . . . . . . . . . . . . . 433 11.4. Модель с фиксированными эффектами. . . . . . . . . . . . . . . . . . . . . . . . . . 437 11.4.1. Оценки методом наименьших квадратов . . . . . . . . . . . . . . . . . . . 438 11.4.2. Асимптотики при малых Т . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440 11.4.3. Проверка значимости групповых эффектов . . . . . . . . . . . . . . . . . 441 11.4.4. Фиксированные временные и групповые эффекты . . . . . . . . . . . 441 11.4.5. Постоянные во времени переменные и декомпозиция вектора фиксированных эффектов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 11.5. Случайные эффекты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 11.5.1. Оценка методом наименьших квадратов . . . . . . . . . . . . . . . . . . . . 453 11.5.2. Обобщенный метод наименьших квадратов . . . . . . . . . . . . . . . . . 454 11.5.3. Допустимый обобщенный метод наименьших квадратов  при неизвестной матрице . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 11.5.4. Проверка гипотез для случайных эффектов . . . . . . . . . . . . . . . . . 457 11.5.5. Тест на спецификацию Хаусмана для модели со случайными эффектами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461 x Оглавление 11.5.6. Расширение модели с ненаблюдаемыми эффектами: подход Мундлака . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 11.5.7. Расширение моделей с фиксированными и случайными эффектами: подход Чемберлена. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 11.6. Несферические шоки и устойчивые оценки ковариационной матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 11.6.1. Устойчивые оценки модели с фиксированными эффектами 470 11.6.2. Гетероскедастичность в модели со случайными эффектами 471 11.6.3. Автокорреляция в моделях панельных данных . . . . . . . . . . . . . . 472 11.6.4. Кластерные (и панельные) устойчивые ковариационные матрицы для оценок с фиксированными и случайными эффектами 473 11.7. Пространственная автокорреляция . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 11.8.Эндогенность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481 11.8.1. Оценка инструментальных переменных Хаусмана–Тейлора 481 11.8.2. Состоятельная оценка динамических моделей панельных данных: ГУ-оценка Андерсона–Хсяо . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486 11.8.3. Эффективная оценка динамических моделей панельных данных: метод Ареллано–Бонда . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489 11.8.4. Нестационарные временные ряды и модели панельных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498 11.9. Нелинейная регрессия с панельными данными. . . . . . . . . . . . . . . . . . . 501 11.9.1. Устойчивая ковариационная матрица для нелинейного метода наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501 11.9.2. Фиксированные эффекты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503 11.9.3. Случайные эффекты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505 11.10. Системы уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506 11.11. Неоднородность параметров . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 508 11.11.1. Модель со случайными коэффициентами . . . . . . . . . . . . . . . . . . 508 11.11.2. Иерархическая линейная модель . . . . . . . . . . . . . . . . . . . . . . . . . 511 11.11.3. Неоднородность параметров и динамические модели панельных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514 11.12. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 Глава 12. Подходы к оцениванию в эконометрике . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 12.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 12.2. Параметрические методы оценки и тестирование статистических гипотез . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529 12.2.1. Классический подход к оценке, основанный на функции правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530 12.2.2. Моделирование совместных распределений копула-функциями . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 532 12.3. Полупараметрические методы оценки . . . . . . . . . . . . . . . . . . . . . . . . . . 536 12.3.1. ОММ-оценка в эконометрике . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537 12.3.2. Оценка методом максимального эмпирического правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537 12.3.3. Оценка методом наименьших абсолютных отклонений и квантильная регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 539 12.3.4. Ядерные методы оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 12.3.5. Сравнение параметрического и полупараметрического анализа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541 12.4. Непараметрические методы оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 12.4.1. Ядерная оценка плотности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 12.5. Свойства оценок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547 12.5.1. Статистические свойства оценок . . . . . . . . . . . . . . . . . . . . . . . . . . . 547 12.5.2. Экстремальные оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548 12.5.3. Предположения для асимптотических свойств экстремальных оценок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549 12.5.4. Асимптотические свойства оценок . . . . . . . . . . . . . . . . . . . . . . . . . 552 Оглавление xi 12.5.5. Тестирование гипотез . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553 12.6. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554 Глава 13. Оценка методом наименьшего расстояния и обобщенным методом моментов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556 13.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556 13.2. Состоятельная оценка: метод моментов . . . . . . . . . . . . . . . . . . . . . . . . . 558 13.2.1. Случайные выборки и оценка параметров распределений . . . . 559 13.2.2. Асимптотические свойства оценки метода моментов. . . . . . . . . 563 13.2.3. Заключение — метод моментов . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566 13.3. Оценка методом наименьшего расстояния. . . . . . . . . . . . . . . . . . . . . . . 566 13.4. Оценка обобщенным методом моментов (GMM). . . . . . . . . . . . . . . . . . 572 13.4.1. Оценивание на основе условий ортогональности . . . . . . . . . . . . 572 13.4.2. Обобщение метода моментов. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574 13.4.3. Свойства GMM-оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579 13.5. Тестирование гипотез в контексте GMM . . . . . . . . . . . . . . . . . . . . . . . . . 584 13.5.1. Тестирование обоснованности моментных ограничений. . . . . . 585 13.5.2. GMM-аналоги для тестов Вальда, множителей Лагранжа и отношения правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586 13.6. GMM-оценка эконометрических моделей . . . . . . . . . . . . . . . . . . . . . . . . 588 13.6.1. Линейные модели для одного уравнения . . . . . . . . . . . . . . . . . . . . 589 13.6.2. Нелинейные модели регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595 13.6.3. Системы внешне не связанных уравнений . . . . . . . . . . . . . . . . . . 599 13.6.4. Модели одновременных уравнений с гетероскедастичностью . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 600 13.6.5. GMM-оценка динамических моделей панельных данных . . . . . 604 13.7. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616 Глава 14. Метод максимального правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 620 14.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 620 14.2. Функция правдоподобия и идентификация параметров . . . . . . . . . . 620 14.3. Эффективное оценивание: принцип максимального правдоподобия. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623 14.4. Свойства оценок максимального правдоподобия . . . . . . . . . . . . . . . . . 625 14.4.1. Условия регулярности. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627 14.4.2. Свойства регулярных распределений . . . . . . . . . . . . . . . . . . . . . . . 627 14.4.3. Уравнение правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 629 14.4.4. Информационное равенство. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 630 14.4.5. Асимптотические свойства оценки методом максимального правдоподобия. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 630 14.4.6. Оценка асимптотической дисперсии оценки методом максимального правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635 14.5. Условные функции правдоподобия, эконометрические модели и GMM-оценка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637 14.6. Тестирование гипотез и спецификации модели и показатели качества подгонки модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639 14.6.1. Критерий отношения правдоподобия. . . . . . . . . . . . . . . . . . . . . . . 641 14.6.2. Критерий Вальда . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643 14.6.3. Критерий множителей Лагранжа . . . . . . . . . . . . . . . . . . . . . . . . . . . 645 14.6.4. Применение критериев, основанных на правдоподобии . . . . . . 647 14.6.5. Сравнение моделей и вычисление качества подгонки модели 649 14.6.6. Тест Вуонга и информационный критерий Кульбака–Лейблера 651 14.7. Двухшаговая оценка методом максимального правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653 14.8. Оценка методом квазимаксимального правдоподобия и устойчивые асимптотические ковариационные матрицы . . . . . . . . . . . . 661 14.8.1. Максимальное правдоподобие и GMM-оценки. . . . . . . . . . . . . . . 661 14.8.2. Максимальное правдоподобие и M-оценки. . . . . . . . . . . . . . . . . . 662 xii Оглавление 14.8.3. «Сэндвич»-оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664 14.8.4. Кластерные оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665 14.9. Модели, оцениваемые методом максимального правдоподобия 668 14.9.1. Нормальная модель линейной регрессии . . . . . . . . . . . . . . . . . . . . 669 14.9.2. Обобщенная регрессионная модель . . . . . . . . . . . . . . . . . . . . . . . . 673 14.9.3. Модель внешне не связанных регрессий . . . . . . . . . . . . . . . . . . . . 683 14.9.4. Модели одновременных уравнений . . . . . . . . . . . . . . . . . . . . . . . . 691 14.9.5. Оценка моделей нелинейной регрессии методом максимального правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 692 14.9.6. Модели панельных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700 14.10. Модели скрытых классов и модели смеси распределений с конечным числом значений параметра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719 14.10.1. Модель смеси распределений . . . . . . . . . . . . . . . . . . . . . . . . . . . . 720 14.10.2. Измеренная и неизмеренная гетерогенность . . . . . . . . . . . . . . . 722 14.10.3. Предсказание принадлежности к классу . . . . . . . . . . . . . . . . . . . 723 14.10.4. Условная модель скрытого класса . . . . . . . . . . . . . . . . . . . . . . . . . 724 14.10.5. Определение числа классов. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727 14.10.6. Модель панельных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727 14.11. Заключение и выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 732 Предисловие к русскому изданию Я рад представить вашему вниманию русский перевод 7-го издания учеб - ника «Эконометрический анализ». В октябре 2015 г. ресурс Google Scholar опубликовал список 100 работ из всех областей знания, которые наиболее широко цитируются. «Эконометрический анализ» с почти 50 000 цитирований занял в нем 34-е место. Специалисты различных научных направлений (экономисты, социологи, политологи, инженеры, биостатистики и т.д.) используют эту книгу в своих исследованиях. Такое широкое признание и популярность во многих странах очень приятны. Учебник уже переведен на французский, испанский, японский, китайский и турецкий языки. Я надеюсь, что российские читатели найдут его полезным для своей работы, что он поможет студентам узнать больше об эконометрических методах и научиться лучше применять их к моделированию различных экономических ситуаций. Как учебник, «Эконометрический анализ» включает все основные разделы эконометрического анализа. Я уверен, что студенты смогут найти те разделы и подходы, которые наиболее полезны и интересны им. Многие исследовательские центры в России используют эконометрику в своей работе. Они успешно применяют эконометрические методы в экономических исследованиях, а также в экономико-политическом консалтинге. Среди этих центров можно отметить Институт прикладных экономических исследований РАНХиГС, Институт экономической политики им. Е.Т. Гайдара, Центр экономических и финансовых исследований и разработок, НИУ «Высшая школа экономики» и многие другие. Я надеюсь, что «Эконометрический анализ» окажется полезным для всех исследователей в их будущей научной работе и внесет вклад в формирование новых идей и научных разработок. Я хотел бы выразить признательность Издательскому дому «Дело» и всем тем, кто готовил книгу к публикации: всем переводчикам (Сергею Синельникову, Юлии Набатовой, Владимиру Громову, Александру Ходыреву, Булату Гафарову, Елене Синельниковой, Александру Степанову, Юрию Пономарёву, Александре Божечковой); научным редакторам Сергею Синельникову и Марине Турунцевой; редактору Фаине Морозовой и верстальщице Надежде Кильдишевой. (Мы хотим поблагодарить всех за помощь в исправлении некоторых опечаток, которые присутствуют в английском издании и исправлены здесь.) В течение нескольких последних лет Издательский дом «Дело» очень активно занимается переводом и изданием учебников по экономике и эконометрике. Я очень рад, что «Эконометрический анализ» стал одним из них. Я надеюсь, что он вместе с другими переводными учебниками по эконометрике восполнит нехватку русскоязычных учебников по эконометрике и поможет российским студентам и исследователям более глубоко изучить эконометрические методы. Уильям Грин Нью-Йорк Февраль 2016 Предисловие Эконометрический анализ Учебник «Эконометрический анализ» представляет собой всеобъемлющее введение в область эконометрики. Эта область постоянно расширяется, об этом свидетельствует список журналов, посвященных если не полноThe Journal of Applied стью, то по по крайней мере частично эконометрике: Econometrics, The Journal of Econometrics, The Econometrics Journal, Econometric Theory, Econometric Reviews, Journal of Business and Economic Statistics, Empirical Economics, Foundations and Trends in Econometrics, The Review of Economics and Statistics Econometrica. и Построение учебника таким образом, чтобы изложить эконометрику на магистерском уровне, становится все более амбициозной задачей. Тем не менее я верю в то, что можно успешно решить эту задачу в рамках одного учебника. В данном учебнике я попытался представить на начальном уровне достаточное число разделов эконометрики, чтобы студент мог свободно перейти от изучения эконометрики к практике или к более углубленному изучению каких-либо ее областей. Помимо этого учебник может служить в некотором смысле мостом между введением в область эконометрики и профессиональной литературой для студентов и аналитиков, изучающих социальные науки. Новое в этом издании Настоящее седьмое издание представляет серьезный пересмотр более ранних изданий «Эконометрического анализа». Среди наиболее очевидных изменений можно выделить: • переструктуризацию материала первых глав книги, обычно изучаемых в течение первого семестра, включая следующие: – разделы, касающиеся тестирования гипотез и проверки спецификации модели, представлены в одной главе; – новые результаты по прогнозированию; – большее внимание методу инструментальных переменных и проблеме эндогенности; – дополнительные результаты, касающиеся базовой модели панельных данных; • новые, более подробные приложения и примеры; • большее внимание конкретным областям применения там, где рассматриваются более продвинутые разделы эконометрики; • новые разделы, касающиеся методов, основанных на имитационном моделировании данных, особенно бутстрэпа (самонастройки) и метода Монте- Карло; • некоторые примеры, объясняющие эффект взаимодействия; Предисловие xv • специальные приложения, в том числе квантильная регрессия; • новые приложения в моделировании дискретного выбора; • новый материал по проблеме эндогенности и ее последствий для структуры модели. Седьмое издание «Эконометрического анализа» У книги две цели. Первая — познакомить студентов с прикладной эконометрикой, в том числе с основными методами оценки модели линейной регрессии и некоторыми моделями, которые используются в ситуации, когда модель линейной регрессии оказывается недостаточной или неподходящей. Современное программное обеспечение существенно облегчило сложный процесс моделирования, но понимание основ теории также очень важно. Вторая цель состоит в том, чтобы дать студентам возможность получить хорошую теоретическую подготовку, чтобы они могли узнать уже изученные здесь модели в новых вариантах и воспринимали эти новые варианты как естественные, вписывающиеся в общие принципы расширения уже известных методов. Эта книга содержит очень много теоретических материалов, таких как GMM, оценка максимального правдоподобия и асимптотические результаты регрессионных моделей. Учебник предназначен для первого курса магистратуры по социальным наукам. Предшествующие, уже изученные курсы должны включать математический анализ, математическую статистику и введение в эконометрику на уровне, соответствующем, скажем, учебникам Гуджарати (Gujarati, 2002) «Basic Econometrics», Стока и Уотсона (Stock, Watson, 2006; 2015) «Introduction to Econometrics», Кеннеди (Kennedy, 2008) «Guide to Econometrics» или Вулдриджа (Wooldridge, 2009) «Introductory Econometrics: A Modern Approach». Я предполагаю, например, что читатель уже знаком с основами методологии эконометрического анализа, в том числе с фундаментальной ролью экономических и статистических предположений, различиями межобъектных данных, временных рядов и панельных данных, с основными этапами оценки моделей, проверки гипотез, статистических выводов и прогнозирования в модели множественной линейной регрессии. Самодостаточные (для наших целей) разделы по матричной алгебре, математической статистике и статистической теории, используемые в книге, можно найти в приложениях A – D. Я использую матричную алгебру на протяжении всей книги. Это может вызвать сложности у некоторых читателей при знакомстве с книгой, но матричная алгебра является незаменимым для наших целей инструментом, и я надеюсь, что читатель согласится, что это лишь средство для достижения этих целей, а не самоцель. Использование матриц позволяет представлять многочисленные результаты в едином виде без знака суммирования. Вся необходимая теория, касающаяся матричной алгебры, представлена в приложении А. Приложение Е и глава 15 содержат описание численных методов, которые будут полезны для практикующих эконометристов (и для нас в последних главах книги). Современные компьютерные программы сделали оценивание более сложных нелинейных моделей такой же рутиной, как оценивание методом наименьших квадратов. Я включил пять глав о методах оценки, используемых в современных исследованиях, и пять глав о приложениях в микрои макроэконометрике. Нелинейные модели, применяемые в этих областях, xviii Предисловие торым было уделено больше внимания, включают эффекты в экспериментах, бутстрэп (самонастройку), оценки, основанные на имитационном моделировании, устойчивые методы оценки, пропущенные и ошибочные данные и различные новые методы анализа дискретного выбора в микроэконометрике. Я также добавил или расширил материал, касающийся методов, интерес к которым возник не так давно, таких как квантильная регрессия и модели стохастической границы. Отмечу несколько конкретных изменений и обновлений: говоря общими словами, я немного усилил акцент на устойчивых (робастных) методах оценки. Обсуждение тестов на спецификацию модели появляется в нескольких местах в соответствии с присутствующей в литературе тенденцией изучать более внимательно слабости сильно параметризованных моделей. Вот некоторые новые приложения: • Глава 15 по оценке на основе имитационного моделирования была значительно расширена. В настоящее время она включает намного больше материала об использовании бутстрэпа при расчете стандартных ошибок и доверительных интервалов. Подход Крински и Робб (Krinsky, Robb, 1986) для асимптотических статистических выводов также присутствует в ней. • Большое внимание уделено недавним работам о понимании эффектов взаимодействия в нелинейных моделях. В главе 7 можно найти приложение модели с эффектами взаимодействия в нелинейной (экспоненциальной) модели регрессии. Этот вопрос вновь обсуждается в главе 17. • В качестве упражнения, которое будет вызовом для студентов при изучении теории асимптотических распределений, я добавил детальное доказательство результата Мерфи и Топеля (Murphy, Topel, 2002) для двухшаговой оценки в главе 14. • Обсуждение источников и влияния эндогенности появляется в различных местах, например, приложение оценки с весами, обратно пропорциональными вероятности при истощении выборки, встречается в главе 17. Седьмое издание является серьезным пересмотром «Эконометрического анализа» с точки зрения и изложения материала, и появления новых идей и трактовок. Я надеюсь, что читатели найдут изменения полезными. обеспечение и базы данных Существует много компьютерных программ, которые широко используются для расчетов, описанных в этой книге. Все они были написаны эконометристами или статистиками и в общем регулярно обновляются, включая новые методы в области прикладной эконометрики. Ниже представлена выборка из наиболее широко используемых пакетов и их домашних страниц, на которых вы можете найти информацию о них: EViews www.eviews.com (QMS, Irvine, CA); Gauss www.aptech.com (Aptech Systems, Kent, WA); LIMDEP www.limdep.com (Econometric Software, Plainview, NY); MATLAB www.mathworks.com (Mathworks, Natick, MA); NLOGIT www.nlogit.com (Econometric Software, Plainview, NY); R www.r-project.org/ (The R Project for Statistical Computing); RATS www.estima.com (Estima, Evanston, IL); Предисловие xix SAS www.sas.com (SAS, Cary, NC); Shazam econometrics.com (Northwest Econometrics Ltd., Gibsons, Canada); Stata www.stata.com (Stata, College Station, TX); TSP www.tspintl.com (TSP International, Stanford, CA). Более полный список программных пакетов, используемых для эконометрического анализа, можно найти на веб-сайте ресурсов http://www. oswego.edu/economic/econsoftware.htm. За небольшим исключением расчеты, описанные в этой книге, могут быть осуществлены в любом из перечисленных пакетов. Я использовал NLOGIT для вычислений в примерах. В учебнике нет инструкции по использованию какого-либо конкретного программного пакета или языка программирования. (На веб-сайте автора учебника приведены некоторые коды и данные для повторения численных примеров.) Многие авторы давали коды, написанные в RATS, LIMDEP/NLOGIT, EViews, SAS или Stata, для некоторых наших примеров, в том числе документацию для своих компьютерных программ. Сейчас существует немало томов, посвященных решению конкретных эконометрических задач в конкретных пакетах, например приложение к книге Кэмерона и Триведи (Cameron, Trivedi, 2009) по микроэконометрике. Базы данных, используемые в примерах, также доступны на веб-сайте учебника http://pages.stern. nyu.edu/wgreene/Text/econometricanalysis.htm. В учебнике эти базы данных называются «Таблица Fn.m», например таблица F4.1. «F» относится к приложению F в конце текста, которое содержит описание данных. Фактические данные размещены в общем ASCII и конвертируемых форматах на веб- сайте вместе с другими дополнительными материалами учебника. В настоящее время есть тысячи интересных веб-сайтов, содержащих программное обеспечение, данные, исследования и комментарии по эконометрике. Было бы безнадежно пытаться привести все это здесь. Один из сайтов с кодами/данными, который особенно хорошо структурирован и направлен на читателей этого учебника, — это архив данных Journal of Applied Econometrics. В нем архивируются все неконфиденциальные базы данных, используемые в публикациях журнала с 1988 г. (с некоторыми пробелами до 1995 г.). Этот полезный сайт можно найти по адресу: http://qed.econ.queensu.ca/jae/. В нескольких примерах в тексте использовались базы данных JAE. Когда мы делали это, то отправляли читателя к веб-сайту JAE, а также воспроизводили результаты сами. Остальные журналы стали просить своих авторов предоставлять коды и данные, чтобы стимулировать исследователей воспроизводить уже полученные результаты. Другим хорошим и легким с точки зрения навигации сайтом с агрегированными данными по экономике США является www.economagic.com. Благодарности Мне приятно выразить свою признательность тем, кто повлиял на эту работу. Я по-прежнему благодарен покойным Артуру Голдбергеру и Арнольду Зелнеру, а также Деннису Айгнеру, Биллу Беккеру и Лоритсу Кристенсену за их поддержку и помощь. После семи изданий этой книги число людей, которые значительно улучшили ее своими комментариями, критикой и поддержкой, стало слишком большим, чтобы поблагодарить каждого из них в отдельности. Я благодарен за помощь и надеюсь, что все они увидят свой вклад в это издание. Я хотел бы отметить всех рецензентов моей рабо- 2 Глава 1. Эконометрика методом их описания будет только объединение всех трех подходов. Это объединение и составляет эконометрику. Создание Эконометрического общества было реакцией на беспрецедентный рост темпов накопления статистической информации. Стала ясна необходимость установления базовых принципов, с помощью которых можно было бы как-то упорядочить эту массу данных. Ни ключевые подходы, ни основные цели не изменились с момента публикации приведенной выше цитаты. Эконометристы связывают свою деятельность с применением методов математической статистики и различных инструментов статистических выводов к практическому измерению величин и соотношений, которые постулируются экономической теорией. Важнейшая роль эконометрических методов в экономике со временем только усиливалась. Нобелевскую премию по экономике многократно вручали эконометристам: впервые ее получил Рагнар Фриш [Ragnar Frisch] (автор приведенной выше цитаты) в 1969 г., а позже Лоуренс Клейн [Lawrence Klein] в 1980 г., Трюгве Ховельмо [Trygve Haavelmo] в 1989 г., Джеймс Хекман [James Heckman] и Дэниел Макфадден [Daniel McFadden] в 2000 г., а также Роберт Энгл [Robert Engle] и Клайв Грейнджер [Clive Granger] в 2003 г. Премия 2000 г. выделялась тем, что отмечала работу двух ученых, соединивших теорию, лежащую в основе поведенческой экономики, с эконометрическим моделированием. Пример 1.1. Модели поведенческой экономики и нобелевские лауреаты Теоретическим фундаментом новаторских работ Джеймса Хекмана (James Heckman) и Дэна МакФаддена (Dan McFadden) была теория максимизации полезности. Работа Хекмана начинается со стандартной модели домохозяйства, максимизирующего полезность путем балансирования потребления и досуга. Обычная модель базового учебника определяет спрос на досуг, который затем превращается в функцию предложения на рынке труда. Если домашнее производство (работа, выполняемая внутри домохозяйства без выхода на внешний формальный рынок труда) учитывается в модели, то число желаемых «часов» досуга может оказаться отрицательным. Определяющей переменной служит «резервная» заработная плата — уровень заработной платы, при котором у членов домохозяйства возникает желание участвовать в формальном рынке труда. Со стороны спроса на рынке труда фирмы предлагают рыночный уровень заработной платы, зависящий от таких параметров, как возраст работника, уровень его образования и опыт. Что можно сказать о поведении на рынке предложения труда, основываясь на наблюдаемых рыночных зарплатах, перечисленных переменных и наблюдаемых отработанных часах на формальном рынке труда? Меньше, чем могло бы показаться на первый взгляд: интуитивно ясно, что наши наблюдения упускают половину рынка, поскольку данные об активности на формальном рынке труда не являются случайными для всего населения. Наблюдения Хекмана относительно этого неявного урезания выборки зарплат и часов работы перевернули всю область исследования рынков 1.2. Парадигма эконометрики 3 труда. Интерпретации подобных наблюдений в других социальных науках также стали важными направляющими исследований. Методы изучения влияния различных мер, как, например, инициатив в области образования, обучения, борьбы с безработицей, медицинского страхования, создания рынков, финансового регулирования и многих других, теперь в значительной степени основываются на новаторских идеях Хекмана о том, что если факт участия служит частью изучаемого явления, то исследователь должен изучать эффект влияния различных факторов как на само участие, так и на его исход. Мы рассмотрим литературу о проблемах, возникающих из-за отбора наблюдений, и о влиянии различных программ и воздействий в главе 18. Описания теорий спроса на товары, создающего полезность, приводимые в учебниках, будучи основаны на непрерывных переменных, обычно ничего не говорят о дискретных решениях, которые ежедневно принимают экономические агенты: какую выбрать марку товара, покупать ли какой-то дорогой товар вроде холодильника или автомобиля, как добираться до работы, покупать или снимать жилье, где жить, за какого кандидата голосовать и т.д. Однако модель «случайной полезности», определенной на тех вариантах, между которыми моделируется выбор потребителя, дает прочную теоретическую базу для исследования. В число важных переменных, как обычно, входят доход и относительные цены товаров. Что мы можем узнать о структуре предпочтений потребителей из сделанного ими выбора? Какие предположения необходимо сделать в отношении этих предпочтений, чтобы иметь возможность делать статистические выводы? Какого вида статистические модели могут позволить нам строить выводы о предпочтениях потребителей? Работа МакФаддена о том, как люди выбирают способ, которым будут добираться до работы, и о том, какая теоретическая база лежит в основе подобного моделирования, направляла эмпирические исследования дискретного выбора потребителей в течение нескольких десятилетий. Модели дискретного выбора МакФаддена будут рассмотрены нами в главе 18. Связь между поведенческими моделями и современной эконометрической практикой становится все более сильной. Можно провести полезное микроэконометрикой макроэконометрикой. разделение между и Первая обычно изучает межобъектные либо панельные данные, касающиеся отдельных потребителей, фирм и других агентов на микроуровне. Исследователи активно используют теоретический инструментарий микроэкономики, включая теории максимизации полезности, максимизации прибыли и рыночного равновесия. Исследования направлены на тонкие и сложные вопросы, часто требующие нетривиальных формулировок. Вот некоторые приложения: Каково возможное влияние на предложение на рынке труда отрицательных подоходных налогов? [Ashenfelter and Heckman (1974).] • Влияет ли учеба в элитном колледже на ожидаемое увеличение будущего пожизненного дохода, достаточного для оправдания более высоких затрат на обучение? [Kreuger and Dale (1999) and Kreuger (2000).] 4 Глава 1. Эконометрика • Дает ли какие-либо положительные результаты создание добровольной программы обучения? Могут ли эти результаты быть точно измерены? [Angrist (2001).] • Повышает ли успеваемость уменьшение числа учеников в классе? [Hanuschek (1999), Hoxby (2000), Angrist and Lavy (1999).] • Побуждает ли наличие медицинской страховки людей к тому, чтобы они чаще обращались к врачу: возможно ли измерить риск недобросовестного поведения? [Riphahn et al. (2003).] Макроэконометристы исследуют в основном данные временных рядов, причем, как правило, описывающих агрегированные данные, такие как уровень цен, предложение денег, обменные курсы, объем производства, уровень инвестиций, экономический рост и т.д. Граница между микро- и макроэконометрикой не является строгой. Так, например, ниже будет рассматриваться лежащее где-то между этими категориями приложение, описывающее траты муниципальных объединений. Значительная часть финансовой эконометрики изучает длинные временные ряды (а иногда очень большие панели), но при этом фокусируется на моделях, объясняющих поведение отдельных индивидов. Анализ рыночных уровней доходности или поведения обменных курсов не является частью исключительно микро- или макроэконометрики. (В этой книге финансовая эконометрика рассматриваться не будет. Читателям, интересующимся этой областью, мы можем порекомендовать известную книгу Campbell, Lo, and Mackinlay (1997) или Tsay (2005), где больше внимания уделяется анализу временных рядов.) Исследователи, занимающиеся построением макроэкономических моделей, обычно опираются на взаимодействие экономических агентов с властями, определяющими экономическую политику, например, по вопросам: • Приводит ли к снижению реального выпуска в экономике США монетарная политика, сильно ориентированная на контроль над инфляцией? [Cecchetti and Rich (2001).] • Привело ли сокращение федеральных налогов в США в 2001 г. (самое сильное в истории) к усилению или ослаблению тогдашней экономической рецессии? Или оно вообще не повлияло на ее ход? Изучение любого из этих вопросов будет начинаться с рассмотрения формальной модели процесса, порождающего наблюдаемые данные. 1.3. Практическая эконометрика Еще одну границу можно провести между теоретической и прикладной эконометрикой. Теоретики разрабатывают новые техники построения оценок и проверки гипотез, а также изучают возможные последствия применения тех или иных методов в ситуациях, когда предположения, используемые этими методами, не выполняются для имеющихся данных. Прикладные эконометристы пользуются этими методами и анализируют данные («реальные» и придуманные). Граница опять не является четкой: практики 1.4. Эконометрическое моделирование 5 часто создают новые методы специально для той проблемы, которой занимаются. Данная книга содержит много эконометрической теории, но направлена в сторону прикладной эконометрики. Мы пытались сделать обзор общеупотребительных методов, иногда довольно сложных, которые активно используются в реальных исследованиях. Прикладные эконометрические методы используются для оценки важных величин, анализа результатов изменения экономической политики, изучения рынков и экономического поведения индивидов, проверки гипотез и прогнозирования. Последнее представляет собой отдельную науку или даже искусство и служит темой для широкого класса исследований. В этой книге мы рассмотрим некоторые вопросы прогнозирования, но в основном будем заниматься оценкой и анализом моделей. В тех случаях, когда такое разделение имеет смысл, будем стараться демонстрировать и микро-, и макроэконометрические методы и приложения. Также следует выделить анализ временных рядов (не являющийся основной темой этой книги) и те методы, которые в основном используют данные временных рядов. Анализ временных рядов, как и прогнозирование, является самостоятельной быстроразвивающейся дисциплиной, которой посвящен большой объем литературы в различных областях. Хотя мы и будем использовать некоторые методы анализа временных рядов, но не будем уделять слишком большого внимания обоснованию этих методов. 1.4. Эконометрическое моделирование Эконометрический анализ обычно начинается с формулировки теоретического утверждения. Возьмем, например, классическую модель одного из современников Фриша. Пример 1.2. Кейнсианская функция потребления General Theory of Employment, Interest Процитируем работу Кейнса (1936) and Money : Мы будем называть склонностью к потреблению функциональную зависимость f между уровнем дохода X и расходами на потребление при этом уровне дохода, т.е. Сумма, C C = f (X). которую общество затрачивает на потребление, зависит (i) частично от уровня дохода, (ii) частично от других наблюдаемых условий окружающего мира и (iii) частично от субъективных потребностей, психологических особенностей и привычек индивидов, из которых состоит это общество. Базовый психологический закон, на который мы можем полагаться с полной уверенностью как априорно исходя из наших знаний о человеческой природе, так и из опыта, состоит в том, что люди, как правило, увеличивают потребление при росте дохода, но не на всю величину роста дохода. Значит... dC/dX положительна и меньше единицы. 6 Глава 1. Эконометрика Однако ясно, что помимо кратких периодов быстрого изменения дохода более высокий абсолютный уровень доходов будет, как правило, увеличивать разницу между доходом и потреблением.. . . По этим причинам доля дохода, сохраняемая в виде сбережений, будет, скорее всего, увеличиваться при росте реального дохода. Следовательно, теория предполагает наличие зависимости между потреблением и доходом: а во втором абзаце утверждает, C = f (X), что предельная склонность к потреблению (MPC, marginal propensity to 1 consume), находится между нулем и единицей . Последний абзац dC/dX, содержит утверждение о том, что средняя склонность к потреблению (APC, average propensity to consume), убывает при росте дохода, т.е. C/X, − Следовательно, Наиболее d(C/X)/dX = (MPC APC )/X < 0. MPC < APC. часто в качестве функции потребления используют линейную функцию C = α + Xβ, которая удовлетворяет «законам» Кейнса при значениях β между нулем и единицей и значениях больших нуля. α, Рис. 1.1. Агрегированное потребление и доходы в США, 2000–2009 гг. Эти теоретические предположения являются базой эконометрического исследования. При наличии подходящих данных мы могли бы изучить, соответствует ли эта теория наблюдаемым «фактам». Например, можно было бы проверить, будет ли линейная функция удовлетворительным описанием зависимости между потреблением и реальным доходом и, если это так, является ли величина положительной и лежит ли между α β нулем и единицей. Можно также исследовать, (1) является ли зависимость неизменной во времени или изменяется от одного поколения к следующему (изменение средней склонности к сбережению, равной 1−APC, может свидетельствовать о существенном изменении экономического поведения потребителей); (2) существуют ли систематические различия в поведении потребителей в различных странах и, если это так, чем они 1.4. Эконометрическое моделирование 7 могут объясняться; (3) существуют ли другие факторы, включение которых могло бы улучшить способность модели объяснять связь между уровнями потребления и дохода. Например, на рис. 1.1 показаны агрегированные данные об уровне личного потребления и о личных доходах в постоянных ценах в США за десятилетие 2000–2009 гг. (см. табл. F1.1 в приложении.) Кажется, по крайней мере на первый взгляд, что имеющиеся фактические данные укладываются в теорию. Зависимость, хоть и приблизительно, похожа на линейную, точка пересечения прямой, лучше всего приближающей данные, с осью абсцисс положительна, а наклон меньше единицы, хоть и ненамного. (Впрочем, если оценивать линейную регрессию методом наименьших квадратов, то свободный член окажется отрицательным, а не положительным.) Экономические теории, подобные описанной выше кейнсианской теории, обычно точны и конкретны. Модели спроса, производства, предложения на рынке труда, потребительского выбора, результатов повышения уровня образования, дохода и заработной платы, инвестиций, рыночного равдетерми- и агрегированного уровня потребления задают точные, нированные соотношения. Определяются зависимые и независимые переменные и вид связывающей их функции, а также, как правило, даются качественные предсказания относительно направления влияния, происходящего при изменении независимых переменных. Модель представляет собой упрощение действительности. Модель будет описывать наиболее заметные аспекты рассматриваемого соотношения, но может упускать имеющие место влияния, которые исследователь счел маловажными. Корреляции между экономическими переменными можно легко обнаружить с помощью описательных статистик и методов, подобных линейной регрессии. Конечной целью большинства эконометрических моделей служит обнаружение более глубоких и сложных причинно-следственных связей с помощью структурных поведенческих моделей. Такой, например, является модель поведения «репрезентативного потребителя», предложенная Кейнсом для объяснения поведения макроэкономических переменных, таких как доход и уровень потребления. Построенная Хекманом модель предложения на рынке труда (см. пример 1.1) также определяется в терминах поведения отдельного индивида. В работе Berry, Levinsohn and Pakes (1995) авторы строят модель равновесного ценообразования на автомобильном рынке схожим образом. Ни одна модель не может претендовать на то, чтобы охватить все случайные аспекты экономической действительности. Значит, необходимо включать в модели случайные компоненты. Как следствие наблюдаемые значения переменной будут отличаться не только из-за разных значений факторов, напрямую включенных в модель, но и из-за случайности, содержащейся в поведении людей, и из-за влияния массы факторов, не включенных в модель. Введение в детерминированную модель случайного «возмущения» 1 Современные экономисты, как правило, не настолько уверены в своих теориях. Современные приложения обычно исходят из базовых принципов и аксиом поведенческой теории, а не из простых наблюдений. 8 Глава 1. Эконометрика необходимо не только для того, чтобы скрыть неадекватность модели, но и для того, чтобы при последующем анализе убедиться, что этот случайный необъясненный фактор действительно не поддается объяснению. Если это не так, то модель и в самом деле является неадекватной. [В примере, приведенном выше, оценка свободного члена в линейной регрессии методом наименьших квадратов оказывается отрицательной. Вызвано ли это неадекватностью теории или случайными флуктуациями данных? Возможно также, что теория в целом верна, но между 1936 г., когда Кейнс ее формулировал, и периодом 2000–2009 гг., когда собирали данные, произошли какие-то изменения. Также возможно, что метод наименьших квадратов не подходит для оценки этой модели и плохой результат (отрицательный свободный член) вызван именно этим.] Случайный элемент придает модели статистические свойства. Мы считаем, что наблюдаемые значения исследуемых переменных получены как выборка из некоторого случайного процесса. При наличии достаточно определенной стохастической структуры и подходящего набора данных анализ сводится к выводу свойств распределения вероятностей. Для этого в нашем распоряжении имеется инструментарий математической статистики. Любой модели (или теории) нельзя доверять целиком и полностью, если она не включает абсолютно все возможности. Но любую модель можно подвергнуть внимательному изучению и, если обнаружатся противоречия, отвергнуть. Детерминированная теория может быть разрушена одним противоречащим наблюдением. Дополнение модели случайными элементами превращает ее из точного утверждения в вероятностное описание ожидаемых исходов, откуда следует важный вывод. Теперь модель может быть опровергнута только при накоплении некоторой «критической массы» наблюдений, не укладывающихся в теорию. Какой именно должна быть «критическая масса» — вопрос, ответ на который субъективен. Таким образом, вероятностные модели, с одной стороны, менее точны, но с другой — более 2 устойчивы . Эконометрические методы используются в разных областях: в политике, социологии [см., напр., Long (1997) или DeMaris (2004)], экономике здравоохранения, медицинских исследованиях (что делать с людьми, отказавшимися от лечения до завершения испытания?), экономике окружающей среды, экономической географии, транспортном строительстве и многих других. Методы, описанные в этой книге, широко используются во всех этих областях. Процесс эконометрического анализа начинается с формулировки какой- либо теоретической зависимости. Вначале мы будем оптимистично считать, что нам доступны точные измерения всех переменных верно сформулированной модели. Если на всех этапах выполнены эти идеальные условия, то анализ можно провести без всяких осложнений. К сожалению, так бывает редко. Среди прочих трудностей нам могут встретиться такие: • Данные могут быть измерены с ошибками или соответствовать переменным теоретической модели лишь приблизительно. Так бывает, напри2 См. работу Keuzenkamp, Magnus (1995), в которой приводится подробное обсуждение проверки гипотез в эконометрике. 1.5. План книги 9 мер, при работе с «процентными ставками». • Некоторые переменные могут быть вообще ненаблюдаемы. К ним относятся, например, «ожидания». • Теория может давать лишь общие черты верной модели или не давать даже этого; в этом случае мы будем вынуждены выбирать из длинного списка возможных моделей. • Предполагаемые стохастические свойства случайных членов в модели могут явным образом нарушаться, что ставит под сомнение применяемые методы оценивания и статистические выводы. • Некоторые важные переменные могут отсутствовать в модели. • Условия сбора данных были такими, что полученная выборка систематически неверно представляет репрезентативную выборку из той группы (генеральной совокупности), которая представляет интерес в исследовании. этапы эконометрического анализа состоят в борьбе с этими проблемами и попытках понять, какая же информация содержится в несовершенной выборке. При этом используются методы математической статистики и экономической теории. Результатом этого процесса является эконометрическая модель. 1.5. План книги Эконометрика — большая и продолжающая увеличиваться область знаний. И довольно сложно написать курс для начинающих ее изучение. Цель этой книги — сначала выработать некоторый инструментарий, а потом научиться применять его в приложениях. Мы рассмотрим широкий, но не всеобъемлющий набор приложений; большинство читателей наверняка столкнется с некоторыми из них на практике. Мы будем пытаться приводить достаточно общие результаты, чтобы читатели могли применять разобранные здесь методы в других ситуациях и приложениях. Один из вариантов состоит в том, чтобы сгруппировать области изучения по данным, к которым обычно применяются рассматриваемые методы: межобъектные данные (кросс-секционные данные, перекрестные выборки), панельные данные, дискретные данные или данные временных рядов. Так3 можно было бы сразу разделить микро- и макроэконометрику . Однако в каждой из этих областей необходим некоторый общий инструментарий: модель множественной регрессии, использование моментных условий при 3 Методы микроэконометрики очень хорошо и на несколько более продвинутом уровне, чем в этой книге, изложены в работе Cameron, Trivedi (2005). Пока, насколько нам известно, нет всеобъемлющего пособия по макроэконометрике, включающего и теорию, и приложения. Из более специальных работ можно привести книгу Bardsen, G., Eitrheim, ., Jansen, E., and Nymoen, R. «The Econometrics of Macroeconomic Modelling» (Oxford University Press, 2005) и обзорные статьи Wallis, K. «Macroeconometric Models» // Macroeconomic Policy: Iceland in an Era of Global Integration / M. Gudmundsson, T.T. Herbertsson, and G. Zoega, eds., p. 399–414 (Reykjavik: University of Iceland Press, 2000); см. также: http://ecomod.net/conferences/ecomod2001/papers_web/Wallis_Iceland.pdf. 10 Глава 1. Эконометрика оценивании, инструментальные переменные (IV, instrumental variables), оценивание методом максимального правдоподобия. Учитывая это обстоятельство, мы решили построить эту книгу следующим образом: в первой ее половине разрабатываются фундаментальные понятия, необходимые для любого приложения. Понятие множественной регрессии и особенно модель линейной регрессии служат основой для большинства приложений, даже если сама линейная модель и не является окончательной эмпирической спецификацией. Эта часть книги заканчивается методами IV-оценивания и общим обзором методов моделирования панельных данных. Панельные данные используют широкий набор методов современной эконометрики, включая опять IV-оценивание, моделирование гетерогенности и широкий ассортимент различных обобщений линейной модели. Во второй половине книги рассматриваются различные темы. В части III дается обзор методов оценивания. Части IV и V посвящены соответственно микро- и макроэконометрике. Общий план книги выглядит так: I. Регрессионные модели Главы 2–6 посвящены модели множественной линейной регрессии. Мы поговорим о спецификациях таких моделей, об оценке их параметров и о статистических выводах из результатов оценивания. В этой части обсуждаются такие понятия, как методы оценки, робастный анализ, функциональная форма и основные принципы спецификации моделей. II. Обобщенная регрессия, инструментальные переменные и панельные данные В главе 7 модель регрессии распространяется на нелинейные функциональные формы. В главе 8 вводится метод инструментальных переменных. Главы 9 и 10 представляют обобщенную модель регрессии и системы регрессионных уравнений. Эта часть заканчивается обсуждением методов работы с панельными данными в главе 11. III. Методы оценивания В главах 12–16 приведены общие результаты, касающиеся таких методов оценивания, как GMM, метод максимального правдоподобия, и симуляционных методов. В главах 12 и 16 представлены различные формы оценивания, включая не- и полупараметрические методы, а также байесовские методы. IV. Методы микроэконометрики Главы 17–19 посвящены микроэконометрике, моделям дискретного выбора и моделям с ограниченными зависимыми переменными, а также изучению данных о событиях: сколько событий данного типа происходит при данных обстоятельствах и когда они происходят. Методы, которым посвящены эти главы, лучше всего подходят к межобъектным и панельным данным. V. Методы макроэконометрики В главах 20 и 21 мы будем говорить об анализе временных рядов и о макроэконометрике. VI. Дополнительный материал В приложениях с A по E излагаются необходимые базовые сведения из используемых в эконометрике областей матричной алгебры, теории вероятностей, статистического оценивания и асимптотической теории. 1.6. Предварительные замечания 11 В приложении E приведены некоторые результаты, связанные с вычислениями. Во всех приложениях даются краткие обзоры инструментария, необходимого в эконометрике. Поскольку мы предполагаем, что читатель уже обладает некоторыми познаниями в этих областях, эти разделы приведены лишь для освежения памяти и удобства ссылок. Мы не предполагаем, что эти разделы могут заменить курс по любой из включенных дисциплин. Наша цель — дать краткое изложение результатов, явно используемых в основных частях книги. Данные, используемые в численных примерах, приведены в приложении F. Также данные и другие дополнительные материалы можно скачать со страницы автора по адресу: http://pages.stern.nyu.edu/∼wgreene/Text/. 1.6. Предварительные замечания Прежде чем приступить к изложению, отметим некоторые особенности представления информации в книге. 1.6.1. Численные примеры В данной книге приводится множество численных примеров. Большинство из них являются либо независимыми упражнениями, либо фрагментами опубликованных исследований. Как правило, цель этих примеров — проиллюстрировать небольшое приложение метода или модели. При желании читатель может самостоятельно воспроизвести полученные результаты с помощью прилагаемых данных. Обычно это не требует воспроизведения всей опубликованной работы. В примерах будут разбираться в основном приложения, лишь ограниченно связанные с первоначальной работой, но зато акцентирующие внимание на определенном методе или модели. Например, в работе Riphahn, Wambach, Million (2003) приведен очень полезный и удобный (при сравнительно больших размерах) массив данных, на котором читатель может изучить различные проблемы экономики здравоохранения. В примерах также часто предлагаются пути дальнейшего исследования, иногда вновь на основе опубликованных работ. 1.6.2. Компьютерное обеспечение и воспроизводимость результатов Как уже отмечалось в предисловии, для проведения описываемых в этой книге вычислений можно использовать целый ряд современных мощных компьютерных программ. В большинстве случаев приводимые примеры можно воспроизвести в любом современном пакете, как в высокоуровневых интегрированных средах (как, например, NLOGIT, Stata или SAS), так и путем написания собственных программ на таких языках, как R, MatLab или Gauss. Единственным исключением здесь являются упражнения, основанные на симуляции. Поскольку каждый пакет использует собственный генератор случайных чисел, результаты нельзя воспроизвести в точности (если, конечно, вы не пользуетесь той же программой, что и мы). В таких случаях, впрочем, разница в получаемых результатах будет равна небольшому 12 Глава 1. Эконометрика случайному колебанию. Основные результаты и свойства, рассматриваемые в этих приложениях, должны быть воспроизводимы в любом из упомянутых программных пакетов. Мы еще вернемся к вопросу воспроизводимости результатов по ходу книги, например в разделе 15.2, где будем говорить о методах генерирования случайных чисел для оценок, основанных на симуляциях. Соглашения об обозначениях Мы будем пользоваться векторной и матричной записью и преобразованиями на протяжении всей книги. Будут использоваться следующие формы записи: скалярные переменные будут обозначаться строчными наклонными буквами, как, например, или ; векторы-столбцы скалярных значеy x nK   β 1 β 2   ний — жирными строчными буквами, например, β = , x или b. Раз-  .  .   .   β k меры вектора-столбца всегда записываются в той же форме, что и размеры матрицы с одним столбцом, т.е., например, × или × и т.п. Матрицы K 1 n 1 всегда будут обозначаться жирными заглавными буквами, как, например,   · · · x x x 11 12 1K · · · x x x 21 22 2K   матрица размером × . n K, X =  . . .  .. . . .   . . . .   · · · x x x n1 n2 nK Отдельные элементы матрицы всегда будут обозначаться нижними индексами, причем первый будет соответствовать номеру строки, а второй — столбца. Транспонирование вектора или матрицы будет обозначаться штрихом. Вектор-строка получается транспонированием вектора-столбца. Так, β = [β , β , . . . , β ]. Произведение строки и столбца всегда будет записы1 2 K ваться в виде · · · . Элементы матрицы X образуют β x =β x + β x + + β x 1 1 2 2 K K набор векторов. Разлагая на столбцы, получаем — кажX = [x , x , . . . , x ] 1 2 K дый столбец есть вектор размера × Единственным, к сожалению, неизn 1. бежным источником путаницы здесь может быть обозначение, используемое для строки матрицы X. Элементы i-й строки X образуют вектор-строку Если матрица X обозначает матрицу данных, мы буx = [x , x , . . . , x ]. i1 i2 iK i дем индексом обозначать наблюдения (строки), а — переменные (столбi Как мы уже отметили, к сожалению, при этом может казаться, что x , i полученный транспонированием x , будет i-м столбцом X, что является конi наших правил записи. Однако нам ничего другого не остается, и мы будем следовать этим правилам, всегда обозначая за вектор-строку, x i i-й полученную из строки матрицы X. Обсуждение использующихся в этой книге результатов из матричной алгебры приведено в приложении А. Особенную важность представляет результат раздела А.2.7 о суммировании и об элементах матрицы произведения матриц X X. ГЛАВА 2 Модель линейной регрессии 2.1. Введение Эконометрика занимается построением моделей. В начале нашего обсуждения рассмотрим такой интересный вопрос: а что такое модель? Описание модели обычно начинают с наблюдения или предположения о том, что одна переменная вызывается другой или ее изменение связано с изменениями другой или с какого-либо другого качественного высказывания о наличии связей между переменной и одной или несколькими ковариатами, которые предположительно связаны с интересующей нас переменной. Модель может содержать общее высказывание поведенческого плана, например, что пользование услугами здравоохранения зависит среди прочего от оценки потребителями собственного здоровья, демографических показателей, например уровня дохода, возраста и уровня образования, а также от наличия у них медицинской страховки и ее вида. Это высказывание может быть представлено как вербально, так и в графическом виде, например в виде блок-схемы или графа, описывающего направления ожидаемых причинно-следственных связей. Эконометрическая модель редко возникаидеи сразу в виде набора уравнений. Обычно она начинается с о наличии какой-то зависимости. Следующим естественным шагом для эконометриста является перевод этой идеи в набор уравнений, причем надо иметь в виду, что какую-то часть этих уравнений можно было бы далее использовать для получения ответов на вопросы о поведении интересующей исследователя переменной. В нашем примере более четким вопросом, ответ на который можно пытаться получить из формальной модели, мог бы быть, например, вопрос о зависимости между использованием услуг системы здравоохранения и медицинской страховкой. Точнее, является ли эта зависимость «положительной», т.е. склонен ли при прочих равных более полно застрахованный потребитель «потреблять больше услуг системы здравоохранения», или «отрицательной»? Или же можно задаться более точным вопросом: насколько больше (или меньше)? Эта глава и несколько последующих описывают инструментарий, которым эконометристы пользуются при построении моделей для поиска ответов на подобные вопросы с использованием данных и эконометрических методов. С точки зрения чисто статистической исследователь может думать о переменной (условно «уровень спроса на услуги здравоохранения и векy ковариат x (доход I, страховка T ) как о переменных, имеющих совместное распределение Будучи записанной в такой форме, заp (H, I, T ). висимость не представляется особенно интересной: какой статистический процесс порождает спрос на услуги здравоохранения, уровень дохода и тип страхования? Однако нужно учесть, что p (H, I, T ) = p (H| I, T ) p (I, T ) и, 14 Глава 2. Модель линейной регрессии таким образом, модель раскладывается на два процесса, один из которых определяет совместное распределение дохода и уровня страхования в генеральной совокупности, а второй — распределение спроса на услуги здравоохранения при конкретных уровне дохода и типе страхования. При этой форме записи особенный интерес представляет условное распределение в то время как распределение уровня дохода и типа страp(H| I, T ), p(I, T ), хования, вторично или даже вообще малоинтересно. (С другой стороны, при этом же подходе можно также изучать условный спрос на страхование при данном уровне дохода |I).) Продолжая размышлять в том же ключе, можp(T понять, что исследователя обычно интересует не совместное распределение всех переменных модели, а условные распределения одной переменной относительно других. Понятие условного распределения дает нам отправную точку для размышлений о связи между целевой переменной y и набором переменных x, которые, как мы подозреваем, могут быть связаны с целевой переменной. Здесь возникает вопрос, возвращающий нас к дискуссии о том, что есть модель. Какие именно аспекты условного распределения могут представлять интерес? Строящий модель исследователь, думая о свойствах условного распределения, часто склонен уделять внимание прежде всего математическому ожиданию, думая в первую очередь о значении или о функции E[y|x] регрессии, что приводит нас к основной теме этой главы. В примере, приведенном выше, было бы естественно взять в качестве y число посещений врача, как это будет сделано в примере, который будет часто использоваться в дальнейшем. Если бы мы изучали уровень дохода который часто имеет I, сильно скошенное распределение, то среднее может не представлять большого интереса. Скорее всего, интересной статистикой была бы условная медиана для людей заданного возраста, С другой стороны, говоря M [I|x]. об уровнях дохода для различных возрастов, еще больший интерес могли бы представлять другие квантили, скажем, 20%-й уровень или черта бедности, определенная как, например, 5%-й квантиль. Наконец, для исследования в области финансов, где целевой переменной обычно является доходность актива, средние представляют малый интерес. По крайней мере, при некоторых подобных исследованиях средние вообще не представляют интереса; наиболее интересным объектом являются дисперсии, и в особенности условные дисперсии. Начиная говорить о модели линейной регрессии, важно понимать, что такое модель. Пока мы будем заниматься в основном условными средними, поскольку зачастую исследователя интересует именно этот аспект. Поняв, как можно анализировать функции регрессии, сможем пользоваться этим аппаратом для изучения других свойств распределений, например квантилей и дисперсий. Модель линейной регрессии является самым полезным из инструментов, доступных эконометристу. Несмотря на то что в современных исследованиях линейные регрессии все чаще являются лишь отправной точкой для полного анализа, именно с линейных регрессий начинаются почти все эмпирические исследования. Исследователи обычно рассматривают связи между переменными именно через призму линейных регрессий. В этой главе мы обсудим модель линейной регрессии и детально разберем основные предположения этой модели. В нескольких последующих главах 16 Глава 2. Модель линейной регрессии здесь может служить литература, посвященная модели потребления при постоянном уровне дохода [см., например, Friedman (1957)]. Мы предполагаем, что каждое наблюдение в выборке (y , x , x , . . . , x ), i i1 i2 iK i = 1, . . . , n порождено случайным процессом, описываемым уравнением y = x β + x β + · · · + x β + ε . i i1 1 i2 2 iK K i Наблюдаемое значение складывается из детерминированной части и слуy члена ε . Наша цель — оценить величины неизвестных параметров i модели, исследовать соответствие теоретической модели и имеющихся данных, исследовать на этих данных, выполняются ли предположения теории, и, возможно, предсказать с помощью модели значения переменной Наши y. дальнейшие действия существенно зависят от предположений относительно случайного процесса, породившего имеющиеся у нас наблюдения. Пример 2.1. Кейнсианская функция потребления В примере 1.2 рассматривалась модель потребления, предложенная Кейнсом в его General Theory (1936). Теория о том, что уровни потребления C и дохода X связаны, представляется вполне соответствующей наблюдаемым фактам, представленным на рис. 1.1 и 2.1. (Данные содержатся в табл. F2.1.) Рис. 2.1. Потребление в США в 1940–1950 гг. Конечно, линейная функция является всего лишь приближением. Даже если пропустить аномальные наблюдения военных лет, потребление и доход нельзя связать каким-либо простым детерминированным образом. Линейная модель C = α + βX предназначена в первую очередь для выделения некоторых важных свойств этой части экономики. Попытка описать все факторы, влияющие на эту связь, была бы обречена на провал. Следующий шаг — включить в модель случайность, содержащуюся 2.2. Модель линейной регрессии 17 в реальных переменных. Поэтому запишем где есть C = f (X, ε), ε случайный элемент. Здесь важно избежать соблазна воспринимать ε как универсальную «ловушку» для всех недостатков модели. Кажется, что модель с адекватно описывает данные без наблюдений военных лет, ε но для объяснения наблюдений 1942–1945 гг. явно не хватает чего-то систематического. Потребление в эти годы не могло подняться до уровня, исторически соответствующего уровням дохода, из-за ограничений военного времени. Модель, претендующая на объяснение уровня потребления в этот период, должна включать влияние этих факторов. Остается понять, каким образом случайный член должен быть включен в уравнение. Наиболее частый подход состоит в том, чтобы считать его аддитивным. Это значит, что уравнение нужно переписать в стохастических терминах в виде Это уравнение представляет C = α + βX + ε. собой эмпирический аналог теоретической модели Кейнса. Но как быть с «аномальным» периодом введения ограничений? Если мы проигнорируем нашу интуицию и попытаемся построить линейное приближение ко всей выборке (в следующей главе подробно описывается, как это сделать), то получим пунктирную линию рисунка. Однако эта линия очевидно смещена вследствие ограничений военного времени. Более подходящей для этих данных спецификацией, включающей как случайную составляющую, так и особые условия 1942–1945 гг., была бы линия, сдвинутая вниз в этот период, т.е. где новая переменная C = α + βX + d δ + ε, d waryears w waryears равна единице в 1942–1945 гг. и нулю для остальных наблюдений, а δ < 0. w Одной из наиболее полезных черт модели множественной регрессии является возможность выделить независимые влияния разных независимых переменных на зависимую переменную. В примере 2.2 описывается одна часто встречающаяся модель. Пример 2.2. Зарплата и образование Ряд исследований последних лет был посвящен вопросу о связи между уровнем образования и зарплатой. Можно было бы ожидать, что более высокий уровень образования (education) приводит в среднем к более высокому заработку (earnings). Простая модель регрессии earnings = β + β education + ε, 1 2 однако, не учитывает того факта, что у большинства людей доход в зрелом возрасте превышает доход в молодости независимо от уровня их образования. Значит, будет преувеличивать предельный эффект повышения β 2 уровня образования. Если возраст и образование имеют положительную корреляцию, то модель будет считать повышение дохода результатом исключительно повышения уровня образования. Спецификацию можно улучшить включением влияния возраста (age): earnings = β + β education + β age + ε. 1 2 3 18 Глава 2. Модель линейной регрессии Часто отмечают, что доход, как правило, растет медленнее в более поздние годы трудовой жизни, чем в начале карьеры. Чтобы учесть и это обстоятельство, модель можно дополнить следующим образом: 2 earnings = β + β education + β age + β age + ε. 1 2 3 4 Мы ожидаем, что будет положительным, а — отрицательным. Важβ свойством этой модели является то, что она позволяет нам провести мысленный эксперимент, который, возможно, был бы неосуществим на реальных данных. В данном примере мы могли бы сравнить заработок двух людей одинакового возраста, имеющих разный уровень образования, хотя выборка, возможно, и не содержит ни одной такой пары. Как нужно измерять уровень образования в такой модели — вопрос сложный. В исследовании Ashenfelter and Krueger (1994), сравнивающем заработки близнецов и применяющем как раз такую спецификацию модели, используется интересный подход. [Вообще исследования, использующие данные о близнецах или братьях и сестрах, часто встречаются при изучении связи уровня образования и доходов. Можно привести еще два таких исследования: Ashenfelter and Zimmerman (1997) и Bonjour, Cherkas, Haskel, Hawkes and Spector (2003).] Эта работа будет подробно рассматриваться в подразделе 8.5.3. Эксперимент, заложенный в построенной нами модели заработной платы, состоит в сравнении заработков двух одинаковых людей, отличающихся только уровнем образования. В этой интерпретации эффект образования будет равен ∂E[Earnings|Age, Education]/∂Education = β . 2 Можно, впрочем, возразить, что по-настоящему интересным было бы измерение ненаблюдаемого влияния повышения уровня образования на заработок конкретного индивида. Чтобы провести такой эксперимент в реальности, нужно было бы измерить его заработок дважды: один раз в реальной ситуации, Education , а второй — в гипотетической (hypothetical, i counterfactual), где уровень его образования равен Если Education + 1. i мы будем рассматривать в этом примере как воздействие Education (treatment), то целью эксперимента будет изучение влияния воздействия на подвергшегося воздействию. Попытка сделать подобный вывод из реальных данных, сравнивая двух «идентичных в других отношениях» индивидов, будет предпринята нами в главе 19. Большой объем литературы посвящен следующему интересному вопросу: уровень образования в этой модели нельзя считать полностью независимым. Высокомотивированные индивиды, скорее всего, будут получать более высокий уровень образования (например, поступать в колледж или магистратуру). Но исходя из тех же качеств они также будут в среднем более склонны выбирать занятия, приводящие к более высокому уровню дохода. Если это так, то неясно, свидетельствует ли положительное о том, что доход связан с уровнем образования, или же отражает β 2 некоторую общую причину, влияющую на обе переменные модели, но которую мы не включили в наше уравнение регрессии? Мы вернемся к 2 этому вопросу в главе 19 . 2.3. Предположения модели линейной регрессии 21 и линейны по некоторой функции по использованному +ε y = α +β ln x+ε x здесь определению. В этих примерах преобразования применялись только β ε к но могли бы применяться и к как, например, в уравнении , x, y, y = A x e задающем линейную связь между логарифмами x и y, ln y = α + β ln x+ Выбор функций ничем не ограничен. Эта черта модели используется во +ε. многих функциональных формах уравнения регрессии. Например, логлинейная (или линейная в логарифмах) модель записывается как · · · ln y = β + β ln x + β ln x + + β ln x + ε. 1 2 2 3 3 K K Эта модель известна также как уравнение постоянной эластичности, так как в нем эластичность y по x равна ∂ ln y/∂ ln x = β и не зависит от x . k k k Логлинейная форма часто используется в моделях спроса и производства. Разные значения дают существенно различные функции. β Пример 2.3. Рынок бензина в США Данные о рынке бензина в США в 1953–2004 гг. приведены в табл. F2.2 приложения F. Мы используем эти данные, чтобы получить среди прочего оценки эластичностей спроса на этом рынке по доходу потребителей, цене и цене других товаров. Используя эти данные, можно поднять следующий интересный вопрос: что произойдет, если изменять значения некоторых переменных, оставляя значения остальных постоянными, как предлагалось в примере 2.2? Например, рассмотрим следующую урезанную модель потребления бензина на душу населения: ln(G/pop) = β + β ln(Income/pop) + β ln price + β ln P + 1 2 3 4 newcars G +β ln P + ε. 5 usedcars Эта модель позволяет получить оценки эластичностей спроса на бензин по доходу потребителей и по цене бензина, а также оценку эластичности спроса по ценам новых и подержанных автомобилей. Какой мы могли бы ожидать знак у β ? Автомобили и бензин являются комплементарными 4 товарами, так что при росте цен на новые автомобили при прочих равных условиях нужно было бы ожидать падения потребления бензина. Нужно ли? Если цены на новые автомобили растут, то потребители будут менее охотно их покупать; значит, старые автомобили будут использоваться дольше. Если старые автомобили потребляют больше бензина, то рост цен на автомобили приведет к росту, а не к падению спроса на бензин. Для ответа на этот вопрос нужно воспользоваться моделью множественной регрессии и данными по рынку бензина. Полулогарифмическими моделями часто пользуются при моделировании темпов роста: ln y = x β + δt + ε . t t t В этой модели самостоятельный (по крайней мере, необъясняемый этой моделью) мультипликативный темп роста в каждом периоде равен ∂ ln y/∂t = 22 Глава 2. Модель линейной регрессии Другие варианты конкретизации общего вида модели δ. f (y ) = g(x β + ε ) t t t дадут большой набор возможных функциональных форм, каждая из которых соответствует нашему определению линейности модели. Модель линейной регрессии часто интерпретируют как приближение к какой-то настоящей неизвестной функции. (См. обсуждение в разделе A.8.1.) При такой интерпретации, однако, линейная модель даже с включением квадратичных членов представляется довольно ограниченной, поскольку такое приближение, скорее всего, будет полезно лишь в небольшом интервале значений независимых переменных. Транслогарифмическая модель, обсуждаемая в примере 2.4, показывает гораздо большую эффективность в качестве аппроксимирующей функции. Пример 2.4. Транслогарифмическая модель Авторы современных работ, изучающие спрос и производство, обычно пользуются гибкими функциональными формами уравнений регрессии. Гибкие функциональные формы используются в эконометрических исследованиях благодаря тому, что они позволяют исследователям моделировать нетривиальные особенности функции производства, такие как, например, эластичности замещения, которые являются функциями от вторых производных объема производства, стоимости или функции полезности. В линейной модели эти производные гарантированно равны нулю, а логлинейная модель (например, модель Кобба–Дугласа) ограничивает значения этих эластичностей плюс или минус единицей. Наиболее популярной гибкой функциональной формой является транслогарифмическая модель, которую можно воспринимать как приближение второго порядка к неизвестной функциональной форме. [Berndt and Christensen (1973).] К этой модели можно прийти, например, следующим образом. Сначала запишем Тогда y = g(x , . . . , x ). ln y = ln g(. . .) = f (. . .). 1 K Поскольку мы можем рассмотреть тривиальное преобразование x = k = exp(ln x ), запишем эту функцию как функцию от логарифмов x-в. Итак, k ln y = f (ln x , . . . , ln x ). 1 K Разложим эту функцию в ряд Тейлора (до члена второго порядка) в точке (в этой точке логарифмы всех переменных равны 0). x = [1, 1, . . . , 1] Тогда K ln y = f (0) + [∂f (·)/∂ ln x ] ln x + | k ln =0 k x k=1 K K 1 2 + [∂ f (·)/∂ ln x ∂ ln x ] ln x ln x + ε. | k l ln =0 k l x 2 k=1 l=1 Эта модель предполагает, что шоки представляют собой как обычные факторы, так и ошибки приближения к неизвестной функции. Поскольку 2.3. Предположения модели линейной регрессии 25 2.3.3. Регрессия Предполагается, что случайный шок в каждом наблюдении имеет условное математическое ожидание, равное нулю, что записывается в виде E [ε | X] = 0. (2-6) i Для всей выборки предположение 3 записывается в виде   E [ε | X] 1 | E [ε X] 2   E [ε | X]= =0. (2-7)  .  .   .   | E [ε X] n Здесь есть тонкое место, которое наверняка заметил внимательный читатель. В (2-7) в левой части написано, что математическое ожидание кажусловно по всем наблюдениям дого ε x равно нулю. Фактически это предi об условном математическом ожидании говорит, что никакое наблюдение из x не дает никакой информации об ожидаемом значении шока. Можно представить (например, при изучении временных рядов), что, из другого несмотря на то что x не дает никакой информации о E [ε |·], x i i j наблюдения, например в следующем периоде, дает эту информацию. Наше предположение на данном этапе состоит в том, что информации о | ·] E [ε i нет ни в каком . Позднее, когда мы будем обобщать нашу модель, изуx возможные последствия нарушения этого предположения. [Wooldridge (1995).] Мы также будем предполагать, что значения случайных шоков не содержат информации друг о друге, т.е. | E [ε ε , . . . , ε , ε , . . . , ε ] = 0. i 1 i−1 i+1 n Резюмируя, пока мы предполагаем, что все случайные шоки являются случайной выборкой из одного и того же распределения. Нулевое условное математическое ожидание влечет равенство безусловного математического ожидания нулю, поскольку | E [ε ] = E [E [ε X]] = E [0] = 0. i x i x Так как для всех | из предположения 3 следует, ε Cov[E [ε X], X] = Cov[ε , X], i i i что Cov[ε для всех Обратное неверно: из того, что не , X]=0 i. E[ε ] = 0, i i следует |x Это различие иллюстрирует пример 2.7. E[ε ] = 0. i i Пример 2.7. Ненулевое условное среднее шоков На рис. 2.2 показано важное различие между и |x E[ε ] = 0 E[ε ] = i i i Среднее всех возмущений в выборке равно нулю, но среднее на = 0. некоторых интервалах значений x явно отличается о нуля. Такая картина в наблюдаемых данных является сигналом о том, что предположение о линейности регрессии нужно подвергнуть сомнению. В данном случае истинной функцией условного среднего (которую исследователь не мог 26 Глава 2. Модель линейной регрессии знать заранее) на самом деле является Данные E[y|x] = 1 + exp(1, 5x). выборки показывают, что линейная модель не подходит для них. Эта возможность будет далее рассматриваться в модели в примере 6.6. Рис. 2.2. Шоки с ненулевыми условными математическими ожиданиями и нулевым безусловным математическим ожиданием В большинстве случаев предположение о нулевом безусловном математическом ожидании не является существенным ограничением. Возьмем модель с двумя переменными и предположим, что среднее ε равно µ = 0. Тогда совпадает с − Обозначая и α + βx + ε (α + µ) + βx + (ε µ). α = α + µ ε = εµ, мы получаем исходную модель. Подобная модель встретится нам в главе 19, при обсуждении функций производственной границы (или граничной производственной функции). Но если исходная модель не содержит постоянного члена, то предположение может быть содержательным. E [ε ] = 0 i Возникает подозрение, что использование моделей без константы может привести к проблемам. Как правило, модели регрессий должны включать 3 константу, если только отсутствие константы не следует из теории . Можно утверждать, что если мы по каким-то причинам предполагаем, что математическое ожидание шоков может быть отлично от нуля, то это нужно учитывать в содержательной части регрессии, а в шоках оставлять только неизвестную часть ε: | (2-8) E [y X] = Xβ. 3 Модели, описывающие первые разности переменных, часто специфицируются без константы. Рассмотрим − . Если в правой части присутствует константа то является y y α, y t t t−1 функцией т.е. имеет временной тренд. Моделям с временным трендом уделяется отдельное αt, место в литературе об анализе временных рядов. Мы вернемся к этой теме в главе 21. 2.3. Предположения модели линейной регрессии 29 выборки, порождающий эти регрессоры. Основным здесь является предположение 3 (отсутствие корреляции между X и Однако такой подход тоε). неидеален: X может содержать неслучайные элементы (например, константу, временной тренд или дамми-переменные, обозначающие временные периоды). Таким образом, ситуация не очень ясна. Однако есть простой способ избежать излишних трудностей: мы будем считать, что X может содержать смесь констант и случайных величин, а математические ожидания и дисперсии ε не зависят ни от каких элементов X. i X может быть как фиксированным, так и случайным. (2-10) 2.3.6. Нормальность Удобно предположить, что шоки распределены нормально и имеют нулевые средние и постоянную дисперсию. Таким образом, предположения 3 и 4 мы дополняем предположением о нормальности распределения. 2 ε | X∼N[0,σ I]. (2-11) В случае если источник возникновения шоков соответствует нашему ε описанию выше, будет, хотя бы приблизительно, приложима центральная предельная теорема, а значит, в большинстве ситуаций предположение о нормальности имеет смысл. Полезным следствием предположения 6 является то, что не только не коррелируют между собой, но еще и статистиε независимы. [См. третий пункт в разделе B.9 (B-97) и (B-99).] Предположение о нормальности часто считают ненужным и даже излишним дополнением к классической модели регрессии. Однако это предположение представляется разумным в большинстве случаев, кроме ситуаций, когда явно предполагается другое распределение, как, например, в модели стохастической границы в главе 19. Условие нормальности не является необходимым для получения многих результатов, используемых при анализе регрессий, однако это предположение позволяет получить ряд точных статистических результатов. Оно оказывается полезным при построении статистических тестов и доверительных интервалов, как мы увидим в разделе 4.5 и главе 5. Позже мы сможем ослабить это предположение, сохранив при этом большую часть полученных статистических результатов. (См. разделы 4.4 и 5.6.) 2.3.7. Независимость Слово «независимость» в этой главе использовалось в нескольких разных смыслах. В разделе 2.2 переменные из правой части уравнения модели называются независимыми. Здесь понятие независимости относится к источнику изменений. В контексте рассматриваемой модели источники изменения независимых переменных лежат за пределами описываемого процесса. Так, 30 Глава 2. Модель линейной регрессии в нашем примере из введения о связи дохода и пользования услугами здравоохранения мы предложили теорию, связывающую изменение дохода и изменение объема пользования услугами здравоохранения. Но мы не пытались объяснить изменение дохода в выборке; предполагается, что доход изменится по причинам, лежащим вне данной модели. Предположение 3, |X] называют независимостью в среднем E[ε = 0, i (mean independence). Из него следует, что изменения шоков не объясняются изменениями независимых переменных. В подразделе 2.3.4 мы также предположили, что возмущения не коррелируют между собой. (Предположение A4 в табл. 2.1.) Отсюда также следует, что |ε при — возE[ε ] = 0 i = j i j мущения независимы в среднем между собой. Условная нормальность возмущений, сформулированная в подразделе 2.3.6 (предположение A6), влечет статистическую независимость (statistical independence) возмущений друг от друга, что является более сильным утверждением, чем независимость в среднем. Наконец, в подразделе 2.3.2 говорится о линейной независимости (linear independence) столбцов матрицы Здесь используется алгебраичеX. понятие независимости, связанное с рангом матрицы по столбцам. В X данном случае это нужно интерпретировать так: переменные модели должны иметь возможность изменяться без сохранения какой-либо линейной зависимости. В примере 2.6 мы видели, что логарифмы площади, отношения сторон и высоты картины не могут изменяться независимо. Последствие этого для построения модели состоит в том, что если переменные не могут независимо изменяться, то их невозможно изучать в модели линейной регрессии, которая предполагает, что значение переменной можно изменять при сохранении значений остальных переменных. Здесь есть некоторая неясность: в примере 2.2 мы включили в модель возраст и квадрат возраста. Ответ заключается в том, что, хоть эти две переменные и связаны функциональной зависимостью, между ними нет линейной зависимости. E ( y x) | x ( ) E y | x x 2 2 N ( x , ) 2 E ( y x x ) | 1 E ( y x x ) | 0 x x x x 0 1 2 Рис. 2.3. Классическая модель регрессии 2.4. Заключение 31 2.4. Заключение В этой главе была введена модель линейной регрессии, являющаяся основой для построения эконометрических моделей. Все предположения классической модели регрессии изображены на рис. 2.3 для случая двух переменных. термины и понятия Autocorrelation — Автокорреляция Linear independence — Линейная незаCentral limit theorem — Центральная висимость предельная теорема Linear regression model — Модель лиConditional median — Условная медиана нейной регрессии Conditional variation — Условная дисLoglinear model — Логлинейная модель персия (линейная в логарифмах модель) Constant elasticity — Постоянная элаMean independence — Независимость в стичность среднем Counterfactual — Гипотетический Multiple linear regression model — МоCovariate — Ковариата дель множественной линейной регресDependent variable — Зависимая пересии — Отсутствие автоDeterministic relationship — Детермикорреляции зависимость Nonstochastic regressors — НеслучайDisturbance — Возмущение, шок ные регрессоры Exogeneity — Экзогенность Normality — Нормальность Explained variable — Объясняемая переNormally distributed — Нормально расменная variable — Объясняющая переменная Path diagram — Граф Flexible functional form — Гибкая функPopulation regression equation — Теоциональная форма ретическое уравнение регрессии Full rank — Полный ранг Regressand — Регрессанд Heteroscedasticity — ГетероскедастичRegression — Регрессия ность Regressor — Регрессор Homoscedastity — Гомоскедастичность Second-order effects — Эффекты второго Identification condition — Условие иденпорядка — Полулогарифмический Impact of treatment on the treated — Spherical disturbances — Сферические Эффект воздействия на подвергшегося возмущения воздействию Independent variable — Независимая Translog model — Транслогарифмичепеременная модель ГЛАВА 3 Метод наименьших квадратов 3.1. Введение В главе 2 модель линейной регрессии определялась через набор свойств распределения, из которого получены данные. Существует несколько различных подходов к оценке параметров модели. По ряду причин как теоретического, так и практического характера, которые мы рассмотрим в нескольких последующих главах, метод наименьших квадратов долгое время оставался наиболее популярным. Более того, в большинстве случаев, даже если найден более предпочтительный метод оценки, метод наименьших квадратов все равно используется для сравнения, а зачастую и сам используемый метод оказывается некоторой модификацией метода наименьших квадратов. В этой главе мы начнем изучать этот метод и вначале представим ряд полезных результатов алгебраического характера. 3.2. Регрессия наименьших квадратов Объектом оценки являются неизвестные параметры стохастической зависимости Необходимо различать параметры распределения y = x β + ε β i i i и и их выборочные аналоги, которые мы будем обозначать b и . ε e i i Теоретическая регрессия (population regression) имеет вид | E [y x ] = x β, i i i а наша оценка E [y | x ] записывается в виде i i y ˆ = x b. i i Шок, соответствующий наблюдению, равен i-му − ε = y x β. i i i Для любого значения b мы будем оценивать при помощи остатка (residual): ε i − e = y x b. i i i Из этих определений получаем y = x β + ε = x b + e . i i i i i Эти уравнения применительно к регрессии с двумя переменными представлены на рис. 3.1. Характеристика распределения (population quantity) есть вектор неβ параметров распределения вероятности , оценку которых мы y i будем пытаться построить на основе данных выборки (y , x ), i = 1, . . . , n. i i 3.2. Регрессия наименьших квадратов 33 Это есть статистическая задача. Однако полезно начать с чисто алгебраической задачи выбора вектора b, при котором подобранная прямая максиx b i мально близка к нашим наблюдениям. Мера близости определяется критерием подгонки (fitting criterion). Несмотря на то что предлагались разные 1 критерии, чаще всего используют метод наименьших квадратов . x y e a bx E ( y|x) x ˆ y a bx x Рис. 3.1. Теоретическая и выборочная регрессии 3.2.1. Вектор коэффициентов метода наименьших квадратов Вектор коэффициентов метода наименьших квадратов минимизирует сумму квадратов остатков: n n 2 2 − (3-1) e = (y x b ) , i 0 i0 i i=1 i=1 где обозначает некоторый вектор коэффициентов. В матричных термиb минимизация суммы квадратов в (3-1) требует выбора такого , что b 0 Minimize S(b ) = e e = (y − Xb ) (y − Xb ). (3-2) b 0 0 0 0 0 0 Раскрывая скобки, получаем − − , (3-3) e e = y y b X y y Xb + b X Xb 0 0 0 0 0 0 или − S(b ) = y y 2y Xb + b X Xb . 0 0 0 0 1 Нам еще необходимо показать, что наилучшее с точки зрения метода наименьших квадратов приближение данных прямой линией дает оценки с хорошими статистическими свойствами. Интуитивно кажется, что это и действительно справедливо. К этим вопросам мы вернемся в главе 4. 34 Глава 3. Метод наименьших квадратов 2 Необходимым условием минимизации является ∂S(b ) 0 2 −2X (3-4) = y + 2X Xb = 0 . 0 ∂b 0 Пусть b — решение этого уравнения. Тогда, преобразовывая (3-4), получаем, что b удовлетворяет нормальным уравнениям метода наименьших квадратов (least squares normal equations): (3-5) X Xb = X y. Если существует матрица, обратная к (что следует из предположения о X X полноте ранга A2 из раздела 2.3), то решением будет −1 (3-6) b = (X X) X y. Чтобы это решение минимизировало сумму квадратов остатков, матрица S(b ) 0 = 2X X ∂b ∂b 0 0 должна быть положительно определенной. Пусть для некоторого q = c X Xc произвольного ненулевого вектора c. Тогда n 2 q = v v = v , где v = Xc. i i=1 Если не все элементы v равны нулю, то положительно. Но если вектор v q нулевой, то, поскольку v является линейной комбинацией столбцов X, нарушается предположение о полноте ранга X. Поскольку c произвольно, q положительно для всех ненулевых c, значит, 2X X положительно определена. Таким образом, если X имеет полный ранг, то минимум суммы квадратов остатков достигается, он единственный и равен b. 3.2.2. Приложение: уравнение инвестиций Чтобы проиллюстрировать вычисления метода наименьших квадратов в случае множественной регрессии, рассмотрим пример, основанный на макроэкономических данных из табл. F3.1 приложения. Чтобы оценить параметры уравнения инвестиций, мы сначала переведем данные инвестиций (Investment) и ВНП (GNP) из табл. F3.1 к реальному (Real) исчислению, разделив их на ИПЦ (CPI), а затем нормируем их так, чтобы значения были даны в триллионах долларов. Другие переменные регрессии — временной тренд (1, 2, . . .), процентная ставка и темп инфляции, вычисляемый как процентное изменение ИПЦ. Полученные матрицы данных приведены в табл. 3.1. Рассмотрим сначала регрессию реальных инвестиций на константу, временной тренд и реальный ВНП, обозначив их за и . (По причинам, котоx , x x 1 2 3 рые мы будем обсуждать в главе 21, это не очень удачно специфицированное 2 См. соответствующие результаты из курса математического анализа для матриц и векторов в приложении A.8. 3.2. Регрессия наименьших квадратов 35 уравнение для этих переменных. Однако оно вполне подойдет нам для простого численного примера.) Подставляя эти переменные в (3-5), получаем b n + b Σ T + b Σ G = Σ Y , 1 2 i i 3 i i i i 2 b Σ T + b Σ T + b Σ T G = Σ T Y , 1 i i 2 i 3 i i i i i i i 2 b Σ G + b Σ T G + b Σ G = Σ G Y . 1 i i 2 i i i 3 i i i i i Решение можно получить следующим образом. Сначала разделим первое уравнение на и преобразуем его так, чтобы n − − b = Y b T b G = 1 2 3 − × − × (3-7) = 0, 20333 b 8 b 1, 2873. 2 3 После подстановки этого результата в остальные два уравнения и ряда преобразований получаем набор из двух уравнений: 2 − − − − − b Σ (T T ) + b Σ (T T )(G G ) = Σ (T T )(Y Y ), 2 i i 3 i i i i i i 2 b Σ (T − T )(G − G ) + b Σ (G − G ) = Σ (G − G )(Y − Y ). 2 i i i 3 i i i i i (3-8) Это показывает, что оценки коэффициентов наклона (при переменных) можно получить из сумм квадратов и попарных произведений переменных, записанных в отклонениях от своего среднего. Обозначая строчными буквами величины, записанные в отклонениях от среднего, получаем оценки метода наименьших квадратов и в виде b b 2 3 2 Σ t y Σ g −Σ g y Σ t g 1,6040(0,359609)−0,066196(9,82) i i i i i i i i i i −0, b = i = = 0171984, 2 2 2 −(Σ 2 280(0,359609)−(9,82) 2 Σ t Σ g g t ) i i i i i i i 2 Σ g y Σ t −Σ t y Σ t g 0,066196(280)−1,6040(9,82) i i i i i i i i i i b = i = = 0, 653723. 3 2 2 −(Σ 2 280(0,359609)−(9,82) 2 Σ t Σ g g t ) i i i i i i i Имея эти оценки, оценку b можно получить из (3-7): b = −0, 500639. 1 1 Подумаем, что было бы, если бы мы оценивали регрессию только на константу и ВНП, без временного тренда. Корреляция, наблюдаемая в данных, будет частично объясняться, поскольку и инвестиции, и ВНП явно имеют временные тренды. Посмотрим, как этот эффект проявляется в вычислениях. Обозначая за b коэффициент при x в парной регрессии y на x и yx константу, имеем Σ g y i i i (3-9) b = = 0, 184078. yg 2 Σ g i i 2 2 Теперь разделим числитель и знаменатель выражения для на . b Σ t Σ g 3 i i i i Преобразовывая полученную формулу, используя определение выборочной 2 2 2 2 корреляции между G и T, r = (Σ g t ) /(Σ g Σ t ), и определив таким же i i i i i gt i i образом и , мы получаем b b yt tg b b b yg yt tg − (3-10) b = = 0, 653723. yg·t 2 2 − − 1 r 1 r gt gt 3.3. Раздельная и частичная регрессии 39 Рис. 3.2. Проекция y на плоскость, порожденную столбцами X менее вынуждены включить в модель еще и возраст. Здесь мы рассматриваем вопрос о том, какие вычисления нужно провести для получения коэффициентов лишь при некоторых переменных множественной регрессии (например, коэффициента при уровне образования в вышеупомянутой модели). что в регрессии участвуют два набора переменных, и X 1 X , т.е. модель имеет вид 2 y = Xβ + ε = X β + X β + ε. 1 1 2 2 Какой вид имеет алгебраическое решение для ? Запишем нормальные b 2 уравнения: (1) X X X X b X y 1 2 1 1 1 1 (3-17) = . (2) X X X X b X y 1 2 2 2 2 2 Решение можно получить с помощью блочной обратной матрицы из (A-74). Также можно напрямую воспользоваться формулами (1) и (2) в (3-17), решив их относительно . Сначала решим (1), выразив : b b 2 1 −1 −1 −1 b = (X X ) X y − (X X ) X X b = (X X ) X (y − X b ). (3-18) 1 1 1 2 2 1 2 2 1 1 1 1 1 1 Таким образом, b состоит из коэффициентов регрессии y на X и поправоч1 вектора. Сейчас мы сделаем небольшое отступление и обсудим важный результат, содержащийся в (3-18). Предположим, что Тогда X X = 0. b = 2 1 1 −1 т.е. совпадает с вектором коэффициентов в регрессии y на = (X X ) X y, 1 1 1 X . Общий результат сформулирован в следующей теореме. 1 40 Глава 3. Метод наименьших квадратов Теорема 3.1. Ортогональная частичная регрессия При оценке методом наименьших квадратов множественной регрессии y на два ортогональных множества переменных и векторы коэффициX X 1 2 ентов при переменных из каждого множества можно получить, оценивая регрессии отдельно на переменные из и отдельно на переменные из y X 1 . X 2 Доказательство. Предпосылка теоремы состоит в том, что X X = 0 в 2 1 нормальных уравнениях (3-17). Подставляя это в (3-18), получаем −1 и аналогичный результат для . b = (X X ) X y b 1 1 2 1 1 Если множества переменных и неортогональны, то полученные в X X 1 2 (3-17) и (3-18) решения относительно и несколько сложнее, чем проb b 1 2 стые регрессии в теореме 3.1. Более общее решение описывается следующей 3 теоремой, впервые опубликованной в первом томе журнала Econometrica . Теорема Фриша–Во–Ловелла Теорема 3.2. При оценке методом наименьших квадратов регрессии переменной y на два набора переменных, и подвектор есть множество X X , b 1 2 2 коэффициентов, получаемых при оценке регрессии остатков регрессии на y на набор остатков регрессий каждого из столбцов матрицы на . X X X 1 2 1 Доказательство. Начнем доказательство теоремы 3.2 с уравнения (2) в (317), т.е. X X b + X X b = X y. 1 1 2 2 2 2 2 Подставим сюда выражение для b из (3-18). Получаем 1 −1 −1 − X X (X X ) X y X X (X X ) X X b + X X b = X y. 1 1 1 1 2 2 2 2 2 1 1 2 1 1 2 2 Отсюда получаем решение: −1 −1 −1 − − b = X (I X (X X ) X )X X (I X (X X ) X )y = 2 1 1 2 1 1 2 1 1 2 1 1 −1 (3-19) = (X M X ) (X M y). 1 2 1 2 2 Матрицы в круглых скобках представляют собой «генераторы остатков», определенные в уравнении (3-14). В данном случае они определяются для регрессии на столбцы X . Значит, M X есть матрица остатков: каждый стол1 2 бец есть вектор остатков в регрессии соответствующего столбца M X X 1 2 2 3 Теорема была сформулирована во введении к статье следующим образом: «Включение тренда в регрессию никогда не даст лучших результатов, чем выделение тренда из отдельных переменных, поскольку оба метода по определению приводят к идентичным результатам». То есть Фриша и Во (Frisch and Waugh (1933)) интересовало отсутствие разницы между оценкой регрессии y на временной тренд t и переменную x и оценкой регрессии остатков от y при регрессии на константу и временной тренд на вычисленные так же остатки от Приводимая x. формулировка теоремы в терминах матриц была сформулирована позднее Ловеллом в работе Lovell (1963). 3.3. Раздельная и частичная регрессии 41 на переменные . Учитывая, что матрица , как и M, симметрична и X M 1 1 идемпотентна, можно переписать (3-19) в виде ∗ ∗ −1 ∗ ∗ (3-20) b = (X X ) X y , 2 2 2 2 где ∗ ∗ X = M X и y = M y. 1 2 1 2 Этот результат является фундаментальным для анализа регрессий. Эти действия часто называют выделением (partialing out, netting out) эффекта . По этой же причине коэффициенты множественной регрессии X 1 иногда называют коэффициентами частичной (partial) регрессии. Приложение этой теоремы к предложенной в начале этой главы задаче вычисления отдельного коэффициента производится следующим образом. Возьмем регрессию y на переменные X и дополнительную переменную z. Обозначим коэффициенты как b и c. Вывод 3.2.1. Отдельные коэффициенты регрессии Коэффициент при в множественной регрессии на можно z y W = [X, z] −1 ∗ ∗ −1 ∗ ∗ ∗ ∗ записать в виде где и — векторы c = (z Mz) (z My) = (z z ) z y z y ∗ остатков метода наименьших квадратов из регрессий и на z y X; z = Mz ∗ и где определялась формулой (3-14). y = My, M Это есть частный случай теоремы 3.2 с X , равным X, и X , равным z. 1 2 Говоря в терминах примера 2.2, мы можем получить коэффициент при уровне образования в множественной регрессии, сначала оценив регрессии заработка и уровня образования на возраст (или возраст и квадрат возраста), а затем использовать остатки этих регрессий в простой парной регрессии. Классическое применение этого результата, сделанное в работе Frisch and Waugh (1933) (авторы которой и были авторами самой теоремы), состоит в том, что при анализе временных рядов оценка регрессии с временным трендом дает те же результаты, что и регрессия, использующая переменные 4 с устраненным трендом (детрендированные переменные) . В качестве примера рассмотрим случай, когда является постоянным X 1 членом (т.е. — первый столбец состоит из единиц). Тогда — это коэфi наклона в регрессии с постоянным членом. Используя теорему 3.2, получаем вектор остатков для любой переменной из X : 2 −1 x∗ = x − X (X X ) X x 1 1 1 1 −1 − = x i(i i) i x = x − i(1/n)i x (3-21) − = x i ¯ x 0 = M x. (См. раздел A5.4, где мы выводим этот результат алгебраически.) Значит, в этом случае остатки есть отклонения от выборочного среднего. Таким образом, каждый столбец M X — это первоначальная переменная, записанная 1 2 4 Как в нашем примере про инвестиции. 42 Глава 3. Метод наименьших квадратов в отклонениях от своего выборочного среднего. Этот общий результат может быть записан как следующий вывод. Вывод 3.2.2. Регрессия с постоянным членом Коэффициенты наклона (коэффициенты при «экономических» переменных) множественной регрессии, содержащей постоянный член, могут быть получены путем замены всех переменных их отклонениями от выборочного среднего и построения оценки коэффициентов регрессии переменной y, записанной в новом виде, на объясняющие переменные, также записанные в виде отклонений. [Этот результат использовался в (3-8).] После получения коэффициентов при как получить коэффициенты при (коэффициент при константе)? МожX конечно, повторить всю процедуру, поменяв местами и . Но есть и X X 1 2 более простой способ. Мы уже нашли b . Значит, мы можем воспользоваться 2 (3-18) и найти . Если — просто столбец единиц, то первое уравнение b X 1 1 приводит к известной формуле − − · · · − b = y x b x b , 1 2 2 K K [чем мы воспользовались в (3-7)]. Теорему 3.2 и выводы 3.2.1 и 3.2.2 вместе можно использовать для интерпретации раздельной регрессии в том случае, если модель содержит постоянную. По теореме 3.1 если столбцы ортогональны, т. е. X x x = 0 m k для любых столбцов и то коэффициенты в регрессии на при k m, y X X = равны . Если регрессия содержит постоянную, то = [x , x , . . . , x ] x y/x x 1 2 K k k k мы можем вычислить коэффициенты множественной регрессии путем построения регрессии y в отклонениях на столбцы X тоже в отклонениях от их средних. В этом случае «ортогональность» столбцов означает, что выборочные ковариации (и корреляции) переменных равны нулю. Получаем новую теорему. Теорема 3.3. Ортогональная регрессия Если множественная регрессия на содержит постоянную и переменные y X регрессии не коррелируют между собой, то коэффициенты наклона в множественной регрессии равны коэффициентам парных регрессий на y константу и каждую переменную по отдельности. Доказательство. Этот результат следует из теорем 3.1 и 3.2. 3.4. Частичная регрессия и частные коэффициенты корреляции Множественная регрессия может применяться для проведения мысленного эксперимента, который, возможно, нельзя провести в реальности, анаceteris paribus лиза (при прочих равных условиях), который часто встреча- 3.4. Частичная регрессия и частные коэффициенты корреляции 43 ется в экономических рассуждениях. Возвращаясь к примеру 2.2, уравнение регрессии, связывающей заработок с возрастом и уровнем образования, позволяет нам провести мысленный эксперимент, сравнивающий заработда- двух людей одинакового возраста с разными уровнями образования, же если выборка не содержит ни одной такой пары. Именно это свойство регрессий подразумевается под названием частные коэффициенты регрессии. Чтобы провести такой эксперимент, нужно сначала оценить регрессии заработка и уровня образования на возраст и вычислить остатки этих регрессий. По построению возраст совершенно никак не будет объяснять разброс этих остатков. Значит, корреляция между такими «очищенными» заработком и уровнем образования не будет зависеть от возраста (она «очищена» от его влияния). Тот же подход можно применить к изучению коэффициентов корреляции между переменными. Продолжая наш пример, с какой долей уверенности мы можем утверждать, что корреляция между заработком и уровнем образования отражает прямую связь между ними, а не их совместную положительную зависимость от возраста? Чтобы ответить на этот вопрос, используются частные коэффициенты корреляции, способ расчета которых похож на способ вычисления отдельных коэффициентов регрессии. В нашем примере частный коэффициент корреляции заработка и уровня образования, исключающий эффект возраста, вычисляется так: 1. остатки в регрессии заработка на константу и возраст. y = ∗ 2. z = остатки в регрессии уровня образования на константу и возраст. ∗ ∗ 3. Частная корреляция равна простой корреляции и . r y z ∗ ∗ yz Может показаться, что здесь требуется большой объем вычислений. С помощью вывода 3.2.1 можно записать векторы остатков в пунктах 1 и 2 в −1 виде и где − — генератор остатков, y = My z = Mz, M = I X(X X) X ∗ ∗ определенный в (3-14). Мы будем предполагать, что содержит константу, X так что векторы остатков и имеют нулевые средние. Тогда квадрат y z ∗ ∗ частного коэффициента корреляции равен 2 (z y ) ∗ ∗2 ∗ r = . yz (z z )(y y ) ∗ ∗ ∗ ∗ Есть также еще одно удобное соотношение. После оценки множественной регрессии из (5-13), применяемую для проверки гипотезы о t-статистику равенстве коэффициента нулю (т.е. последний столбец табл. 4.1), можно использовать для вычисления: 2 t ∗2 z (3-22) r = , yz 2 t + число степеней свободы z где число степеней свободы равно Доказательство этого неочеn−(K +1). видного интуитивно результата может быть полезно в качестве иллюстрации к некоторым результатам, касающимся частичной регрессии. Мы будем пользоваться двумя полезными алгебраическими результатами метода наименьших квадратов. Первый дает способ вычислить отдельный диагональный элемент матрицы, обратной матрице моментов, такой как −1 (X X) . 44 Глава 3. Метод наименьших квадратов Теорема 3.4. Диагональные элементы матрицы, обратной к матрице моментов Пусть — блочная матрица т.е. матрица, состоящая из WPl [X, z], столбцов и дополнительного столбца Последний диагональный K X z. −1 −1 −1 элемент равен , где и (W W) (z Mz) = (z z ) z = Mz M = I− ∗ ∗ ∗ −1 −X(X X) X . Доказательство. Эта теорема есть приложение формулы обращения блочной матрицы (A-74), где и A = X X, A = X z, A = z X A = z z. 11 12 21 22 Обратим внимание, что эта теорема обобщает результат раздела A2.8, где содержал только константу, т.е. столбец X i. Мы можем воспользоваться теоремой 3.4, чтобы получить (3-22). Пусть и c u обозначают соответственно коэффициент при z и вектор остатков множественной регрессии y на W = [X, z]. Тогда по определению квадрат в (3-22) равен t-статистики 2 c 2 t = , z −1 u u (W W) K+1,K+1 n−(K+1) −1 где — это (последний) диагональный элемент матри(W W) K +1-й K+1,K+1 −1 цы . (Член в скобках входит в формулу (4-17). Мы пока пользуемся (W W) только алгебраическим результатом.) Теорема утверждает, что этот элемент −1 2 2 равен . Из вывода 3.2.1 мы знаем, что . Для удоб(z z ) c = [(z y )/(z z )] ∗ ∗ ∗ ∗ ∗ ∗ ства обозначим − Тогда DF = n (K + 1). 2 2 (z y /z z ) (z y ) DF ∗ ∗ ∗ 2 ∗ ∗ ∗ t = = . z (u u/DF )/z z (u u)(z z ) ∗ ∗ ∗ ∗ Отсюда следует, что формула (3-22) эквивалентна: 2 2 ( ) ( ) z y DF z y ∗ ∗ ∗ ∗ 2 2 t (z y ) (u u)(z z ) (u u)(z z ) ∗ ∗ z ∗ ∗ ∗ ∗ = = = . 2 2 2 2 t + DF (z y ) DF (z y ) (z y ) + (u u) (z z ) ∗ ∗ ∗ + DF ∗ +1 z ∗ ∗ ∗ ∗ (u u)(z z ) (u u)(z z ) ∗ ∗ ∗ ∗ Разделив числитель и знаменатель на мы получаем (z z ) (y y ), ∗ ∗ ∗ ∗ 2 2 t (z y ) /(z z )(y y ) ∗ ∗ ∗ z ∗ ∗ ∗ = = 2 2 t + DF (z y ) /(z z )(y y ) + (u u)(z z )/(z z )(y y ) ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ z ∗2 r yz = . (3-23) ∗2 r + (u u)/(y y ) ∗ ∗ yz Теперь нам нужно воспользоваться еще одной теоремой для преобразования u u. Нужный нам результат формулируется как теорема 3.5. 3.4. Частичная регрессия и частные коэффициенты корреляции 45 Теорема 3.5. Изменение суммы квадратов при включении в регрессию дополнительной переменной Если — сумма квадратов остатков регрессии на а — сумма e e y X, u u квадратов остатков при регрессии на и то y X z, 2 u u = e e − c (z z ) ≤ e e, (3-24) ∗ ∗ где — коэффициент при в удлиненной регрессии на а — c z y [X, z], z = Mz ∗ вектор остатков регрессии на z X. Доказательство. В удлиненной регрессии на и вектор остатков равен y X z − − Отметим, что если не выполняется равенство u = y Xd zc. X z = 0, −1 то d не будет равно b = (X X) X y. (См. подраздел 4.3.2.) Более того, если не выполняется равенство то не будет равно − c = 0, u e = y Xb. −1 Согласно выводу 3.2.1, c = (z z ) (z y ). ∗ ∗ ∗ ∗ Из (3-18) следует, что коэффициенты при X в этой удлиненной регрессии равны −1 −1 − − d = (X X) X (y zc) = b (X X) X zc. Подставляя это выражение для в выражение для мы получаем d u, −1 − − − − u = y Xb + X(X X) X zc zc = e Mzc = e z c. ∗ Значит, 2 − u u = e e + c (z z ) 2c(z e). ∗ ∗ ∗ Однако , а Подставляя эти равенства в e = My = y z e = z y = c(z z ). ∗ ∗ ∗ ∗ ∗ ∗ выражение для выше, мы получаем утверждение теоремы. u u Возвращаясь к нашему рассуждению, мы получаем, что e e = y y и ∗ ∗ 2 2 Таким образом, c (z z ) = (z y ) /(z z ). ∗ ∗ ∗ ∗ ∗ ∗ 2 − u u y y (z y ) /z z ∗ ∗ ∗ ∗ ∗ ∗ ∗2 − = = 1 r . yz y y y y ∗ ∗ ∗ ∗ Подставляя эти выражения в знаменатель выражения (3-23), мы выводим желаемый результат. Пример 3.1. Частные корреляции В данных из приложения в подразделе 3.2.2 простые корреляции между ∗ инвестициями и регрессором и частные корреляции между инвеr и четырьмя регрессорами (при заданных значениях остальных переменных) приведены в табл. 3.2. Как видно из таблицы, нет четкой связи между простыми и частными корреляциями. Стоит обратить внимание на знаки коэффициентов. Знаки частных коэффициентов корреляции равны знакам соответствующих коэффициентов регрессии, три из которых отрицательны. Все простые коэффициенты корреляции положительны из-за «скрытых» временных эффектов. 46 Глава 3. Метод наименьших квадратов Таблица 3.2. Корреляция между инвестициями и другими переменными Простая корреляция Частная корреляция Временной тренд 0,7496 –0,9360 ВНП 0,8632 0,9680 Процентная ставка 0,5871 –0,5167 Темп инфляции 0,4777 –0,0221 3.5. Качество приближения и анализ разброса Используемый нами критерий качества приближения, сумма квадратов остатков, является мерой близости линии регрессии к данным. Однако легко видеть, что сумма квадратов остатков может произвольно изменяться при умножении всех значений y на некоторую константу. Поскольку приближенные значения, получаемые из регрессии, определяются значениями x, нас, скорее, интересует вопрос, насколько хорошим объяснением изменения y являются изменения x. На рис. 3.3 показаны три возможных случая для модели линейной регрессии. Мера качества приближения, которую мы сейчас опишем, определяется как критерием качества приближения, так и мерой ковариации между и x. y Рис. 3.3. Выборка 3.5. Качество приближения и анализ разброса 47 Дисперсия зависимой переменной определяется с помощью отклонений значений этой переменной от среднего − Полная вариация — это (y 2y ). y i сумма квадратов отклонений: n 2 − SST = (y 2y ) . i i=1 В контексте уравнения регрессии можно записать ˆ y = Xb + e = y + e. Для отдельного наблюдения имеем y = y ˆ + e = x b + e . i i i i i Если регрессия содержит константу, то сумма остатков будет равна нулю, а среднее предсказанных значений y будет равно среднему настоящих знаi в выборке. Вычитая из обеих частей и применяя результат 2 из y 2y i подраздела 3.2.3, получаем − − − y y = y ˆ y + e = (x x) b + e . i i i i i Рисунок 3.4 иллюстрирует эти вычисления в случае регрессии с двумя переменными. Интуитивно понятно, что регрессия будет хорошо описывать данные в том случае, когда отклонения y от среднего в большей степени объясняются отклонениями x от среднего, чем остатками. Поскольку сумма членов этого разложения равна нулю, для оценки воспользуемся суммой квадратов. Для полной выборки имеем 0 0 0 M y = M Xb + M e, Рис. 3.4. Разложение y i 48 Глава 3. Метод наименьших квадратов 0 где — идемпотентная матрица размером × приводящая наблюдеM n, ния к отклонениям от средних значений. (См. (3-21) и раздел A2.8.) Столбец 0 соответствующий постоянному члену, равен нулю, а так как среднее M X, 0 0 остатков тоже равно нулю, то M e = e. Далее, поскольку e M X = e X = 0, сумма квадратов равна 0 0 y M y = b X M Xb + e e. Перепишем это как: Полная (total) сумма (sum of) квадратов (squares) Сумма квадратов регрес= (regression) Сумма квадратов ошибок (error), т. е. + SST = SSR + SSE. (3-25) (Отметим, что это же разложение используется в конце подраздела 3.2.4.) Теперь мы можем получить меру того, насколько хорошо линия регрессии подгоняет наблюдаемые данные: 0 SSR b X M Xb e e − коэффициент детерминации: = =1 . (3-26) 0 0 SST y M y y M y 2 Коэффициент детерминации обозначают . Как мы показали, он должен R лежать между 0 и 1 и измерять часть вариации значений y, объясняемую изменениями регрессоров. Он равен нулю, если регрессия есть горизонтальная линия, т. е. все элементы b, кроме константы, равны нулю. В этом случае предсказываемые значения всегда равны так что изменения значений y y, x никак не сказываются на предсказываемых значениях y. В этом случае регрессоры x не имеют объясняющей силы. В другом крайнем случае, при 2 все значения x и лежат в одной гиперплоскости (на прямой в слуR = 1, y чае регрессии с двумя переменными) и все остатки равны нулю. Если все 2 наблюдения лежат на одной вертикальной прямой, то R не имеет смысла и не может быть вычислен. Регрессионный анализ часто используется для прогнозирования. В этом случае нас интересует, с какой точностью модель регрессии предсказывает изменения зависимой переменной. Имея это в виду, полезно иметь еще 2 один способ вычисления . Запишем R 0 0 b X M Xb = y ˆ M y ˆ , 0 0 0 но y ˆ = Xb, y = y ˆ + e, M e = e и X e = 0, так что y ˆ M y ˆ = ˆ y M y. Умножим 2 0 0 0 0 0 0 ˆ ˆ ˆ на ˆ ˆ и получим R = y M y /y M y = y M y/y M y 1 = y M y/ˆ y M y ˆ 2 [Σ (y − y )(ˆ y − y )] i i i 2 (3-27) R = , ˆ 2 2 [Σ (y − y ) ][Σ (ˆ y − y ) ] i i i i что есть квадрат коэффициента корреляции между наблюдаемыми значениями и значениями, предсказываемыми регрессией. y 3.5. Качество приближения и анализ разброса 49 Пример 3.2. Качество подгонки функции потребления Данные, представленные на рис. 2.1, приведены в табл. F2.1. Для этих данных с y в качестве C и x в качестве X мы получаем y = 273, 2727, и x = 323, 2727, S = 12618, 182, S = 12300, 182, S = 8423, 182 SST = yy xx xy 2 = 12618, 182, b = 8423, 182/12300, 182 = 0, 6848014, SSR = b S = 5768, 2068 xx 2 2 − и SSE = SST SSR = 6849, 975. Тогда R = b S /SST = 0, 457135. Как xx видно из рисунка, получается удовлетворительное, но все-таки не очень хорошее приближение этого агрегированного временного ряда. С другой стороны, ясно, что на качество отрицательно влияет то, что модель не 2 учитывает аномальных военных лет. Полученное значение относится к R модели, соответствующей пунктирной линии на рисунке. Если мы просто пропустим наблюдения за 1942–1945 гг. и проведем те же вычисления для оставшихся наблюдений, то полученная линия (жирная на рисунке) 2 будет иметь Если дополнить наблюдения переменной R = 0, 93697. W AR, равной 1 в 1942–1945 гг. и нулю в остальных случаях, то получим модель, 2 обозначенную двойной линией, а ее повысится до R 0, 94639. 2 Вычисление можно отразить таблицей дисперсионного анализа R или таблицей анализа разброса (analysis of variance), такой как табл. 3.3. Таблица 3.3. Дисперсионный анализ Исходная Степени свободы Средний запись квадрат 2 Регрессия − − (предполагая b X y ny K 1 наличие постоянного члена) 2 Остаток − e e n K s 2 Всего − − − y y ny n 1 S /(n 1) = yy 2 s y 2 Коэффициент − − R = 1 e e/(y y ny ) детерминации Пример 3.3. Анализ разброса для уравнения инвестиций Анализ разброса для уравнения инвестиций из подраздела 3.2.2 показан в табл. 3.4. Таблица 3.4. Анализ разброса для уравнения инвестиций Исходная запись Степени свободы Средний квадрат Регрессия 0,0159025 4 0,003976 Остаток 0,0004508 10 0,00004508 Всего 0,016353 14 0,0011681 2 R =0,0159025/0,016353=0,97245 50 Глава 3. Метод наименьших квадратов 3.5.1. Скорректированный R-квадрат и меры качества подгонки 2 При использовании R для оценки точности подгонки (goodness of fit) возникает ряд проблем. Первая касается числа степеней свободы, использо2 при оценке параметров. [См. (3-22) и табл. 3.3.] никогда не уменьR при добавлении переменных к уравнению регрессии. Это можно легко понять с помощью уравнения (3-23). Фактически мы сравниваем регрессию y на P, имеющую сумму квадратов остатков с регрессией y на X и доe e, полнительную переменную z, которая имеет сумму квадратов остатков u u. Векторы остатков равны и откуда следует, что z = Mz y = My = e, ∗ ∗ e e = (y y ). Пусть c — коэффициент при z в удлиненной регрессии. Тогда ∗ ∗ −1 c = (z z ) (z y ), и, подставляя это в (3-24), получаем ∗ ∗ ∗ ∗ 2 (z y ) ∗ ∗ ∗2 − − (3-28) u u = e e = e e 1 r , yz (z z ) ∗ ∗ ∗ где r — частная корреляция y и z при заданных X. Разделим обе части yz 0 0 2 равенства на y M y. Из (3-26) u u/y M y есть (1 − R ) для регрессии на Xz 0 2 X и z, а есть − Преобразовывая, получаем следующий e e/y M y (1 R ). X результат. 2 Теорема 3.6. Изменение при добавлении переменной к регрессии R 2 Пусть есть коэффициент детерминации в регрессии на и R y X Xz ∗ 2 дополнительную переменную — в регрессии только на а — z, R y X, r X yz частная корреляция между и при данном Тогда y z X. ∗2 2 2 2 − (3-29) R = R + 1 R r . Xz X X yz 2 Таким образом, удлиненной регрессии не может быть меньше. Возникает R соблазн воспользоваться этим, включая в модель дополнительные перемен2 R будет возрастать, стремясь к 1 . Скорректированный R (скорректированный на число степеней свободы), учитывающий эту возможность, 6 записывается так : − e e/(n K) 2 − (3-30) R = 1 . 0 − y M y/(n 1) 2 2 При вычислениях полезна следующая связь между R и R : − n 1 2 2 − − R = 1 (1 R ). − n K 2 Скорректированный R может убывать при добавлении независимой пере2 В действительности может даже принимать отрицательные знаR Можно рассмотреть экстремальный случай: если выборочная корре2 x и y равна нулю, то скорректированный будет равен −1/(n − R 2). 5 У этого метода есть недостаток: точность оценки коэффициентов при включении дополнительных переменных уменьшается. Это будет показано в главе 4. 6 Использование этой меры часто рекомендуют из-за несмещенности обеих величин, входящих в дробь. Впрочем, это отношение не является несмещенной оценкой какого-либо параметра распределения, так что этот довод не очень убедителен. 3.5. Качество приближения и анализ разброса 51 [В этом контексте название «скорректированный представляетR-squared» не совсем подходящим: из (3-30) можно видеть, что не является квадR какой-либо величины.] Рост или уменьшение зависят от того, комR ли улучшение качества приближения при добавлении переменной уменьшение коэффициента из-за уменьшения числа степеней свободы. Общий результат (доказательство которого остается в качестве упражнения) выглядит следующим образом. 2 Теорема 3.7. Изменение при добавлении переменной к регрессии R 2 В множественной регрессии будет уменьшаться (или возрастать) при R удалении переменной из регрессии, если квадрат для этой x t-статистики переменной больше (меньше) 1. 2 Мы показали, что не будет убывать при добавлении переменной к реR Теперь мы попробуем обобщить этот результат. Изменение суммы квадратов остатков при добавлении к регрессии переменных равно X 2 e e = e e − b X M X b , 1,2 1 1 2 2 1,2 1 2 2 где нижний индекс 1 обозначает регрессию только на переменные X , а ин1 1,2 обозначает регрессию на все переменные. Вектор коэффициентов — это коэффициенты при в множественной регрессии y на и . b X X X 2 2 1 2 [См. определения и в (3-19) и (3-20).] Следовательно, b M 2 1 − e e b X M X b b X M X b 1 1 2 2 1 2 2 2 1 2 2 2 2 2 − R = 1 = R + , 1,2 1 0 0 y M y y M y 2 что больше R при ненулевом векторе b . (M X не равно нулю, если толь2 2 1 ко не является линейной функцией , а в этом случае нельзя было бы X X 2 1 построить оценку регрессии на и .) Дальнейшее преобразование этого X X 1 2 уравнения дает y M y b X M X b 1 1 2 2 2 2 2 2 R = R + . 1,2 1 0 y M y y M y 1 2 Но , так что первый множитель равен . Второй множитель y M y = e e 1−R 1 1 1 1 равен множественной корреляции в регрессии на или частной M y M X 1 1 2 корреляции (учитывающей эффект ) в регрессии y на . Приводя подобX члены, получаем 2 2 2 2 − R = R + 1 R r . 1,2 1 1 y2·1 [Это аналог формулы (3-29) для случая многих переменных.] 2 Таким образом, R можно увеличивать до желаемой величины простым добавлением регрессоров. Это свойство является причиной того, чтобы ис2 скорректированный , определяемый формулой (3-30), вместо R 2 2 при выборе из нескольких моделей. Поскольку включает поправку, отR за уменьшение числа степеней свободы, и при этом все равно реагирует на улучшение качества приближения, можно взять модель с макси2 . Есть мнение, что скорректированный недостаточно сильно R R 7 «наказывает» за уменьшение числа степеней свободы . В связи с этим пред7 См., например, работу Amemiya (1985, p. 50–51). 52 Глава 3. Метод наименьших квадратов лагалось сравнивать модели (которые мы обозначаем с помощью индекса используя, например, j), n + K j ˜ 2 2 R = 1 − 1 − R , j j − n K j который минимизирует предсказательный критерий (prediction criterion) Амемии или информационные критерии Акаике и Шварца, которые приво8 в (5-43) и (5-44) . 3.5.2. R-квадрат и константа в модели 2 Вторая сложность с касается постоянного члена в модели. ДоказаR того, что ≤ ≤ предполагает, что матрица X содержит столбец 0 R 1, 0 0 0 единиц. Если это не так, то (1) и (2) и член M e = e, e M X = 0, 2e M XbPla 0 0 0 0 0 y M y = (M Xb + M e) (M Xb + M e) не может быть исключен из уравнения, приводящего к (3-25). Значит, при вычислении e e 2 − R = 1 0 y M y будет получен непредсказуемый результат. Он никогда не может быть больше, но может быть намного меньше того значения, которое было бы получено в регрессии с константой. Может даже получиться отрицательное зна2 Компьютерные программы по-разному вычисляют R в этом случае. 2 Другой подход к вычислению , R 0 b X M y 2 R = , 0 y M y также приводит к проблемам. Полученное значение тоже будет отличаться от значения, полученного в регрессии с константой: здесь может получиться 2 значение больше 1. Некоторые программы обходят проблему, приводя R 2 в этом случае «третий» : квадрат выборочной корреляции значений и R y значений, предсказываемых регрессией. Этот подход может давать обманчивый результат. Если регрессия содержит константу, то, как мы видели, все три способа дают один и тот же результат. Последний способ дает значение между 0 и 1 даже при отсутствии постоянного члена. Однако это значение не равно доле объясненной вариации. С другой стороны, это значение может все же быть полезно при сравнении моделей. При использовании компью2 программ нужно понимать, как вычисляется . Некоторые пакеR выдают предупреждение в случаях, когда вычисляется для регрессий R без константы или при оценке методом, отличным от метода наименьших квадратов. 3.5.3. Сравнение моделей 2 Значение полученное нами для функции потребления в R = 0, 94639, примере 3.2, кажется высоким. Но является ли оно на самом деле высоким? 8 Большинство авторов и компьютерных программ приводят логарифмы именно этих критериев. 3.5. Качество приближения и анализ разброса 53 К сожалению, не существует абсолютных критериев для сравнения. Вообще говоря, при изучении агрегированных данных временных рядов зачастую получаются высокие коэффициенты детерминации, подобные этому. Для исследований, использующих межобъектные данные, высокими считаются 2 и значения около 0,5. Даже коэффициент, равный 0,2, иногда можно счиR успехом. Ответ на вопрос о том, качественно ли регрессия приближает данные, зависит от постановки задачи. Сложно что-либо сказать о сравнительном качестве регрессий в разных контекстах или на разных данных, даже если данные предположительно порождаются одним и тем же процессом. Даже в одной и той же ситуации нужно убедиться, что используется одинаковая основа для сравнения. Так, например, надо выяснить, как именно вычисляются значения зависимой переменной. К примеру, часто возникает вопрос: какая модель лучше описывает данные — линейная или логлинейная? На этот вопрос, к сожалению, 2 2 нельзя ответить прямым сравнением. R линейной модели отличается от R 2 логлинейной модели. Вариация y отличается от вариации ln y. R логлинейной модели обычно оказывается больше, но это не значит, что логлинейная модель действительно лучше описывает данные. 2 линейную Нужно подчеркнуть, что R отражает связь между x и y. Например, на рис. 3.3 показаны данные, которые могут быть порождены моделью 2 − y = α + β(x γ) + ε . i i i (Константа γ позволяет x иметь среднее, отличное от нуля.) Связь y и x в этой модели является нелинейной, и линейная регрессия не даст качественного приближения. 2 Упомянем еще одно обстоятельство. R интерпретируется как объясненная доля изменчивости только в том случае, когда при оценке параметров регрессии использовался метод наименьших квадратов. Выражение − − y y = (ˆ y y ) + e i i i будет всегда верным независимо от того, как были вычислены . Значит, y ˆ i можно использовать взятую из логлинейной модели для выy = exp( lny ), i i числения сумм квадратов в обеих частях. Однако член с перекрестным произведением сокращается, только если при оценке использовался метод наименьших квадратов, а модель содержит константу. Поэтому мы игнориро2 этот член при расчете в логлинейной модели. Только в той ситуаR когда метод наименьших квадратов применяется для оценки линей2 регрессии с константой, мы можем интерпретировать как долю изR y, объясняемую изменчивостью x. Эквивалентное вычисление можно провести, не приводя переменные к отклонениям от среднего, если регрессия не содержит постоянного члена. Однако в регрессиях без константы мы столкнемся с другими трудностями алгебраического характера. Так, 2 значение R будет изменяться при добавлении константы ко всем y, хоть и ясно, что никакого существенного изменения связей между переменными при этом не происходит. Нужно быть крайне осторожным (и даже скептически настроенным) при вычислении и интерпретации мер качества подгонки регрессий, не содержащих постоянного члена. 54 Глава 3. Метод наименьших квадратов 3.6. Линейные преобразования регрессий В качестве последнего способа применения инструментария, разработанного в этой главе, рассмотрим еще один чисто алгебраический результат, полезный для понимания особенностей вычисления линейных моделей. Пусть в регрессии y на X столбцы X были подвергнуты некоторому линейному преобразованию. На практике типичным линейным преобразованием может быть, например, изменение используемых единиц измерения: изменение типа валюты, перевод часов в минуты, миль в километры. В примере 3.4 демонстрируется несколько более сложный случай. Пример 3.4. Оценка произведений искусства Первая теория, объясняющая аукционные цены картин Моне, утверждает, W H) что цена определяется размерами (шириной и высотой картины: ln P = β (1) + β ln W + β ln H + ε 1 2 3 = β x + β x + β x + ε. 1 1 2 2 3 3 Вторая теория говорит, что покупатели интересуются скорее площадью и отношением сторон картины: ln P = γ (1) + γ ln(WH ) + γ ln(W /H ) + ε 1 2 3 = γ z + γ z + γ z + u. 1 1 2 2 3 3 Видно, что , и − . В матричном виде Z XP, z = x z = x + x z = x x = 1 1 2 2 3 3 2 3 где   1 0 0 P = 0 1 1 .   0 1 −1 Эффект преобразования линейной регрессии y на X по сравнению с регрессией y на Z описывается следующей теоремой. . Теорема 3.8. Преобразованные переменные В линейной регрессии на где — невырожденная матрица, преобZ = XP, P −1 разующая столбцы коэффициенты будут равны где — вектор X, P b, b 2 коэффициентов линейной регрессии на а величина R сохраняется. y X, Доказательство. Коэффициенты равны −1 −1 −1 d = (Z Z) Z y = [(XP) (XP)] (XP) y = (P X XP) P X y = −1 −1 −1 −1 = P (X X) P P X y = P b. 56 Глава 3. Метод наименьших квадратов Partial regression coefficient — Коэф- Population regression — Теоретичефициент частной регрессии ская регрессия Partialing out — Выделять эффект Projection — Проекция Partitioned regression — Частичная реProjection matrix — Проектор грессия Prediction criterion — ПредсказательResidual — Остаток ный критерий Residual maker — Генератор остатков Population quantity — Характеристика распределения Total variation — Полная вариация Упражнения 1. Регрессия с двумя переменными Для модели регрессии y = α + βx + ε: a. Покажите, что из нормальных уравнений метода наименьших квадратов следует, что и Σ e = 0 Σ x e = 0; i i i i i b. Покажите, что оценка постоянного члена будет равна − a = y bx; n n 2 c. Покажите, что оценка для равна −x)(y −y)]/[ −x) b b = [ (x (x ]; i i i i=1 i=1 d. Докажите, что при этих значениях параметров достигается единственный минимум суммы квадратов. Для этого покажите, что диагональные элементы матрицы вторых производных суммы квадратов по параметn положительны, а ее определитель равен − 4n[( x ) nx ] = i i=1 n 2 − и положителен всегда, кроме случая, когда все значе- = 4n[ (x x ) ] i i=1 ния одинаковы. x 2. Изменение суммы квадратов Пусть — это полученный с помощью метода наименьших квадратов b вектор коэффициентов регрессии на а — другой вектор размером × y X, c K Докажите, что разность сумм квадратов остатков равна 1. (y − Xc) (y − Xc) − (y − Xb) (y − Xb) = (c − b) X X(c − b). Покажите, что эта разность положительна. 3. Частная теорема Фриша–Во При оценке коэффициентов регрессии y на константу и X мы для вычисления коэффициентов регрессии при можем сначала преобразовать X вычтя из каждого значения выборочное среднее, так же преобразовать y, каждый столбец а затем оценить регрессию преобразованных на преX, X (без константы). Получим ли мы такой же результат, если преобразуем только А если только y? X? 4. Генераторы остатков Чему равно произведение матриц M M, где M определяется формулой 1 1 (3-19), а — формулой (3-14)? M 5. Добавление наблюдения Выборка состоит из наблюдений и . Оценка методом наименьn y n n −1 ших квадратов, основанная на этой выборке, равна b = (X X ) X y . n n n n n 3.7. Заключение 57 Получено еще одно наблюдение, и . Докажите, что оценка методом наиx y s s меньших квадратов, вычисленная после включения этого наблюдения, будет равна 1 −1 − b = b + (X X ) x (y x b ). n,s n n s s n n s −1 1 + x (X X ) x n s s n Заметьте, что последний множитель равен , остатку при предсказании e y s s с помощью оценок коэффициентов, построенных по X и b . Отсюда можно n n сделать вывод, что новые данные изменяют результат оценки только в том случае, когда новые наблюдения не в точности равны их предсказываемым y значениям. 6. Удаление наблюдения В случае если в одном из наблюдений отсутствуют значения нескольких независимых переменных, часто поступают следующим образом: пропущенные значения заменяют нулями, а набор переменных дополняют еще одной переменной, равной 1 для этого наблюдения и 0 для остальных. Покажите, что эта «стратегия» дает такую же оценку коэффициентов, как и отбра2 этого наблюдения, но изменяет . Рассмотрите частный случай, R когда состоит из константы и одной переменной. Покажите, что замена X пропущенных значений средними значениями по всей выборке даст такие x же результаты, что и добавление новой переменной. 7. Оценка спроса на группу товаров Обозначим полные расходы на потребительские товары повседневноY спроса и длительного пользования и услуги, а , и — расходы в E E E d n s каждой отдельной категории. По определению . Рассмотрим Y = E +E +E d n s систему уравнений для расходов: E = α + β Y + γ P + γ P + γ P + ε , d d d dd d dn n ds s d E = α + β Y + γ P + γ P + γ P + ε , n n n nd d nn n ns s n E = α + β Y + γ P + γ P + γ P + ε . s s s sd d sn n ss s s Докажите, что если все уравнения оцениваются с помощью метода наименьших квадратов, то сумма коэффициентов при Y будет равна 1, а сумма любого другого столбца коэффициентов будет равна 0. 2 8. Изменение скорректированного R 2 Докажите, что скорректированный , задаваемый (3-30), растет (убыR при удалении переменной x из регрессии, если квадрат t-статистики k при в множественной регрессии меньше (больше) 1. x k 9. Регрессия без константы Пусть множественная регрессия оценивается сначала с константой, а потом без. Ответ на вопрос о том, будет ли во втором случае получен более 2 2 высокий R , зависит среди прочего от метода вычисления R . Какая регрессия даст более высокое значение, если используется (стандартная) формула 2 0 − R = 1 (e e/y M y)? 10. Три переменные, и , имеют нулевые средние и единичные дисN, D Y персии. Четвертая переменная C = N + D. В регрессии C на Y коэффициент 58 Глава 3. Метод наименьших квадратов наклона равен 0,8, в регрессии на — 0,5, в регрессии на — 0,4. Какова C N D Y сумма квадратов остатков в регрессии на Всего имеется 21 наблюдеC D? ние, и при вычислении всех моментов используется делитель − 1/(n 1). 11. Используя матрицы сумм квадратов и попарных произведений, приведенные непосредственно перед подразделом 3.2.3, найдите коэффициенты в множественной регрессии реальных инвестиций на константу, реальный 2 ВНП и процентную ставку. Вычислите . R 12. В номере журнала American Economic Review за декабрь 1969 г. (с. 886–896) Натаниел Лефф (Nathaniel Leff) приводит следующие результаты оценки методом наименьших квадратов регрессии, связывающей накопления и возраст по данным из 74 стран за 1964 г.: − − ln S/Y = 7, 3439 + 0, 1596 ln Y /N + 0, 0254 ln G 1, 3520 ln D 0, 3990 ln D , 1 2 − − ln S/N = 2, 7851 + 1, 1486 ln Y /N + 0, 0265 ln G 1, 3438 ln D 0, 3966 ln D , 1 2 где — доля накоплений в доходе, — подушевые накопления, S/Y S/N Y /N — подушевой доход, D — процент населения моложе 15 лет, D — 1 2 процент населения старше 64 лет и — темп роста подушевого дохода. ВерG ли эти результаты? Поясните. [См. обсуждение в работах Goldberger (1973) и Leff (1973).] Эмпирическое приложение Данные, приведенные в табл. 3.5, взяты из статьи Купа и Тобиаса (Koop, Tobias (2004)), посвященной связи между уровнем дохода и характеристиками образования, способностей и семейного окружения. (См. табл. F3.2.) Их данные представляют собой панель из 2178 человек и 17 919 наблюдений. В таблице показаны данные за первый год (и неизменные во времени переменные) для первых 15 индивидов из выборки. Переменные определены в статье. Таблица 3.5. Подвыборка данных Купа и Тобиаса Человек Образо- Зарплата Опыт Способ- Образо- Образо- Братья вание ности вание вание и сестры матери отца 1 2 3 4 5 6 7 8 1 13 1,82 1 1,00 12 12 1 2 15 2,14 4 1,50 12 12 1 −0,36 3 10 1,56 1 12 12 1 4 12 1,85 1 0,26 12 10 4 5 15 2,41 2 0,30 12 12 1 6 15 1,83 2 0,44 12 16 2 7 15 1,78 3 0,91 12 12 1 8 13 2,12 4 0,51 12 15 2 9 13 1,95 2 0,86 12 12 2 10 11 2,19 5 0,26 12 12 2 11 12 2,44 1 1,82 16 17 2 12 13 2,41 4 −1,30 13 12 5 3.7. Заключение 59 Окончание табл. 3.5 1 2 3 4 5 6 7 8 13 12 2,07 3 −0,63 12 12 4 14 12 2,20 6 −0,36 10 12 2 15 12 2,12 3 0,28 10 12 3 Пусть — константа, образование, опыт и способности (собственные X 1 свойства наблюдаемого). Пусть содержит данные об образовании матеX и отца и числе братьев и сестер (свойства семьи). Пусть — заработная y плата. a. Найдите оценки метода наименьших квадратов коэффициентов регрессии y на X . 1 b. Найдите оценки метода наименьших квадратов коэффициентов регрессии на и . y X X 1 2 c. Оцените регрессии каждой из переменных на все переменные и X X 2 1 вычислите остатки этих регрессий. Обозначьте матрицу остатков этих ∗ регрессий . Каковы их средние значения? Объясните матрицу. X 2 2 d. С помощью (3-26) вычислите для регрессии на и . Повторите R y X X 1 2 2 вычисления в случае, когда константа не входит в . Как изменится ? X R 1 2 e. Найдите скорректированный R для полной регрессии с константой. Интерпретируйте полученный результат. ∗ f. Возвращаясь к результату пункта c: оцените регрессию на и . Как y X X 1 2 отличаются полученные результаты от результатов регрессии на и y X 1 X ? Здесь требуется сравнить оценки метода наименьших квадратов ре2 y на X и M X и регрессии y на X и X . Выведите этот резуль1 2 1 2 тат аналитически. (Полученные численные значения, разумеется, должны соответствовать аналитическому результату.) 4.2. Почему именно метод наименьших квадратов? 61 При исследовании предполагается, что имеющиеся данные удовлетворяют предположениям модели. В разделе 4.7 мы рассмотрим ряд проблем, возникающих при изучении неэкспериментальных данных. Предположение А2 о полноте ранга X обычно считается данностью. В подразделе 2.3.2 мы видели, что при нарушении этого условия построение оценки не представляется возможным ни при каком размере выборки. Мультиколлинеарность, или близость реальных данных к нарушению этого условия, рассматривается в подразделах 4.7.1–4.7.3. Пропущенные данные могут существенно помешать изучению выборки. Благоприятный случай, когда пропущены случайные наблюдения, рассматривается в подразделе 4.7.4. Более сложный случай неслучайных пропусков будет рассмотрен в главе 18. Наконец, проблема ошибок в наблюдениях описана в подразделе 4.7.5. Таблица 4.1. Предположения классической модели линейной регрессии A1. Линейность: y = x β + x β + · · · + x β + ε . i i1 1 i2 2 iK K i A2. Полный ранг: Матрица данных размером × X, имеет полный ранг по n K, столбцам. | A3. Экзогенность независимых переменных: E [ε x , x , . . . , x ] = 0, i j1 j2 jK i, j = 1, . . . , n. Корреляция между шоками и независимыми переменными отсутствует. A4. Гомоскедастичность и отсутствие автокорреляции: Все шоки имеют ε i 2 одинаковую дисперсию, σ , и не коррелируют между собой условно по X. A5. Случайные или неслучайные данные: (x , x , . . . , x ) i = 1, . . . , n. i1 i2 iK A6. Нормальное распределение шоков: Шоки распределены нормально. ε i 4.2. Почему именно метод наименьших квадратов? Одна из причин широкого применения метода наименьших квадратов — это простота необходимых вычислений. Впрочем, есть и другие причины для использования этого метода. Во-первых, метод наименьших квадратов реализует естественный подход к оцениванию, явно используя все условия модели. Во-вторых, метод наименьших квадратов дает оптимальный линейный предиктор зависимой переменной, даже если истинное распределение зависимой переменной не описывается линейной моделью. Таким образом, метод наименьших квадратов обладает некоторой устойчивостью, которой лишены другие методы. В-третьих, при некоторых специальных условиях метод наименьших квадратов наиболее оптимально в некотором разумном смысле использует имеющиеся данные. Мы рассмотрим все эти соображения по очереди. 4.2.1. Условия ортогональности генеральной совокупности Пусть x — вектор независимых переменных в регрессионной модели, причем в соответствии с предположением A5 данные могут быть как стохастическими, так и нестохастическими. Предположение A3 гласит, что распределение ошибок стохастически ортогонально независимым переменным, 62 Глава 4. Оценки методом наименьших квадратов т.е. | Следовательно, Поскольку (по закону повторноE [ε x] = 0. Cov[x, ε] = 0. го математического ожидания — теорема B.1) {E | то E [ε x]} = E [ε] = 0, x можно записать это в виде E E [xε] = E E [x(y − x β)] = 0 x ε x y или (4-1) E E [xy] = E [xx ]β. x y x (Поскольку правая часть не является функцией y, можно брать математическое ожидание только по x.) Возьмем обычное уравнение для оценки методом наименьших квадратов: Поделим его на n и перепишем в X y = X Xb. виде суммы, получая n n 1 1 (4-2) x y = x x b. i i i i n n i=1 i=1 Уравнение (4-1) описывает распределение, а (4-2) — его выборочный аналог. Предположим, что выполняются требования законов больших чисел (см. приложение D). Тогда суммы в левой и правой частях (4-2) являются оценками соответствующих частей (4-1). Таким образом, метод наименьших квадратов основывается на переносе теоретических соотношений между переменными на имеющуюся выборку. Мы вернемся к этому подходу построения оценок в главах 12 и 13 при рассмотрении оценок GMM. 4.2.2. Предиктор, минимизирующий среднеквадратичную ошибку Разберем другой подход. Попробуем найти оптимальный линейный предиктор для y. Опустим предположения A6 и A1 (т. е. распределение необязательно описывается линейной моделью). В качестве критерия оптимальности возьмем минимальность среднего квадрата ошибки и найдем преy, минимизирующий среднеквадратичную ошибку, который обозначим Ожидаемый квадрат ошибки этого предиктора: x γ. 2 − MSE = E E [y x γ] . y x Это можно переписать в виде 2 2 MSE = E y − E [y | x] + E E [y | x] − x γ . y,x y,x Мы хотим найти минимизирующее эту величину. Первый член не являγ, функцией так что нужно минимизировать только второй член. Замеγ, что он не является функцией y, а значит, внешнее матожидание можно было бы опустить. Однако оно нам скоро понадобится, поэтому пока оставим его. Необходимое условие представляет собой 2 | − 2 ∂E E [E(y x) x γ] | − ∂[E(y x) x γ] y x = E E = y x ∂γ ∂γ = −2E E x[E(y | x) − x γ] = 0. y x 4.3. Свойства МНК на конечных выборках 65 наклона методом наименьших квадратов, где — номер выборки, по r формуле 100 100 2 − − b = Σ (x x ¯ )y / Σ (x x ¯ ) . r ir r ir ir r j=1 j=1 Гистограмма на рис. 4.1 показывает результат такого эксперимента. Обратите внимание, как близко среднее этого распределения к «истинному» значению 0,5, а также на то, что это распределение имеет значительную дисперсию, что отражает тот факт, что оценка коэффициента, как и любая другая статистика, вычисленная по выборке, есть случайная величина. Понятие несмещенности относится к средним значениям распределения оценок, полученных множеством последовательных выборок. Форма гистограммы также наводит на мысль, что оценка распределена нормально. Мы докажем этот факт в подразделе 4.3.8. (Результаты этого эксперимента могут быть воспроизведены с помощью любой программы построения регрессии, имеющей генератор случайных чисел и умеющей подсчитывать среднее случайной выборки из генеральной совокупности.) 4.3.1. Несмещенность оценки Оценка метода наименьших квадратов является несмещенной на каждой выборке. Чтобы это доказать, запишем −1 −1 −1 (4-4) b = (X X) X y = (X X) X (Xβ + ε) = β + (X X) X ε. Теперь возьмем условные математические ожидания относительно X: −1 | | E [b X] = β + E [(X X) X ε X]. По предположению A3 второй член равен 0, поэтому | (4-5) E [b X] = β. Таким образом, | (4-6) E [b] = E E [b X] = E [β] = β. X X Этот результат можно интерпретировать так: для каждого набора наблюдений X оценка методом наименьших квадратов имеет математическое ожидание, равное Усредняя это по всем возможным X, получаем, что безβ. математическое ожидание также равно β. Вы могли заметить, что в этом разделе весь анализ проводился условно относительно X, т. е. по всей выборке, а в разделе 4.2 мы рассматривали условные распределения y по x . (Внимательные читатели также могi заметить, что в табл. 4.1 в предположении A3 мы обусловливали E[ε |.] i по x , т. е. по всем i и j, по X, а не только по x .) В разделе 4.2 мы предj рассматривать оценки методом наименьших квадратов в контексте совместного распределения случайной величины y и случайного вектора x. Это справедливо, если данные представляют собой межобъектную выборку независимых наблюдений. В этом случае, как мы показали в подразделе 4.2.2, оценка методом наименьших квадратов является выборочным ана- 66 Глава 4. Оценки методом наименьших квадратов логом вектора — коэффициента наклона предиктора, минимизирующеγ среднеквадратичную ошибку, который, в свою очередь, является свойством распределения. В разделе 4.3 мы переходим к изучению самого проE[b|X] генерирующего наблюдаемую выборку. Утверждение = β лучше всего понимать в байесовском смысле: если наблюдался набор данных X, то мы можем ожидать определенного поведения некоторой вычисляемой нами статистики, например коэффициент наклона, вычисленного методом наименьших квадратов, b. Остаток этой главы, да и всей книги будет в большой степени посвящен изучению поведения статистики в следующем смысле: можем ли мы делать выводы из значений статистики, вычисленных для одной выборки, о значениях той же статистики, вычисленных на выборках, полученных таким же образом из того же распределения? Или же можно по значению статистики что-то узнать о свойствах распределения в целом? То есть можно воспринимать условие в E[b|X] в обоих смыслах: и с чисто статистической точки зрения — как вывод относительно свойств оценки, и с точки зрения методологической — что можно узнать о распределении из конкретной конечной выборки. 4.3.2. Смещение, вызванное пропущенными значимыми переменными Весь наш анализ в предыдущих разделах основывался на том, что известно верное уравнение регрессионной модели y = Xβ + ε. (4-7) Однако возможны различные ошибки спецификации модели, которые можно допустить при построении модели регрессии. К наиболее распространенным относятся пропуск значимых переменных и включение излишних переменных. Предположим, что на самом деле уравнение регрессии имеет вид y = X β + X β + ε, (4-8) 1 1 2 2 где две части X имеют соответственно K и K столбцов. Если мы оцениваем 1 2 регрессию y на X , не включая X , то получим оценку 1 2 −1 −1 −1 b = (X X ) X y = β + (X X ) X X β + (X X ) X ε. (4-9) 1 1 1 1 2 2 1 1 1 1 1 1 1 При взятии математического ожидания мы видим, что если не выполняется одно из соотношений, X X = 0 или β = 0, то оценка b является сме2 Широко известен следующий результат, называемый формулой смещения из-за пропущенных переменных (omitted variables formula): E [b | X] = β + P β , (4-10) 1 1 1.2 2 где −1 P = (X X ) X X . (4-11) 1.2 1 2 1 1 Каждый столбец матрицы размером × представляет собой столP K 1.2 1 2 бец коэффициентов наклона, полученных методом наименьших квадратов регрессии соответствующего столбца X на столбцы X . 2 1 4.3. Свойства МНК на конечных выборках 67 Пример 4.2. Пропущенные переменные Если уравнение спроса оценивается без включения значимой переменной, отражающей доходы потребителей (Income), то (4-10) показывает смещение оценки эластичности цены. В качестве убедительного примера рассмотрим данные о ценах на бензин, которые мы использовали в b примере 2.3. Пусть — оценка. Имеем Cov[price, income] E[b|price, income] = β + γ, Var[price] где — коэффициент при доходе. γ Рис. 4.2. Потребление бензина на душу населения в зависимости от цены, 1953–2004 гг. По агрегированным данным нельзя сказать, будет ли γ положительным или отрицательным. Знак смещения b будет совпадать со знаком ковариации, поскольку Var[price] и положительны для нормальных γ благ, каким является бензин. На рис. 4.2 изображен график потребления G/Pop PG. бензина на душу населения в зависимости от индекса цен График существенно отличается от ожидаемого. Однако если посмотреть непосредственно на данные (табл. F2.2 в приложении), то причины этого становятся яснее: при постоянных доходе Income/Pop и ценах других товаров результаты были бы другими. Однако доходы растут и простые G/Pop Income/Pop PG Income/Pop корреляции между и и между и довольно велики — 0,938 и 0,934 соответственно. Чтобы увидеть, существует ли на самом деле ожидаемая связь между ценой и уровнем потребления, нам понадобится очистить наши данные от эффектов Income/Pop. Чтобы это сделать, мы воспользуемся результатом Фриша–Во из теоремы 3.2. В простой регрессии логарифма потребления бензина на душу населения на константу и логарифм индекса цен получается коэффициент 0,29904, у которого, как мы, вообще говоря, и ожидали, «неправильный» знак. 68 Глава 4. Оценки методом наименьших квадратов В регрессии логарифма потребления бензина на душу населения на константу, логарифм цены и логарифм дохода на душу населения оценка ˆ эластичности потребления относительно цены, равна −0, а β, 16949, оценка эластичности относительно дохода, , равна 0,96595. Здесь знаки γ ˆ коэффициентов соответствуют ожиданиям. Результат также соответствует известному наблюдению, что основным фактором, влиявшим на потребление бензина в это время (1953–2004), было не изменение цены, а рост доходов (выпуска). В этом примере использовались всего одна переменная, включенная в регрессию, и всего одна пропущенная переменная. В таких случаях обычно легко определить знак смещения. Важно понимать, что если включено более одной переменной, то в формулу пропущенных переменных входит несколько коэффициентов регрессии, знаки которых соответствуют частным, а не простым корреляциям. Например, если бы в уравнение спроса из предыдущего примера входила цена похожего продукта, то по простой корреляции цены и дохода нельзя было бы определить знак смещения оценки эластичности. Потребовалось бы получить знак корреляции цены и дохода, очищенных от влияния этой цены. Это может оказаться непросто, и сложность задачи возрастает при росте числа переменных. 4.3.3. Включение лишних переменных Если верным уравнением регрессии является (4-12) y = X β + ε, 1 1 а мы проводим оценивание так, будто верно (4-8) (т. е. включаем дополнительные переменные), то можно было бы предположить, что возникнут похожие проблемы. На самом деле это не так. Пропуск значимых переменных можно рассматривать как введение неверных условий на (4-8). Например, пропуск эквивалентен оценке (4-8) при неверном условии ВвеX = 0. 2 2 дение ложного ограничения дает смещенную оценку. Другая точка зрения состоит в том, что мы используем при оценивании неверную информацию. Предположим, однако, что наша ошибка заключается в том, что мы не использовали часть информации, которая является верной. Включение в регрессию лишних переменных X эквивалентно тому, что2 забыть наложить ограничение β = 0 в (4-8) при оценивании. Но (4-8) не 2 является неверным, оно лишь не включает условие Таким образом, β = 0. 2 не нужно отдельно доказывать, что OLS-оценка в (4-8) не смещена при β включении дополнительного условия; на самом деле мы это уже доказали. На основе наших предшествующих результатов можно заключить, что β β 1 1 | (4-13) E [b X] = = . β 0 2 Так в чем же тогда заключается проблема? Казалось бы, нужно всегда включать в модель как можно больше переменных. С теоретической точки зрения проблема здесь заключается в том, что отказ от использования инфор- 4.3. Свойства МНК на конечных выборках 69 Рис. 4.3. Влияние увеличения дисперсии x при неизменных условной и безусловной дисперсиях y мации имеет свою цену. В данном случае этой ценой оказывается уменьшение точности оценки. В подразделе 4.7.1 мы покажем, что матрица ковариаций укороченной регрессии (без ) никогда не будет больше матрицы X 2 2 ковариаций оценки, получаемой при включении лишних переменных . Рассмотрим пример с одной переменной: если сильно коррелирована с , x x 2 1 то ошибочное включение x в регрессию значительно увеличит дисперсию 2 оценки . β 1 4.3.4. Дисперсия оценки наименьших квадратов Если рассматривать регрессоры как неслучайные величины, например, когда исследователь сам выбирает значения в X, то выборочную дисперсию оценки наименьших квадратов можно получить, обращаясь с X, как с матрицей констант. В противном случае мы можем рассматривать X как случайную величину, провести анализ условно относительно наблюдаемых X, а затем усреднить по X, как мы делали при выводе (4-6) из (4-5). С помощью (4-4) можно получить −1 −1 b = (X X) X (Xβ + ε) = β + (X X) X ε. (4-14) −1 Поскольку где A является линейной функцией от b = β+Aε, = (X X) X , b шоков, что мы будем называть линейной оценкой. Как мы уже видели, математическое ожидание второго слагаемого в (4-14) равно 0. Следовательно, независимо от распределения при условии выполнения остальных сделанных ε нами предположений b является линейной несмещенной оценкой По предпоβ. A4 Var[ε|X] = σ I. Значит, матрица условных ковариаций вектора оценки коэффициентов методом наименьших квадратов равна 2 Потери в точности не будет, если в этом случае не содержит никакой X X = 0, X 2 2 1 информации об X . На практике такое случается крайне редко. 1 70 Глава 4. Оценки методом наименьших квадратов | − − | Var[b X] = E [(b β)(b β) X] −1 −1 | = E [(X X) X εε X(X X) X] −1 −1 | (4-15) = (X X) X E [εε X]X(X X) −1 2 −1 = (X X) X (σ I)X(X X) −1 2 = σ (X X) . Выборочная дисперсия оценки в модели парной регрессии. Пример 4.3. Предположим, что X содержит только константу (столбец из одних единиц) и единственный регрессор x. Нижний правый элемент матрицы −1 2 равен σ (X X) 2 σ | − | Var [b x] = Var [b β x] = . n − 2 (x x) i i=1 b. Обратим особенное внимание на знаменатель дисперсии Чем больше дисперсия x, тем меньше дисперсия b. Например, рассмотрим задачу оценки коэффициентов наклона регрессий на рис. 4.3. Более точный результат будет получен для данных правой части рисунка. 4.3.5. Теорема Гаусса–Маркова Получим общий результат для класса линейных несмещенных оценок β. Теорема Гаусса–Маркова Теорема 4.2. В модели линейной регрессии с матрицей регрессоров оценка методом X наименьших квадратов имеет наименьшую дисперсию среди всех линейb несмещенных оценок параметра Для любого вектора констант β. w линейной несмещенной оценкой с наименьшей дисперсией параметра w b является w β. Заметим, что доказательство теоремы не использует предположение A6 (нормальности распределения шоков). Необходимы только предположения A1–A4. Прямой подход к доказательству этой теоремы — это определить класс линейных несмещенных оценок (b Cy, таких что |X] и = E[b = β) L L потом найти в этом классе оценку с наименьшей дисперсией. Мы пойдем другим путем. Нам уже известно, что b — линейная несмещенная оценка. Мы рассмотрим другие линейные несмещенные оценки и покажем, что любая другая линейная несмещенная оценка имеет большую дисперсию. β Пусть — линейная несмещенная оценка где C — матрица. b = Cy β, 0 Поскольку является несмещенной, то b 0 | | E [Cy X] = E [(CXβ + Cε) X] = β, откуда следует, что Существует множество вариантов: например, CX = I. возьмем первые K (или любые K) линейно независимых строк матрицы X. 4.3. Свойства МНК на конечных выборках 71 −1 −1 Тогда где — матрица, обратная к матрице, образованной C = [X : 0], X 0 0 из строк матрицы X. Матрицу ковариаций вектора можно получить, K b 0 −1 2 заменив на C в (4-14); в результате получим | . (X X) X Var[b X] = σ CC 0 −1 Теперь пусть D = C − (X X) X , так что Dy = b − b. Тогда 0 2 −1 −1 | Var[b X] = σ [(D + (X X) X )(D + (X X) X ) ]. 0 −1 Мы знаем, что так что DX должно быть равно CX = I = DX+(X X) (X X), 0. Значит, −1 2 2 2 Var[b | X] = σ (X X) + σ DD = Var[b | X] + σ DD . 0 Поскольку квадратичная форма, соответствующая матрице , равна DD q DD q = z z ≥ 0, условная матрица ковариаций b равна условной матри0 ковариаций b плюс некоторая неотрицательно определенная матрица. Значит, каждая квадратичная форма, соответствующая матрице | Var[b X], 0 больше, чем квадратичная форма, соответствующая матрице | отVar[b X], куда получаем первую часть теоремы. Доказательство второй части теоремы следует из предшествующего рассуждения: дисперсия есть квадратичная форма, соответствующая матw b рице | Аналогично предыдущему, рассматривая произвольный векVar[b X]. тор b , можно получить, что каждый b является линейной несмещенной 0 k оценкой с наименьшей дисперсией для . (Для этого нужно рассмотреть w β k со всеми элементами, кроме k-го, равными нулю.) Утверждение теоремы является более общим, чем этот факт, поскольку он применим, вообще говоря, к любой линейной комбинации элементов β. 4.3.6. Особенности стохастических регрессоров Предыдущий анализ проводился условно относительно наблюдаемой выборки. Безусловный результат удобно получить, проведя анализ условно по b, а затем, «усреднив» (т. е. проинтегрировав по всему множеству условных распределений), по X. Смысл этого состоит в том, что если мы установили несмещенность условно относительно произвольного X, то можем усреднить по всем X и получить безусловный результат. Мы уже пользовались этим подходом для доказательства несмещенности b в подразделе 4.3.1; теперь мы применим его к условной дисперсии. Условная дисперсия b равна 2 −1 | Var[b X] = σ (X X) . Для получения безусловной дисперсии применим (B-69): | | Var[b] = E [Var[b X]] + Var [E [b X]]. X X Второе слагаемое равно нулю, поскольку | для всех X, поэтому E [b X] = β −1 −1 2 2 Var[b] = E [σ (X X) ] = σ E [(X X) ]. X X Вывод, сделанный нами в предыдущем разделе, несколько изменяется: −1 чтобы получить матрицу ковариаций, нужно заменить величину (X X) на 72 Глава 4. Оценки методом наименьших квадратов ее математическое ожидание, что несколько изменяет интерпретацию результата. Безусловную дисперсию b можно описать только в терминах усредненного поведения X, так что необходимо сделать некоторые предположения о дисперсиях и ковариациях регрессоров. Мы вернемся к этому вопросу в разделе 4.4. В подразделе 4.3.5 мы показали, что Var[b | X] ≤ Var[b | X] 0 для любой линейной несмещенной оценки и конкретной выборки X. b = b 0 Но если это неравенство верно для каждого X, то оно должно быть верно и для | Var[b] = E [Var[b X]]. X То есть если неравенство выполняется для каждого конкретного X, то оно должно выполняться и для среднего значения X. Таким образом, полученные нами свойства оценок методом наименьших квадратов — несмещенность и теорема Гаусса–Маркова — верны как условно для конкретной имеющейся выборки, так для случайной выборки из генеральной совокупности. Теорема 4.3. Теорема Гаусса–Маркова (продолжение) В модели линейной регрессии оценка наименьших квадратов является b линейной несмещенной оценкой с наименьшей дисперсией независимо от β того, является случайной или неслучайной матрицей, если при этом X сохраняются остальные предположения модели. 4.3.7. Оценки дисперсии методом наименьших квадратов Если требуется построить тест для гипотезы о векторе или доверительβ интервалы для него, то нам понадобится выборочная оценка его мат−1 ковариаций | . Необходимо оценить параметр Var[b X] = σ (X X) 2 2 генеральной совокупности σ . Поскольку σ — это математическое ожида2 , а — это оценка , по аналогии можно предположить, что ε e ε i i i n 1 2 2 σ ˆ = e i n i=1 2 является естественной оценкой . Однако остатки дают не очень хороσ оценку своих теоретических аналогов: − − − Эта e = y x b = ε x (b β). i i i i i оценка может быть искаженной, поскольку не наблюдается в явном виβ В правой части возникает математическое ожидание квадрата и второе слагаемое может иметь ненулевое математическое ожидание. Остатки равны e = My = M[Xβ + ε] = Mε, 2 поскольку [см. (3-15).] Наш метод оценивания будет основан на MX = 0 σ следующем представлении суммы квадратов остатков: e e = ε Mε. (4-16) 4.3. Свойства МНК на конечных выборках 73 Математическое ожидание этой квадратичной формы равно | | E [e e X] = E [ε Mε X]. Скаляр представляет собой матрицу размером × поэтому ее след ε Mε 1 1, совпадает с ней. Используя результат о циклических перестановках (A-94), получаем | | E [tr(ε Mε) X] = E [tr(Mεε ) X]. Поскольку M является функцией от X, имеем 2 2 | tr ME [εε X] = tr(Mσ I) = σ tr(M). След M равен −1 −1 − − − − tr[I X(X X) X ] = tr(I ) tr[(X X) X X] = tr(I ) tr(I ) = n K. n n n K Таким образом, 2 | − E [e e X] = (n K)σ , так что естественная оценка, рассмотренная ранее, смещена к нулю, хотя смещение и уменьшается с ростом размера выборки. Несмещенная оценка 2 имеет вид σ e e 2 (4-17) s = . n − K Эта оценка является также несмещенной безусловно, поскольку 2 2 2 2 | E [s ] = E E [s X] =E [σ ] = σ . X X 2 Стандартная ошибка регрессии — это s, квадратный корень . Испольs , можно вычислить s 2 −1 | Est. Var[b X] = s (X X) . Далее мы будем обозначать выборочную оценку выборочной дисперсии оценки Est. Var[·]. Квадратный корень k-го диагонального элемента этой мат1/2 называется стандартной ошибкой оценки , [s (X X) ] b kk k хотя часто его называют просто стандартной ошибкой . b k 4.3.8. Предположение о нормальности Пока что наш анализ регрессионных моделей был полупараметрическим (см. раздел 12.3). Мы нигде не пользовались предположением A6 (см. табл. 4.1) о нормальности Это предположение нужно при построении доε. интервалов. Из (4-4) следует, что b является линейной функцией вектора шоков ε. Если допустить, что ε имеют многомерное нормальное распределение, то мы можем использовать результаты раздела B10.2, а так- же уже вычисленные вектор средних и ковариационную матрицу и получить 2 −1 b | X ∼ N [β, σ (X X) ]. (4-18) 74 Глава 4. Оценки методом наименьших квадратов Это дает многомерное нормальное распределение, так что каждый элемент | распределен нормально: b X −1 2 | ∼ (4-19) b X N β , σ (X X) . k k kk Подобную картину мы наблюдали на рис. 4.1 в примере 4.1. Распределение b является условным по X. Нормальное распределение b на конечной выборке — это следствие нашего предположения о нормальности распределения возмущений. В отсутствие этого предположения (или другого похожего условия на распределение ε) мы не могли бы определить точное распределение b, ни условное, ни безусловное. В разделе 4.4 мы сможем получить приближенно нормальное распределение независимо от того, нормально или нет распределение b и случайны ли или нет регрессоры. 4.4. Свойства оценок наименьших квадратов на больших выборках Пользуясь только предположениями A1–A4 из табл. 4.1, мы установили 2 следующие свойства оценок наименьших квадратов b и s параметров и β 2 σ в конечных выборках: • — оценка коэффициента является несмещенной; E[b|X] = E[b] = β 2 2 2 • |X] — оценка дисперсии шоков является несмещенной; E[s = E[s ] = σ 2 −1 2 −1 • и Var[b|X] = σ (X X) Var[b] = σ E[(X X) ]; • теорема Гаусса–Маркова: для любого постоянного вектора w линейной несмещенной оценкой с наименьшей дисперсией (MVLUE, miniw β mum variance linear unbiased estimate) является w b. В этой модели можно также непосредственно вывести асимптотические свойства оценок (или свойства на больших выборках). Предположение о нормальности, A6, здесь перестает быть важным, и мы откажемся от него до обсуждения оценок максимального правдоподобия в подразделе 4.4.6 и главе 14. 4.4.1. Состоятельность оценки наименьших квадратов коэффициента β Несмещенность является полезным свойством для первоначального изучения плюсов некоторой оценки. Знание о несмещенности оценки дает исследователю уверенность в том, что оценка не будет систематически заниженной или завышенной. Однако в качестве стратегии оценивания это знание имеет два недостатка. Во-первых, оценки (за исключением обсуждаемых в этой главе оценок коэффициентов методом наименьших квадратов) редко оказываются несмещенными. Практически всегда в моделях более сложных, чем множественная регрессия, можно лишь надеяться, что оценка будет улучшаться в том смысле, что ее смещение будет становиться все меньше по мере увеличения информации (при росте размера выборки). Таким образом, нам нужен более широкий набор средств для хорошего 4.4. Свойства оценок наименьших квадратов на больших выборках 75 эконометрического анализа. Во-вторых, несмещенность не дает гарантии, что качество оценки улучшается с ростом размера выборки. Выборочные средние, вычисленные по выборкам размеров 2, 100 или 10 000, будут несмещенными оценками среднего генеральной совокупности, и, если использовать лишь критерий несмещенности, нельзя сказать, что какая-то из этих оценок лучше. Естественно, хотелось бы надеяться, что большая выборка лучше маленькой (а соответственно очень большая намного лучше или даже идеальна). Свойство состоятельности в обоих отношениях значительно лучше, чем свойство несмещенности. Для начала мы не будем специфицировать механизм, порождающий матрицу X: матрица X может быть любой комбинацией постоянных и случайных переменных, порожденных независимо от ε. Мы сделаем два важных допущения. Первое является модификацией предположения A5 из табл. 4.1: − последовательность независимых наблюдений. A5a. (x , ε ) i = 1, . . . , n i i Второе касается поведения данных в больших выборках: X X − положительно определенная матрица. (4-20) plim = Q n→∞ n [Мы вскоре вернемся к (4-20).] Оценку методом наименьших квадратов можно записать в виде −1 X X X ε b = β + . (4-21) n n −1 Если определена Q , то X ε −1 plim b = β + Q plim , n поскольку обратная матрица является непрерывной функцией исходной. (Здесь мы воспользовались теоремой D.14.) Нам нужен предел по вероятности последнего члена. Пусть n n 1 1 1 X ε = x ε = w = w. (4-22) i i i n n n i=1 i=1 Тогда −1 plim b = β + Q plim w. Из предположения об экзогенности A3 получаем, что | | E [w ] = E [E [w x ]] = E [x E [ε x ]]= 0, i x i i x i i i так что точное математическое ожидание равно Для неслучайных E [w] = 0. элементов равенство математических ожиданий нулю можно получить x i из одномерных распределений ε . Теперь рассмотрим дисперсию. Согласно i (B-70), | | Второй член равен нулю, поVar[w] = E [Var[w X]] + Var[E[w X]]. скольку | Чтобы вычислить первый член, воспользуемся | E [ε x ] = 0. E [εε i i 2 откуда X] = σ I, 2 1 1 σ X X | | | Var[w X] = E [w w X] = X E [εε X]X = . n n n n 76 Глава 4. Оценки методом наименьших квадратов Таким образом, 2 σ X X Var[w] = E . n n Дисперсия будет сходиться к нулю, если математическое ожидание в скобках сходится к постоянной матрице, так что все выражение при росте n будет определяться первым скалярным членом. Предположения (4-20) для этого будет достаточно. (Вообще говоря, математическое ожидание может расходиться при сходящемся пределе по вероятности, но этот случай маловажен для практических целей.) Тогда отсюда следует, что · (4-23) lim Var[w] = 0 Q = 0. n→∞ Поскольку среднее тождественно равно нулю, а его дисперсия стреw к нулю, то w сходится в среднеквадратичном к нулю, а значит, plim Значит, w = 0. X ε (4-24) plim =0 n и тогда −1 · (4-25) plim b = β + Q 0 = β. Таким образом, при выполнении предположений A1–A4 и дополнительного предположения (4-20) b является состоятельной оценкой в линейной β модели регрессии. При изучении временных рядов, включающих разнообразные временные тренды, часто возникают ситуации, при которых указанные предположения являются слишком строгими. В табл. 4.2 приводится набор более 3 слабых условий Гренандера , которые, как правило, верны для большинства ситуаций. Эти условия гарантируют «доброкачественность» («корректное поведение», «well-behaved») матрицы данных при росте размера выбор4 . Таблица 4.2. Условия Гренандера для доброкачественных данных (Grenander Conditions for Well-Behaved Data) 2 G1. Для каждого столбца матрицы , из условия следует, что X, x d = x x k k nk k 2 Следовательно, не сходится к последовательности нулей. lim d = +∞. x n→∞ k nk Суммы квадратов продолжают расти при росте размера выборки. Ни одна переменная не обращается в ноль. 2 2 G2. для всех Это условие означает, что не lim x /d = 0 i = 1, . . . , n. x x n→∞ k ik nk k будет в большой степени определяться одним-единственным наблюдением и вклад каждого конкретного наблюдения уменьшается при росте n. G3. Пусть R — матрица выборочных корреляций столбцов матрицы X, кроме n столбца констант, если он присутствует. Тогда lim R = C, где n→∞ n C — положительно определенная матрица. Это означает, что условие полноты ранга всегда будет выполняться. Мы уже предполагали, что на конечных выборках X имеет полный ранг. Этим условием мы гарантируем, что наше предположение не будет нарушено при росте размера выборки. 3 Judge et al. (1985, p. 162). 4 Более подробное исследование подобных условий можно найти в White (2001). 4.4. Свойства оценок наименьших квадратов на больших выборках 77 4.4.2. Асимптотическая нормальность оценок наименьших квадратов Как критерий качества оценки состоятельность важнее несмещенности. Поскольку мы стремимся ослабить некоторые условия исходной модели, в частности A6 (нормальность шоков), теряем полученный нами результат о нормальном распределении оценки, который нужен для построения доверительных интервалов в разделе 4.5. Кажется, что за построение более общей модели приходится жертвовать этим результатом. В этом разделе мы покажем, что нормальное распределение шоков не является необходимым условием для получения свойств распределения оценки, которые нам необходимы для статистических выводов, включая построение доверительных интервалов и проверку гипотез. Оказывается, при достаточно широких естественных условиях порождения данных распределения в больших выборках дадут вполне надежный фундамент для статистических выводов в модели регрессии. (Этот подход мы будем использовать и далее в книге при рассмотрении более тонких методов оценивания.) Для получения асимптотических свойств оценок методом наименьших квадратов мы воспользуемся результатами раздела D.3. Чтобы пользоваться различными вариантами центральных предельных теорем, нам придется дополнить условие A3 (отсутствие корреляций) предположением о независимости наблюдений. Из (4-21) следует, что −1 √ X X 1 √ n(b − β) = X ε. (4-26) n n Поскольку обратная матрица является непрерывной функцией исходной, то −1 −1 plim(X X/n) = Q . Значит, если предельное распределение случайного вектора из (4-26) существует, то оно совпадает с предельным распределением X 1 1 −1 √ √ (4-27) plim X ε = Q X ε. n n n Значит, нам нужно найти предельное распределение √ 1 √ − (4-28) X ε = n w E [w] , n √ где [см. (4-22).] Для нахождения предельного распределения E [w] = 0 nw воспользуемся многомерным вариантом центральной предельной теоремы, 5 известным как теорема Линдеберга–Феллера (D19.A) . Заметим, что равw среднему n независимых случайных векторов со средними 0 и w = x ε i i i дисперсиями 2 2 Var[x ε ] = σ E [x x ] = σ Q . (4-29) i i i i i √ Дисперсия равна nw 1 2 2 · · · (4-30) σ Q = σ [Q + Q + + Q ]. 1 2 n n n 5 Заметим, что теоремой Линдеберга–Леви воспользоваться не удастся, так как величина Var[w ] необязательно является постоянной. i 4.4. Свойства оценок наименьших квадратов на больших выборках 81 В табл. 4.3 приведены оценки параметров модели, стандартные отклоt-статистики. и В частности, приведены краткосрочные эластичности. Оценки долгосрочных эластичностей равны − −0, − −0, f = b /(1 c) = 069532/(1 0, 830971) = 411358 2 2 и − f = 0, 164047/(1 0, 830971)0, 970522. 3 Чтобы оценить стандартные отклонения, вычислим частные производные наших функций по шести параметрам модели: ∂φ 2 2 − − g = = 0, 1/ (1 γ) , 0, 0, 0, β / (1 γ) = 2 2 ∂β −2, = [0, 5, 91613, 0, 0, 0, 43365], ∂φ 3 2 − − g = = 0, 1/ (1 γ) , 0, 0, 0, β / (1 γ) = 3 3 ∂β = [0, 0, 5, 91613, 0, 0, 5, 74174], Таблица 4.3. Результаты оценки регрессии уравнения спроса Сумма квадратов остатков: 0,0127352 Стандартная ошибка регрессии: 0,0168227 2 R на основе 51 наблюдения 0,9951081 Переменная Коэффициент Стандартная ошибка Статистика Constant −3,123195 0,99583 −3,136 ln P −0,069532 0,01473 −4,720 G ln Income / Pop 0,164047 0,05503 2,981 ln −0,178395 0,05517 −3,233 P nc ln P 0,127009 0,03577 3,551 uc ln G / Pop в 0,830971 0,04576 18,158 предыдущий момент −n Оцененная матрица ковариаций для b − умножить на (e n = 10 ) Constant ln P ln(Income/Pop) ln P ln P ln(G/Pop) nc uc t−1 G 0,99168 −0,0012088 0,00021705 −0,052602 1,62165e–5 0,0030279 0,0051016 −0,00021705 −0,00024708 0,0030440 0,0091672 −4,0551e–5 −0,00060624 −0,0016782 0,0012795 −0,0001109 −0,0021881 0,043915 0,00068116 8,57001e–5 0,0020943 С помощью (4-36) можно теперь оценить асимптотические дисперсии 2 −1 2 −1 долгосрочных эластичностей, вычислив g [s (X X) ]g и g [s (X X) ]g . 2 3 2 3 Получаем соответственно 0,023194 и 0,0263692. Асимптотические стандартные ошибки — это квадратные корни из этих чисел, равные 0,152296 и 0,162386. 82 Глава 4. Оценки методом наименьших квадратов 4.4.5. Асимптотическая эффективность Мы пока не выводили аналог теоремы Гаусса–Маркова для больших выборок. Это значит, что мы пока не знаем, являются ли оценки методом наименьших квадратов в каком-либо смысле оптимальными в асимптотике. Теорема Гаусса–Маркова дает условия на конечную выборку, при выполнении которых оценка оказывается оптимальной. Требования линейности и несмещенности оценки, однако, существенно ограничивают общность теоремы. В этом подразделе мы попытаемся построить аналог этой теоремы для класса состоятельных (хотя, возможно, смещенных) линейных оценок. Позже мы займемся и нелинейными оценками. Для изучения этих классов оценок нам понадобится новый критерий качества оценки. Определение 4.1. Асимптотическая эффективность Оценка называется асимптотически эффективной, если она состоятельна, асимптотически нормальна и имеет ковариационную матрицу не большую, чем у любой другой состоятельной, асимптотически нормальной оценки. Две оценки можно сравнивать по их асимптотическим дисперсиям. Сложность при сравнении двух состоятельных оценок заключается в том, что обе оценки стремятся к истинному значению параметра при росте размера выборки. Более того, обычно оказывается (как в примере 4.5), что они к тому же имеют одинаковую скорость сходимости, т.е. величины их асимптотических дисперсий имеют одинаковый порядок по размеру выборки, например O(1/n). В этой ситуации иногда можно сравнить дисперсии двух оценок на выборках одинакового размера. В следующем примере мы рассмотрим оценку, минимизирующую модуль отклонения, как альтернативу оценке метода наименьших квадратов. Пример 4.5. Метод наименьших квадратов против метода наименьших абсолютных отклонений: сравнение методом Монте-Карло Ранее (в разделе 4.2) мы видели, что метод наименьших квадратов, несмотря на ряд своих плюсов, не единственный возможный метод построения оценок в линейной модели. В качестве альтернативы можно рассмотреть оценки LAD (least absolute deviations) — оценки, минимизирующие сумму модулей отклонений. (Более подробно эти оценки будут рассмотрены в подразделе 7.3.1.) Эти оценки строятся следующим образом: n b = вектор, минимизирующий |y − x b |, LAD i 0 i i=1 в отличие от оценок метода наименьших квадратов, которые строятся как n 2 b вектор, минимизирующий − = (y x b ) . LS i 0 i i=1 4.4. Свойства оценок наименьших квадратов на больших выборках 83 Предположим, что модель регрессии имеет вид x y = β + ε , i i i причем распределение имеет нулевое условное среднее, постоянную ε i 2 дисперсию и нулевую условную медиану, т.е. распределение симметσ также потребуем, чтобы plim(1/n)X ε = 0. Это обычные предположения линейной модели, но с заменой требования нормальности распределения требованием его симметричности. При таких условиях оценка P состоятельна и асимптотически нормальна, а ее асимптотическая LS ковариационная матрица описывается теоремой 4.4 и будет обозначаться 2 σ A . В ряде работ (Koenker, Bassett (1978, 1982), Huber (1987), Rogers (1993), Koenker (2005)) было показано, что в таких условиях оценка b также LAD является состоятельной. Хорошей оценкой асимптотической дисперсии 2 2 будет величина (1/2) [1/f (0)] где f (0) — плотность распределения b A, LAD ε в нуле, т.е. в его медиане. Таким образом, мы можем сравнить эти две оценки, сравнивая их асимптотические дисперсии. Отношение асимптотической дисперсии элемента b и асимптотической дисперсии k-го LAD соответствующего члена b равно LS 2 2 2 q = Var(b )/Var(b ) = (1/2) (1/σ )[1/f (0)] . k,LAD k,LS k Если на самом деле распределены нормально и имеют нулевое матемаε ожидание и медиану, то 2 −1/2 2 2 f (ε) = (2πσ ) exp(−ε /(2σ )), 2 −1/2 q так что f (0) = (2πσ ) , и в этом случае = π/2. Итак, если k ошибки распределены нормально, то оценки LAD асимптотически менее эффективны в раза. π/2 = 1, 573 Оценки LAD оказываются полезны, когда нормальность распределения ошибок предполагать нельзя. В результате большого количества исследований было установлено, что преимущества LAD-оценок особенно значительны при маленьких размерах выборок и если распределение имеет более толстые хвосты, чем нормальное, т. е. более вероятны ε y большие по модулю значения . При росте размера выборки оценки i можно ожидать, что оценки LS восстановят свое преимущество. Мы рассмотрим этот аспект с помощью маленького исследования методом Монте-Карло. В примерах 2.6 и 3.4 мы наблюдали интересный аспект ценообразования на рынке произведений искусства: оказывается, большие картины на аукционах продаются в среднем дороже, чем маленькие. Таблица F4.1 в приложении содержит информацию о продажной цене, ширине и высоте 430 картин Моне. Все эти картины были проданы на аукционах по ценам от 10 тыс. до 33 млн долл. Результаты оценки линейной регрессии логарифма цены на константу, логарифм площади и отношение сторон холста приведены в верхней строке табл. 4.4. Это основной результат, на который мы опираемся в нашем исследовании. 84 Глава 4. Оценки методом наименьших квадратов Таблица 4.4. Оцененные уравнения для цен на произведения искусства Константа Log Area Aspect Ratio Полная Среднее Стан- Среднее Стан- Среднее Станвыборка –8,42653 0,61184 1,33372 0,09072 0,12753 LAD –7,62436 0,89055 1,20404 0,13626 –0,21260 0,13628 R = 10 LS –9,39384 6,82900 1,40481 1,00545 0,39446 2,14847 LAD –8,97714 10,24781 1,34197 1,48038 0,35842 3,04773 R = 50 LS –8,73099 2,12135 1,36735 0,30025 0,52222 LAD –8,91671 2,51491 1,38489 0,36299 –0,06129 0,63205 R 100 = LS –8,36163 1,32083 1,32758 0,17836 –0,17357 0,28977 LAD –8,05195 1,54190 1,27340 0,21808 –0,20700 0,29465 Чтобы продемонстрировать разницу в поведении оценок LS и LAD, мы 7 проведем следующее исследование методом Монте-Карло . Сделаем 100 R выборок без возвращения размера из нашего набора из 430 наблюдений. Для каждой из этих ста выборок построим оценки b и b . Затем LS,r LAD,r 8 усредним оценки каждого метода и построим их выборочную дисперсию . Выборочная дисперсия 100 наборов результатов соответствует понятию «разброс в повторяющихся выборках». Мы проделаем этот эксперимент для R = 10, 50 и 100. Поскольку вся выборка достаточно велика, можно воспользоваться результатами регрессии, полученными с использованием всей выборки, как истинными значениями параметров. Приведенные в табл. 4.1 стандартные отклонения для оценок LAD, построенных для всей выборки, получены с помощью бутстрэпа (бутстрэпирования, bootstrap). Короче говоря, процедура состоит в следующем: мы берем B — у нас — выборок размером n (430) с возвращением из общей выборки B = 100 размера n. По каждой из этих выборок строится оценка LAD. Оценка дисперсии оценки LAD получается вычислением среднеквадратичного отклонения этих B-оценок от оценки, построенной по первоначальной выборке (не среднее этих B-оценок). Этот метод будет подробно описан в разделе 15.4.Если предположения модели верны, то должно наблюдаться следующее: 1. Поскольку обе оценки состоятельны, полученные средние должны быть близки к результатам регрессии всей выборки и стремиться к ним при росте R. R 2. При росте выборочные дисперсии оценок должны убывать. 3. Вообще говоря, стандартные отклонения оценок LAD должны быть больше стандартных отклонений оценок LS. 86 Глава 4. Оценки методом наименьших квадратов 4.4.6. Оценка максимального правдоподобия Мы видели две причины для применения метода наименьших квадратов: во-первых, теорема 4.1 показывает, что оценка эта является выборочным аналогом линейного предиктора y, минимизирующего среднеквадратичное отклонение; во-вторых, теорема 4.2 Гаусса–Маркова показывает, что при выполнении условий модели эта оценка является несмещенной линейной оценкой имеющей наименьшую дисперсию. Ни один из этих двух реβ, не использовал предположение A6 (нормальность распределения ε). Возникает естественный вопрос: зачем вообще вводилось это предположение? На то есть две причины. Во-первых, предположение нормальности будет использоваться для построения доверительных интервалов в разделах 4.5 и 4.6. Однако в подразделе 4.4.2 было показано, что ЦПТ позволяет делать статистические выводы исходя из асимптотической нормальности, даже если шоки не распределены нормально. Кажется, что предположение A6 становится излишним, что было бы во многом верным, если бы не вторая причина. Если шоки распределены нормально, то оценка наименьших квадратов также является оценкой максимального правдоподобия (maximum likelihood estimator, MLE). Оценки максимального правдоподобия будут подробно рассмотрены в главе 14, а здесь будет приведено лишь их краткое описание. В конечном счете мы придем к тому, что, будучи MLE, оценка LS оказывается асимптотически эффективной в классе всех состоятельных асимптотически нормальных оценок. Это утверждение служит аналогом теоремы Гаусса–Маркова для больших выборок и известно как граница Крамера–Рао. Обе эти теоремы схожи тем, что указывают на то, что оценки LS наиболее эффективны среди оценок из некоторого класса; различие в том, о каком именно классе идет речь: • теорема Гаусса–Маркова: линейные несмещенные оценки; • MLE: cостоятельные и асимптотически нормальные оценки при условии нормальности распределения шоков. Ни один из этих классов не вложен в другой. Заметим, например, что результат, касающийся MLE, не опирается ни на линейность, ни на несмещенность. Теорема Гаусса–Маркова, наоборот, не требует ни нормальности, ни состоятельности. Теорема Крамера–Рао описывает асимптотические свойства. Важным вопросом исследования является эффективность оценки. Результаты, касающиеся эффективности, позволяют определить, как лучше всего пользоваться имеющимся набором данных для статистических выводов. Вообще говоря, обычно трудно говорить об эффективности оценки без упоминания конкретных альтернатив для сравнения. Теорема Гаусса–Маркова представляет собой важный результат для линейной модели. Однако у нее нет аналогов при любом другом моделировании, поэтому, как только мы отходим от линейной модели, нам требуются другие способы сравнения оценок. Принцип максимального правдоподобия позволяет исследователю определять асимптотическую эффективность оценок, но только при наличии дополнительного предположения о распределениях всех наблюдаемых случайных величин. Пример 4.6 показывает, что b является MLE-оценкой 4.4. Свойства оценок наименьших квадратов на больших выборках 87 в модели регрессии с нормально распределенными шоками. В примере 4.7 рассмотрен случай, когда распределение шоков отлично от нормального и как следствие b менее эффективна, чем MLE. MLE с нормально распределенными возмущениями Пример 4.6. Если шоки распределены нормально, условные распределения y |x также i i 2 нормальны и имеют средние x и дисперсии , так что плотность y |x β σ i i i имеет вид 1 2 − − x exp (y β) i i 2 √ |x f (y ) = . i i 2 2πσ Логарифм функции правдоподобия, вычисленной по выборке из n независимых наблюдений, равен логарифму плотности совместного распределения наблюдаемых случайных величин. Если выборка случайна, то это будет произведение плотностей каждой из величин, так что логарифм функции правдоподобия по имеющимся данным, обозначаемый как 2 lnL(β, |y,X), будет равен сумме логарифмов плотностей. После некотоσ преобразований мы придем к 2 2 2 1 2 |y,X) −(n/2)[ln − x lnL(β, σ = σ + ln 2π + (1/σ ) Σ (y β) ]. i i i n 2 Значения и , максимизирующие эту функцию, являются оценками β σ 2 метода MLE для и . Как мы увидим далее в главе 14, функции от β σ данных, максимизирующие эту сумму, будут представлять собой вектор коэффициентов метода наименьших квадратов b и усредненный квадрат остатков Также в главе 14 будет получен следующий результат: e e/n. ˆ 2 −1 2 −1 Asy.Var β = −E[∂ ln L/∂β∂β ] = σ E[(X X) ], M L который в точности совпадает с тем, что мы получили в подразделе 4.3.6. Таким образом, оценка наименьших квадратов является оценкой максимального правдоподобия. Она состоятельна, асимптотически (и точно) нормально распределена и при нормальном распределении шоков по теореме 14.4 асимптотически эффективна. Важно отметить, что свойства оценок MLE зависят от того, каким предполагается распределение наблюдаемых случайных величин. Если предположить распределение отличное от нормального, то b не будет оценкой ε, MLE и может не быть эффективной. Рассмотрим следующий пример. Пример 4.7. Модель гамма-регрессии В работе Green (1980a) рассматривается оценивание регрессионной модели с асимметрично распределенными шоками: √ √ ∗ ∗ − y = (α + σ P ) + x β + (ε σ P ) = α + x β + ε , 88 Глава 4. Оценки методом наименьших квадратов где имеет гамма-распределение (как в разделе B4.5 приложения [см. (Bε а σ = P /λ — это стандартное отклонение шоков. В этой модели ковариационная матрица для оценки коэффициентов методом LS (не включая константу) равна −1 2 0 Asy. Var[b | X] = σ (X M X) , 9 а для оценки MLE (отличной от LS) — ˆ −1 2 0 ≈ − Asy. Var[ β ] [1 (2/P )]σ (X M X) . M L За исключением параметра, соответствующего асимметрии, результат совпадает с аналогом для метода наименьших квадратов. Однако нами показывается, что эта оценка, учитывающая асимметрию, более эффективна асимптотически. На эту модель немного похожа модель стохастической границы (stochastic frontier model), которая будет рассмотрена в главе 18. В обеих этих моделях распределение шоков асимметрично. Оценки MLE вычислены способом, учитывающим этот момент, в то время как оценка наименьших квадратов не различает симметричных наблюдений выше и ниже линии регрессии. Это различие и дает большую эффективность оценок MLE в обеих моделях. 4.5. Интервальные оценки Цель получения интервальных оценок состоит в том, чтобы вместе с оценкой параметра еще и явно показывать степень неопределенности этой оценки. Обычно результатом интервального оценивания параметра окаθ выражение вида ˆ θ ± возможное выборочное отклонение. (4-37) (Здесь мы предполагаем, что интересующий нас интервал симметричен отˆ Поскольку величина возможного выборочного отклонения, θ.) вообще говоря, должна отражать степень неуверенности в значении параметра, рассмотрим естественные ограничения. Например, мы можем быть ˆ абсолютно уверены, что истинное значение лежит в интервале θ ± ∞. Это, разумеется, не слишком информативное ограничение. Другое очевидное ограничение состоит в том, что наша уверенность в том, что истинное значеˆ параметра лежит в 0, равна 0%. В самом деле вероятность того, что θ± наша оценка в точности совпадет с оцениваемым значением, равна нулю. Нужно выбрать какой-то конкретный уровень — обычно берут 0,05 или α 0,01 — и построить интервал вида (4-13), такой, что истинное значение параметра лежит в нем с вероятностью (уровнем доверия) − Далее 100(1 α). 9 С помощью матрицы данные приводятся к отклонениям от выборочного среднего. (См. раздел A.2.8 приложения.) В этой модели P должно быть больше 2. 4.5. Интервальные оценки 89 мы рассмотрим процедуру построения такого интервала, а потом применим ее для решения трех часто встречающихся задач — построения интервальной оценки параметра линейной регрессии, построения оценки функции от параметров модели и предсказания значения зависимой переменной при заданных значениях независимых переменных. Вначале мы будем исходить из предположения A6 о независимости распределений шоков, затем несколько ослабим это требование и будем полагаться на асимптотическую нормальность оценок. 4.5.1. Построение доверительного интервала для коэффициента линейной регрессии −1 2 Из (4-18) следует, что b|X ∼ N[β,σ (X X) ]. Отсюда вытекает, что для любого элемента b, скажем b , верно k 2 kk ∼ b N [β , σ S ], k k −1 kk где — диагональный элемент матрицы . Нормируя эту велиS k-й (X X) чину, мы получаем, что − b β k k √ (4-38) z = k 2 kk σ S имеет стандартное нормальное распределение. Заметим, что z , являясь k 2 kk функцией от b , , и S , тем не менее имеет распределение, не зависяβ σ k k z щее от параметров модели или наблюдаемых данных: является базисной k (или основной) статистикой (pivotal statistic). Если нам нужно построить 95%-й доверительный интервал, то необходимо воспользоваться тем, что Prob[−1,96≤ z ≤1,96]. С помощью простых преобразований получаем k √ √ − 2 kk ≤ ≤ 2 kk (4-39) Prob b 1, 96 σ S β b + 1, 96 σ S = 0, 95. k k k Заметим, что здесь определяется вероятность того, что случайный интервал b ± возможное выборочное отклонение содержит , а не вероятность того, β k k что лежит в конкретном интервале. Если нужно получить интервал с доβ вероятностью α, отличной от 95%, то нужно заменить 1,96 в (4-39) на z . (Через z мы обозначаем такое число, что для случай(1−α/2) величины имеющей стандартное нормальное распределение, Prob[z z, z − Таким образом, что соответствует ] = 1 α/2. z = 1, 96, α = 0, 05.) 0,975 (1−α/2) Требуемый доверительный интервал был получен в (4-39), однако вели2 неизвестна, поэтому воспользоваться этим интервалом нельзя. Каσ естественным воспользоваться здесь полученной нами ранее оценкой 2 s . В самом деле величина 2 − (n K)s e e ε ε (4-40) = = M 2 2 σ σ σ σ является идемпотентной квадратичной формой от стандартного нормального вектора (ε/σ). Значит, она имеет распределение хи-квадрат с числом степеней свободы, равным − (См. доказательrank(M) = trace(M) = n K. ство этого факта в разделе B11.4.) Случайная величина хи-квадрат в (4-40) 90 Глава 4. Оценки методом наименьших квадратов и нормально распределенная случайная величина в (4-38) являются независимыми. Чтобы это доказать, достаточно показать, что b − β ε −1 = (X X) X σ σ 2 2 K)s /σ не зависит от (n − . В разделе B.11.7 (теорема B.12) показывается, что достаточным условием независимости линейной формы Lx и идемпотентной квадратичной формы от стандартного нормального вектора x Ax x является равенство LA = 0. Принимая за x, для нашего случая полуε/σ условие (X X) X M = 0. Это условие выполняется, как мы видели в (3-15). Следующий общий результат является основным при выводе многих тестовых статистик в регрессионном анализе. 2 Независимость и Теорема 4.6. b s Если величина распределена нормально, то оценка коэффициентов ε b, полученная с помощью метода наименьших квадратов, и вектор остатков 2 (а следовательно, и функции этого вектора, в том числе ) распределены e s независимо. Таким образом, отношение √ − 2 kk − (b β )/ σ S b β k k k k √ (4-41) t = = k − 2 2 − 2 kk [(n K)s /σ ]/(n K) s S 10 t-распределение имеет с (n − K) степенями свободы . Мы можем воспользоваться статистикой для проверки гипотез или построения доверительt интервалов для отдельных элементов β. 2 2 Результат (4-41) отличается от (4-38) тем, что вместо используется s , σ t-распределение а также базисным распределением статистики, имеющей с (n – K) степенями свободы вместо стандартного нормального. Таким образом, доверительный интервал для можно построить как β k √ √ − 2 kk ≤ ≤ 2 kk − Prob b t s S β b + t s S = 1 α, k k k (1−α/2),[n−K] (1−α/2),[n−K] (4-42) где t — соответствующее критическое значение t-распределения. (1−α/2),[n−K] Здесь распределение пивотальной статистики зависит от размера выборки (через число степеней свободы (n – K)), но вновь не зависит от данных. Преимущество равенства (4-42) в том, что в нем не используются неизвестные параметры. На его основе можно построить доверительный интервал для . β k 10 См. (B-36) в разделе B.4.2. Это есть отношение стандартной нормально распределенной 2 величины к квадратному корню из случайной величины, имеющей распределение , χ деленной на число ее степеней свободы. 4.5. Интервальные оценки 93 основанная на асимптотическом стандартном распределении, не будет t-распределение иметь с 45 степенями свободы. 4.5.3. Доверительные интервалы для линейных комбинаций коэффициентов: разложение Oxaкa При условии нормального распределения отклонений оценка методом наименьших квадратов b распределена нормально со средним и ковариаβ матрицей . В примере 4.8 было показано, как можно восσ (X X) пользоваться этим фактом для построения доверительного интервала для одного из элементов β. Этот результат можно расширить при построении доверительного интервала для линейной функции параметров. Для этого часто используют разложение Охака и Блаиндера (Oaxaca (1973) и Blinder 11 (1973)) . Пусть w — вектор известных констант размером × Тогда линейная K 1. комбинация распределена нормально и имеет среднее и c = w b γ = w β −1 2 2 2 дисперсию σ = w [σ (X X) ]w, которую можно оценить как s = c c 2 −1 Имея эти величины, можно, воспользовавшись получен- = w [s (X X) ]w. ными результатами, построить доверительный интервал для γ: − ≤ ≤ − (4-43) Prob[c t s γ c + t s ] = 1 α. c c (1−α/2),[n−k] (1−α/2),[n−k] Этот общий результат можно использовать, например, для суммы или разности коэффициентов. Рассмотрим пример из работы Oxaкa (1973). При исследовании предложения на рынке труда были раздельно оценены регрессии для выборок из мужчин и женщин. Использовались уравнения регрессий n n m f ln wage = x β + ε , i = 1, . . . , n m m,i m m,i m,i и ln wage = x β + ε , j = 1, . . . , n . f f,j f f,j f,j В число регрессоров входили социодемографические переменные (такие, как, например, возраст) и переменные, описывающие человеческий капитал (такие, как образование, опыт работы). Мы заинтересованы в сравнении этих двух регрессий, а в особенности в наличии или отсутствии дискриминации при определении зарплат. Oxaкa предложил подход к сравнению этих регрессий. Для двух любых векторов характеристик E [ln wage |x ] − E [ln wage |x ] = x β − x β m,i f,i m f m,i f,j m,i f,j − − = x β x β + x β x β m f f f m,i m,i m,i f,j − − = x (β β ) + (x x ) β . m f m,i f,j f m,i Второй член этого разложения связан с различиями в человеческом капитале и является естественным объяснением различий в уровне заработной 11 См., напр., Bourgignon et al. (2002). 94 Глава 4. Оценки методом наименьших квадратов платы, если рынок труда реагирует на эти характеристики так, как мы обычно предполагаем. Первый член показывает разницу в логарифмах заработной платы, не объясняемую разницей в человеческом капитале, т. е. если зафиксировать эти характеристики на уровне x , то первый член будет отраm влияние других факторов. Oхaкa предложил вычислить это разложение в средних векторов регрессоров, и , и OLS-оценках коэффициентов, x x m f и . Если в уравнения регрессий входят постоянные, то эти действия b b m f эквивалентны рассмотрению ln y − ln y . m f Нас интересует доверительный интервал для первого члена разложения, при построении которого нужно дважды применить наш результат. Будем считать два вектора выборочных средних известными. Предполагая, что две имеющиеся выборки независимы, наши оценки, b и b , независимы и имеm f 2 −1 2 −1 ют средние и и ковариационные матрицы и . β β σ (X X ) σ (X X ) m f m f m m f f Ковариационная матрица разности равна сумме этих двух матриц. Мы построим доверительный интервал для где − . Оцененная x d, d = b b m f m ковариационная матрица равна −1 −1 2 2 (4-44) Est. Var[d] = s (X X ) + s (X X ) . m f m m f f Теперь можно применить полученный ранее результат, а также построить − доверительный интервал для второго члена: нужно взять w = x x и m f применить тот же результат к величине w b . f 4.6. Предсказание и прогнозирование После оценки параметров модели ее часто применяют для предсказания значений зависимой переменной. Мы будем различать предсказание и прогнозирование, основываясь на различии между межобъектными данными и временными рядами. Предсказание (как для межобъектных данных, так и для временных рядов) использует модель регрессии для вычисления подобранных (fited) (или предсказанных) значений зависимой переменной для наблюдений как из выборки, так и вне ее. Результаты, касающиеся предсказания, будут применимы к межобъектным и панельным данным, а так- же к временным рядам. Прогнозирование отличается тем, что временной структуре данных будет отводиться особая роль, причем зачастую будут использоваться лагированные зависимые переменные и шоки, скоррелированные с шоками предыдущих временных периодов. Здесь обычно будут прогнозироваться будущие значения зависимой переменной. Важная разница между предсказанием и прогнозированием (в нашем понимании значений этих слов) заключается в том, что при предсказании обычно исследуется сценарий, определенный исследователем. Например, в приведенном ниже примере мы будем предсказывать цену картин Моне; при этом мы можем пытаться предсказать цену как гипотетической картины по заданным размеру и отношению сторон, так и картины из имеющейся выборки. При изучении временных рядов мы обычно пытаемся спрогнозировать событие (например, реальный объем инвестиций в следующем году), основываясь не на гипотетическом сценарии развития экономики, а на наилучшей имеющейся оценке экономической обстановки в следующем году. Мы будем 4.6. Предсказание и прогнозирование 95 пользоваться термином предсказание ex post (или прогноз ex post) в случаях, когда данные, используемые в уравнении регрессии при построении предсказания (или прогноза), либо наблюдаемы, либо построены экспериментально. Это будет первой из рассмотренных нами в этом разделе ситуаций. Прогноз ex ante (в контексте временных рядов) требует предварительной оценки будущих значений независимых переменных. В одном из примеров этой главы объем реальных инвестиций прогнозируется с помощью модели, в которую входят реальный ВВП и индекс цен. Чтобы спрогнозировать реальные инвестиции в этой модели, нужно сначала построить прогноз для реального ВВП и индекса цен. Прогнозирование ex ante будет кратко рассмотрено в этой главе, а затем более подробно в главе 20. 4.6.1. Доверительные интервалы для предсказаний 0 0 y Пусть нам нужно предсказать значение по вектору регрессоров x . Фактическое значение имеет вид 0 0 0 y = x β + ε . Из теоремы Гаусса–Маркова получаем, что 0 0 y ˆ = x b (4-45) является линейной несмещенной оценкой с минимальной дисперсией для 0 0 0 |x x Ошибка предсказания равна E[y ] = β. 0 0 0 0 0 − − x e = y ˆ y = (b β) + ε . Дисперсия ошибки этой оценки равна −1 0 0 2 0 0 2 0 2 0 |X, x − |X, (4-46) Var[e ] = σ + Var[(b β) x x ] = σ + x σ (X’X) x . Если уравнение регрессии содержит константу, то это эквивалентно   K−1 K−1 1 jk 0 0 2 0 0 0 |X, x − − Z (4-47) Var[e ] = σ 1 + + x x ¯ x x ¯ M Z , j k  j k  n j=1 k=1 0 где Z — K − 1 столбцов X без константы, Z M Z — матрица сумм квадратов и произведений для столбцов матрицы X, выраженных в отклонениях от их средних [см. (3-21)], а верхний индекс jk обозначает элемент jk обратной матрицы. Из этого результата следует, что ширина доверительного интер0 для предсказания зависит от расстояния между элементами вектора x и «центром» данных. Интуитивно это достаточно ясно: чем более удалены новые данные от нашего накопленного опыта, тем меньше точность наших предсказаний. Рисунок 4.5 демонстрирует этот эффект для случая парной регрессии. Обратим внимание, что дисперсия предсказания состоит из трех частей. Вторая и третья уменьшаются при увеличении выборки (т.е. при ро2 n). Но первый член, , является постоянным: это значит, что никакой σ объем данных не даст абсолютно точного предсказания. 96 Глава 4. Оценки методом наименьших квадратов Рис. 4.5. Доверительные интервалы для предсказаний 2 2 s Дисперсию предсказаний можно оценить, используя вместо σ . Дове0 интервал для предсказания y может быть построен как 0 0 интервал предсказания ± (4-48) = y ˆ t se e , (1−α/2),[n−K] где t — подходящее критическое значение для уровня значимо- – (1−α/2),[n K] сти − из таблицы для t-распределения с − степенями свободы, 100(1 α)% n K 0 а se(e — квадратный корень оценки дисперсии предсказания. ) y, 4.6.2. Предсказание если уравнение регрессии описывает логарифм y Часто используют регрессионные модели, описывающие не саму переменную, а некоторую функцию от нее. В примере 4.5 мы описывали цены на картины Моне с помощью уравнения ln Price = β + β ln Area + β AspectRatio + ε. 1 2 3 (Area — произведение ширины и высоты картины, а AspectRatio — высота, деленная на ширину.) Логарифмическая форма удобна тем, что коэффициент равен эластичности зависимой переменной по независимой, т. е. в этой AspectRatio]/∂lnArea. модели β = ∂E[lnPrice|lnArea, Однако уравнение в та2 форме хуже подходит для целей предсказания, чем простая регрессия цены. Естественно было бы взять предиктор для 0 0 ln y = x b в виде 0 0 y ˆ = exp(x b). 4.6. Предсказание и прогнозирование 99 стов» равна желаемому (обычно 0,05). Запишем лагранжиан: α ∗ − − − Minimize (L, U, λ) : I = U L + λ[F (L) + (1 F (U )) α]. Найдем решения, приравнивая частные производные к нулю: ∗ −1 ∂I /∂L = + λf (L) = 0, ∗ − ∂I /∂U = 1 λf (U )0, ∗ ∂I /∂λ = F (L) + [1 − F (U )] − α = 0, где f (L) = F (L) и f (U ) = F (U) — производные функции распределения, т. е. плотности распределения в L и U соответственно. Третье уравнение описывает ограничение на сумму вероятностей «хвостов», но не требует их равенства. Складывая два первых уравнения, получаем f(L) − f(U)] λ[ = 0, ∗ ∗ что при λ = 0 означает, что решение можно найти, найдя такие (L , U ), что сумма вероятностей «хвостов» равна α, а плотности равны между собой. ∗ ∗ Посмотрев на рис. 4.6, можно увидеть, что искомое решение — (L , ), где U ∗ ∗ L и . Это наиболее короткий интервал, и он короче как 0 < L < U < U 0 U так и U]. [0, ], [L, 0 Это рассуждение применимо к любому распределению, как симметричному, так и нет. Для симметричного распределения мы, очевидно, получим симметричный интервал из (4-51). Верное решение мы получим и в случае асимметричного распределения. В байесовском подходе эквивалентом этому при изучении условного распределения параметра при известных данных является интервал с наибольшей апостериорной плотностью. (См. подраздел 16.4.2.) На практике для этого вычисления необходимо знать (или 0 явно предполагать) распределение y|x , как, например, логнормальное. Обычно размытая оценка используется специально для того, чтобы избежать необходимости делать такое предположение. Также нужно помнить, что простой формулы для построения этого интервала не существует даже в случае логнормального распределения. Наилучшим способом, пожалуй, будет обычный поиск по сетке, поскольку при этом вычисления в каждой точке весьма просты. Главным в приведенном выше рассуждении является то, что наивную интервальную оценку можно значительно улучшить, даже просто используя интервал. Пример 4.10. Оценка цен на произведения искусства В примере 4.5 мы рассматривали интересную особенность рынка картин Моне: на аукционах большие картины обычно стоят дороже маленьких. В этом примере мы рассмотрим эту гипотезу с эмпирической точки зрения. Таблица F4.1 содержит данные о 430 результатах аукционных продаж картин Моне, включая данные о размерах картин и некоторых других переменных, которые мы рассмотрим в последующих примерах. Рисунок 4.7 показывает гистограмму цен продаж (в млн долл.). На рис. 4.8 представлена гистограмма логарифмов цен. 100 Глава 4. Оценки методом наименьших квадратов Рис. 4.7. Гистограмма цен продаж 430 картин Моне, млн долл. Рис. 4.8. Гистограмма логарифмов цен картин Моне Результаты линейной регрессии Price на Area (произведение ширины ln ln Aspect Ratio и высоты) и (высота, деленная на ширину) приведены в табл. 4.6. Мы будем применять регрессионную модель для предсказания цены одной из картин — изображения моста Чаринг Кросс 1903 г., которая была продана за 3 522 500 долл. Картина имеет размер 25,6 дюйма в 106 Глава 4. Оценки методом наименьших квадратов Пример 4.11. Мультиколлинеарность в данных Лонгли Данные табл. F4.2 были собраны в работе Лонгли (Longley (1967)) для оценки точности вычисления OLS-оценок компьютерными программами. (Эта база данных и сейчас для этого часто применяется.) Данные Лонгли известны исключительно высокой степенью мультиколлинеарности. Рассмотрим, например, данные за последний год. Последнее наблюдение не кажется сколько-нибудь выделяющимся. Однако результаты, представленные в табл. 4.7, демонстрируют сильнейший эффект, который исключение одного этого наблюдения оказывает на результат регрессии на константу и остальные переменные. Последний коэффициент увеличивается на 600%, а третий — на 800%. Таблица 4.7. Результаты Лонгли: зависимая переменная — занятость 1947–1961 Variance Inflation 1947–1962 Constant 1 459 415 1 169 087 Year −721,756 143,4638 −576,464 GNP deflator −181,123 75,6716 −19,7681 GNP 0,0910678 132,467 0,0643940 −0,0749370 −0,0101453 Armed Forces 1,55319 Предлагалось несколько различных стратегий для обнаружения муль14 и борьбы с нею . Считая, что мультиколлинеарность является следствием недостатка информации, можно было бы рекомендовать найти дополнительные данные. Однако здесь можно возразить, что если у исследователя был бы доступ к дополнительным данным, то их нужно было использовать до появления проблемы мультиколлинеарности. Тем не менее увеличение объема информации необязательно означает увеличение числа наблюдений. Очевидный практический способ (и наиболее часто используемый) — это отбросить переменные, которые, по всей видимости, вызывают эффект мультиколлинеарности, т. е. наложить на регрессию дополнительное (и, возможно, неверное) условие, что «проблемные» переменные отсутствуют в модели. Поступая таким образом, мы можем столкнуться с проблемами спецификации модели, которые рассмотрим в подразделе 4.7.2. Если отброшенная переменная на самом деле должна входить в модель (т. е. соответствующий коэффициент не равен 0), то оценки остальных коэффициентов окаβ смещенными, причем, возможно, достаточно сильно. С другой стороны, включение в модель чрезмерного числа переменных (overfitting) — т. е. попытка оценить слишком большую модель — является распространенной ошибкой, так что отбрасывание переменных из перегруженной модели может иметь некоторые преимущества. 14 Описание обычных способов обнаружения мультиколлинеарности можно найти в работе (Hill, Adkins (2001)). 4.7. Проблемы в данных 107 Методы обнаружения мультиколлинеарности можно рассматривать как способ различить «плохие данные» и «плохую модель». Однако на самом деле проблема возникает из-за несоответствия данных предварительно сформулированным ожиданиям. Если оказывается, что мультиколлинеарность отрицательно влияет на качество оценки, то предполагается, что в отсутствие этой проблемы все переменные будут значимы и будут иметь нужный знак. Конечно, так бывает не всегда. Если данные говорят, что переменная не важна в контексте данной модели, то при наличии сколь угодно убедительных теоретических построений рано или поздно нужно задуматься, насколько нам на самом деле важна эта теория. Предлагаемые методы «борьбы» с мультиколлинеарностью зачастую представляют собой способы притягивания теории к данным. 4.7.2. Предварительное оценивание Часто при столкновении с проблемой мультиколлинеарности трудно противостоять соблазну просто исключить неудобные переменные из регрессии. Эта «стратегия» ставит исследователя перед дилеммой. Рассмотрим модель регрессии y X X = β + β + ε. 1 1 2 2 Если взять регрессию y только на X , то получится смещенная оценка: 1 |X] P E[b = β + β . 1 1 1.2 2 Ковариационная матрица этой оценки равна 2 −1 |X] X Var[b = σ (X ) . 1 1 1 (Обратим внимание, что разброс здесь идет около среднего, равного E[b |X], 1 а не .) Если не равно 0, то дисперсия оценки b около его среднего β β β 1 2 1.2 1 в регрессии y на (X , X ) будет равна 1 2 2 −1 |X] M X Var[b = σ (X ) , 1.2 2 1 1 где −1 M I − X X X = (X ) , 2 2 2 2 2 или −1 −1 2 Var[b |X] = σ [X X − X X (X X ) X X ] . 1.2 1 2 2 1 1 1 2 2 Сравним эти две ковариационные матрицы. Проще сравнивать обратные матрицы. [См. результат (A-120).] Таким образом, −1 −1 −1 2 {Var[b |X]} − {Var[b |X]} X X X X = (1/σ )X (X ) , 1 1.2 2 2 1 1 2 2 что дает неотрицательно определенную матрицу. Следовательно, дисперсия b не выше дисперсии b (так как обратная величина не меньше соот1 обратной). Несмотря на то что оценка b смещена, ее диспер1 не превышает дисперсию несмещенной оценки. В реалистичной ситуации (когда X X не равно 0) ее дисперсия на самом деле будет строго мень2 В случае простой регрессии от двух переменных (представленных в отклонениях от своих средних) можно получить полезное соотношение. Имеn Var[b |X] , где S − и Var[b |X] = σ /S = (x x ¯ ) = σ /[S (1− 1 11 11 i1 1 1.2 11 i=1 2 2 r x x −r )], где — квадрат корреляции между и . 1 2 12 12 108 Глава 4. Оценки методом наименьших квадратов Результат предыдущего параграфа ставит исследователя перед проблемой, часто возникающей при поиске подходящей модели. Если исследователь сталкивается с переменной, которая, по всей видимости, должна участвовать в модели, но ее включение приводит к мультиколлинеарности, то можно либо отбросить ее, либо смириться с тем, что коэффициенты при этой и других переменных будут неточны. Возникает проблема выбора между оценками b и b . На практике исследователи обычно строят третью 1 1.2 оценку. Проблемная переменная включается условно: если при включении ее t-статистика оказывается достаточно велика, то она сохраняется; если нет — отбрасывается. Эта третья оценка обычно называется предварительной (pretest estimator). То, что известно об этих оценках, не внушает энтузиазма. Разумеется, они являются смещенными. Степень смещения зависит от неизвестных параметров. Аналитические результаты свидетельствуют о том, что такая оценка более смещена, чем обе исходные, как раз в тех случаях, когда наиболее велик соблазн ее использовать. [Judge et al. (1985).] Из всего этого можно сделать вывод, что корректная методология оценивания не должна включать стратегий, опирающихся на ad hoc-методы борьбы с мультиколлинеарностью. 4.7.3. Метод главных компонент Для борьбы с мультиколлинеарностью предлагалась [Gurmu, Rilstone, Stern (1999)] следующая конструкция: нужно оценивать регрессию на несколько (скажем L) главных компонент, представляющих собой линейные комбинации K исходных переменных [Johnson, Wichern (2005, Chapter 8).] (Этот метод иллюстрируется в примере 4.12.) Основное возражение против этого метода состоит в том, что если вместо верной регрессии y Xβ мы = + ε оцениваем регрессию y на небольшой набор линейных комбинаций столбцов X, то неясно, что именно мы оцениваем. Для набора L < K главных комE[d] если d — оценка коэффициентов регрессии y на Z = XC , то = L = δ = C β. (Доказательство предлагается читателю в качестве упражнения.) L Если в экономической задаче параметр имеет понятную интерпретацию, β то маловероятно, что имеет ясный экономический смысл. (Например, как δ интерпретировать эластичность по цене минус удвоенная эластичность по доходу?) Этот традиционный подход предостерегает исследователя от использования алгебраических методов, результаты которых приводят к неинтерпретирумым смесям коэффициентов. Однако иногда модель строится так, что смеси наблюдаемых переменных могут иметь ясный смысл. Например, исследователя может интересовать модель, в которой участвуют неясно определенные «способности». Вместо них у исследователя может иметься набор результатов, полученных при прохождении ряда тестов, ни один из которых не имеет собственной интерпретации в контексте рассматриваемой модели. В этом случае отсутствующую переменную «способности» можно заменить некоторой комбинацией имеющихся результатов тестов. Другой естественный случай применения этого подхода рассматривается в примере 4.12. 15 Тестирование мнения «а кто его знает» сейчас может быть проверено на открытой 4.7. Проблемы в данных 109 Пример 4.12. Предсказание успеха фильма Предсказание размера сборов кинофильмов — любимое упражнение эконометристов. [Litman (1983), Ravid (1999), De Vany (2003), De Vany, Walls (1999, 2002, 2003) и Simonoff, Sparrow (2000).] Обычно для предсказания используется уравнение вида Box Office Receipts f(Budget, Genre, MPAA Rating, Star Power, Sequel, = etc.)+ε. Коэффициент детерминации таких уравнений часто достигает 0,4 и более. Однако, несмотря на такую объяснительную силу, обычное мнение в Голливуде — «а кто его знает». Успех фильма часто случаен, и немногие 15 берутся предсказывать его с какой-либо уверенностью . В работе Версачи (Versaci (2009)) в традиционную модель была добавлена новая переменная «шум в интернете». Шум в Интернете здесь определяется как имеющий отношение к фильму трафик и общая заинтересованность на популярных сайтах, таких как RottenTomatoes.com, ImDB.com, Fandango.com и traileraddict.com. Каждый из них, измеренный по отдельности, не определяет меру шума в интернете. Но в совокупности данные об активности на этих веб-сайтах (скажем, за три недели до выхода фильма в прокат) могут быть важным признаком будущего успеха. Данные работы Версачи (Versaci (2009)) (табл. F4.3) содержат информацию о 62 фильмах, вышедших на экраны в 2009 г., включая переменные, описывающие 4 меры шума в интернете, измеренные за три недели до выхода фильма в прокат: buzz число просмотров трейлера фильма на traileraddict.com; = 1 buzz число комментариев о фильме на ComingSoon.net; = 2 buzz = сумма числа голосов «can’t wait» и «don’t care» на Fandango.com; 3 buzz процент голосов «can’t wait» на Fandango. = 4 Мы собрали из этих данных одну главную компоненту следующим образом: сначала вычисляются логарифмы buzz – buzz , чтобы убрать 1 3 z эффекты масштаба. Затем переменные нормируются так, чтобы равk первоначальной переменной минус ее среднее z ¯ , деленной на k стандартное отклонение s . Пусть Z — полученная матрица размером k × из Тогда V Z — выборочная матрица 62 4 (z , z , z , z ). = (1/61)Z 1 2 3 4 корреляций. Пусть c — собственный вектор V, соответствующий наиболь1 собственному значению. Первая главная компонента (описывающая наибольшую долю вариации четырех переменных) равна Zc . (Корни 1 равны 2,4142, 0,7742, 0,4522, 0,3585, так что первая главная компонента описывает 2,4142/4, или 60,3% разброса. В табл. 4.8 представлены результаты оценивания регрессии на выборке из 62 фильмов 2009 г. Оказывается, что переменная «шум в интернете» существенно увеличивает 2 предсказательную силу модели. При добавлении этой переменной R недавно (в апреле 2010) интернет-площадке биржевого типа, где торгуются фьючерсы на будущий успех фильмов (а продюсеры могут захеджировать свои ставки). См. обсуждение на http://www.cantorexchange.com/. Эта торговая площадка была создана компанией Cantor Fitzgerald, Inc. после покупки популярного развивающего интернет-сайта Hollywood Stock Exchange. 110 Глава 4. Оценки методом наименьших квадратов регрессии почти удваивается, с 0,34 до 0,58. Как мы увидим в главе 5, «шум» является еще и очень значимым предиктором успеха. Таблица 4.8. Результаты регрессии для успеха фильма Модель с шумом в Интернете Традиционная модель 22,30215 35,66514 e e 2 0,58883 0,34247 R Переменная Коэффи- Станд. Коэффи- Станд. t t циент ошибка циент ошибка Постоянная 15,4002 0,64273 23,96 13,5768 0,68825 19,73 ACTION –0,86932 0,29333 –2,96 –0,30682 0,34401 –0,89 COMEDY –0,01622 0,25608 –0,06 –0,03845 0,32061 –0,12 HORROR 0,37460 0,37109 1,01 1,02644 0,44008 2,33 G 0,38440 0,55315 0,69 0,25242 0,69196 0,36 PG 0,53359 0,29976 1,78 0,32970 0,37243 0,89 PG13 0,21505 0,21885 0,98 0,07176 0,27206 0,26 LOGBUDGT 0,26088 0,18529 1,41 0,70914 0,20812 3,41 SEQUEL 0,27505 0,27313 1,01 0,64368 0,33143 1,94 STARPOWR 0,00433 0,01285 0,34 0,00648 0,01608 0,40 BUZZ 0,42906 0,07839 5,47 4.7.4. Пропущенные значения и пополнение данных Вследствие различных причин в реальных наборах данных зачастую встречаются пропуски. Чаще всего такое случается с данными опросов населения, где респонденты могут отвечать не на все вопросы. Во временных рядах данные могут быть пропущены из-за того, что их нельзя получать с нужной частотой: например, модель может описывать месячные события, а некоторые переменные могут быть измерены только ежеквартально. В панельных данных пропуски могут возникать из-за истощения выборки, т.е. отсева участников исследования. Особенно часто это наблюдается в медицинских исследованиях, где индивиды могут прекращать свое участие в исследовании, возможно, вследствие успеха или неуспеха изучаемого метода лечения. В зависимости от того, по каким причинам данные оказались пропущены, подходы к проблеме могут различаться. Данные могут быть недоступны по неизвестным исследователю причинам, не связанным с полнотой других наблюдений или значениями переменных в выборке. Это наименее неблагоприятная ситуация. Если дело обстоит так, то полные наблюдения дают выборку, которой можно пользоваться, а единственный вопрос состоит в том, нельзя ли сохранить какую-то информацию из неполных наблюдений. Согласно работе Грилихеса (Griliches (1986)) это называют пренебрежимым случаем (ignorable case), поскольку, если нас мало заботит эффективность получаемой оценки, мы можем просто пренебречь неполными наблюдениями и закрыть глаза на имеющуюся проблему. В работах Рубина (Rubin (1976, 1987)) и Литтла и Рубина (Little, Rubin (1987, 2002)) этот случай назван пол- 4.7. Проблемы в данных 111 ностью случайными пропусками (missing completely at random, MCAR). Второй случай, широко изучаемый в эконометрической литературе, заключается в том, что пропуски в данных не случайны, а систематически связаны с изучаемым явлением. Это чаще всего происходит в данных опросов, особенно когда данные, входящие в выборку, выбирали или определяли 16 респонденты . Например, если опрос нужен для исследования характера трат, а люди с высоким доходом пытаются скрыть свой уровень достатка, то пропущенные данные будут означать нечто большее, чем просто недостаток информации. Другим примером могут быть данные клинических испытаний. В этих (наихудших) случаях подвыборка, состоящая только из полных наблюдений, будет качественно отличаться от случайной выборки, взятой из генеральной совокупности. В этом случае пропущенные данные называют пропущенными не случайно (not missing at random, NMAR). Мы будем рассматривать этот случай в главе 19 в контексте отбора наблюдений (sample selection), а пока отложим эту тему. Промежуточный случай заключается в том, что полные наблюдения содержат информацию, касающуюся пропущенных данных, с помощью которых инференция может быть улучшена. В этой ситуации случайных пропусков (missing at random, MAR) неполные наблюдения снова можно проигнорировать, поскольку, в отличие от случая NMAR, использование подвыборки, состоящей исключительно из полных наблюдений, не приведет к смещению, если процесс, порождающий пропуски, не связан с оцениваемой моделью [Allison (2002).] Это, конечно, маловероятно, если пропуски наблюдаются в значениях зависимой переменной в регрессии. Игнорируя неполные наблюдения в ситуации MAR, в отличие от MCAR мы теряем информацию, а значит, жертвуем эффективностью оценки. Исследователи используют для заполнения пропусков различные методы пополнения данных (data inputation). Самый простой вариант в данной ситуации — это когда пропуски встречаются в регрессорах. В этом случае полезно рассмотреть отдельно простую и множественную регрессии. В первом случае X содержит два столбца: столбец единиц (для свободного члена) и столбец, содержащий пропуски на месте отсутствующих данных. Метод нулевого порядка (zerox method) заменяет пропущенные на x ¯ , вычисленные по имеющимся данным, не меняет оценки и эквивалентен оценке, построенной только по полным наблюдениям. (См. упражнение 7 к главе 3.) При этом, однако, 2 R несколько уменьшается. Альтернативным подходом является модифи(modified zero-ordered method), коцированный метод нулевого порядка торый состоит в заполнении пропусков нулями и добавлении переменной, принимающей значение 1 для пропущенных наблюдений и 0 в остальных 17 случаях . Мы оставляем в качестве упражнения доказательство того факта, что этот метод алгебраически эквивалентен замене пропущенных наблюx на x ¯ . Также можно попробовать подбирать вместо пропущенных 16 Широкие опросы мнений американцев по вопросам пола, собранные в работах Ann Landers (1984, passim) и Shere Hite (1987), — широко известный пример исследований, безусловно испорченных вследствие смещений, вызванных самоотбором. Последнее исследование подверглось резкой критике за то, что в нем пытались выдать за мнение населения в целом мнение группы людей, готовых отвечать на задававшиеся вопросы. Выводы первого исследования были более аккуратными. 17 Maddala (1977a, p. 202). 112 Глава 4. Оценки методом наименьших квадратов данных, построив регрессию x на y по полным данным. Свойства такой оценки изучены мало, но имеющиеся данные говорят не 18 в ее пользу . Те же методы можно использовать и в случае множественной регрессии. Снова возникает соблазн заменить пропущенные значения x простыми k средними, построенными по полным наблюдениям, или предсказаниями, построенными с помощью регрессий x на другие переменные модели. k В большинстве случаев эти методы можно описывать в следующим образом: в местах пропусков «истинное» значение x заменяется неточным приблиik которое можно записать в виде x ˆ = x +u , т. е. в терминах ошиik ik бок измерения (measurement error). Вообще говоря, оценки метода наименьших квадратов при наличии ошибок измерения смещены и несостоятельны (этот вопрос будет исследоваться в главе 8.) Остается вопрос: будет ли это смещение мало? Интуиция подсказывает, что размер смещения будет определяться двумя свойствами имеющихся данных: (a) насколько хороши наши приближения к x , т. е. насколько велика дисперсия ошибки измереik u по сравнению с дисперсией истинных данных x , и (b) насколько ik ik большая часть данных нуждается в пополнении. Метод регрессий заменяет пропущенные значения x предсказанием, поk из регрессии x на другие экзогенные переменные, т. е. заменяет k пропущенные x приближениями, основанными на регрессионной модели. ik В байесовской постановке в приложениях, требующих применения ненаблюдаемых переменных (как, например, в нашем примере для модели бинарного выбора в главе 17), применяется техника расширения данных (data augmentation), когда ненаблюдаемые данные считают «параметрами» модели, оцениваемыми вместе со структурными параметрами, такими как β в регрессионной модели. Основываясь на этом подходе, исследователи (Rubin (1987) и Allison (2002)) предлагают использовать нечто похожее в классической постановке оценивания. В этой технике используется пополнение данных, похожее на предлагавшееся выше, но расширенное так, чтобы учесть возможную изменчивость при оценивании регрессии, использованной для подстановки пропущенных значений. Для иллюстрации этого рассмотрим случай, когда независимая переменная x является нормальной, т. е. выбиk из непрерывного распределения, имеющего среднее, дисперсию и определенные совместные распределения с другими переменными модели. Пополнение будет включать следующие формальные шаги: 1. Используя максимально возможный объем содержащейся в выборке информации (полные данные), оцениваем линейную регрессию x на друk переменные модели (а также, возможно, вне модели, если такая информация доступна), Z , и получаем вектор коэффициентов d , асимпk ковариационную матрицу A и оценку дисперсии шоков s . k k 2. Для пополнения возьмем значение из оцененного выше асимптотического нормального распределения d , т. е. d d , где v — вектор, = +v k k,m k k k выбранный из многомерного нормального распределения со средним 0 и ковариационной матрицей A . k 18 Afifi, Elashoff (1966, 1967) и Haitovsky (l968). В работе Griliches (1986) рассматриваются некоторые другие возможности. 4.7. Проблемы в данных 113 3. Для каждого пропущенного значения x , которое мы хотим заполнить, k вычисляем x d z u , где s — s , деленное на случайное = +s i,k,m i,k k,m i,k k,m k k,m 2 значение, полученное из выборки распределения с числом степеней χ свободы, равным числу степеней свободы использованной для пополнения регрессии. После этих шагов мы имеем результат, похожий на описанный выше, когда пропущенные значения оценивались с помощью регрессии. Приведенная здесь процедура, однако, несколько сложнее. После этого нужно построить оценку коэффициентов регрессии, пользуясь как полными данными, так и пополненными наблюдениями. Отсюда получается вектор коэффициентов b и оценка ковариационной матрицы V . Это одна итерация процедуры m m пополнения. Техника множественного пополнения (multiple inputation) состоит в повторении этой последовательности шагов M раз. Оценки параметров и соответствующей асимптотической ковариационной матрицы равны 1 M ˆ ¯ β = b = b , m M m=1 1 1 1 M M ¯ ¯ ˆ ¯ − − V = V + B = V + 1 + b b b b . m m m − M M M 1 m=1 m=1 Мнения исследователей относительно эффективности и применимости множественного пополнения расходятся. Эта процедура не устраняет ошибки измерения в пополненных значениях. Для того чтобы вывести, что множественное повторение итераций метода приведет к усреднению и исчезновению этой ошибки, нужно принять очень сильные допущения. Были изучены различные техники для работы с данными в случае, когда межобъектные данные являются совместно нормально распределенными переменными, как в рассмотренном нами выше случае. Однако обычно нужно работать с данными опросов населения, где пропуски встречаются в ответах на качественные вопросы типа «да/нет». Эффективность применения теории к бинарным, порядковым и прочим переменным, имеющим качественный смысл, изучена мало. Несколько проще работать в случае наличия пропусков значений зависимой переменной y . Снова нужно, чтобы y была по крайней мере MAR, а i i механизм, порождающий пропуски, не был связан с параметрами модели. Если данные о x полны для всех наблюдений, то можно было бы применить i следующую двухшаговую процедуру: (1) построить оценку b для параметра c используя только полные наблюдения, X и y , а затем (2) заполнить проβ, c пуски в y предсказаниями и заново оценить регрессию. Мы y ˆ = X b m m m c оставляем в качестве упражнения для читателя (упражнение 17 к этой главе) доказательство того, что полученная оценка будет совпадать с b . Однако c 2 получаемая на втором шаге оценка дисперсии s будет занижать истинное 2 значение (интуитивно это ясно: мы добавляем наблюдения, идеально соσ оценке) [Plameron, Trivedi (2005, Chapter 27).] Таким образом, этот метод не является особенно полезным. Недостаток этого метода заключается в использованном механизме пополнения пропущенных значений y . В последнее время предлагаются различные методы, улучшающие i эту процедуру, как правило, путем использования рандомизованной версии 114 Глава 4. Оценки методом наименьших квадратов ˆ ˆ где ˆ случайно выбираются из нормального распредеy = X b + ε , ε m m c m m −1 2 ления с нулевым средним и оцененной дисперсией s X X [I + (X X ) ]. m c c m (Оценка ковариационной матрицы соответствует P b .) Это определя+ ε m c m ет одну итерацию. Снова оценив β с помощью пополненных данных, можно ˆ повторно пополнить данные, уже пользуясь новым потом опять оценить β, b и т. д. Процесс можно повторять до тех пор, пока оценка коэффициентов не прекратит изменяться. (Здесь нужно сделать важное замечание. В каждой итерации следует использовать одни и те же значения случайной переменной. В противном случае нет гарантии, что итерационный процесс сойдется.) Вообще говоря, о свойствах оценок, основанных на использовании предy, для заполнения пропусков в значениях известно немного. Имеющиеся результаты получены в основном из моделирования с использованием конкретного набора данных или механизма, порождающего пропуски. Результаты этих симуляций метода Монте-Карло обычно сложно обобщить. В целом, по всей видимости, можно заключить, что при исследовании регрессий с единственным уравнением пополнение y ведет к смещению в оценках, которое сложно определить. Единственный ясный результат состоит в том, что пополнения чаще оказываются полезны, если доля пропусков в наборе данных мала, причем чем меньше, тем лучше. 4.7.5. Ошибки измерения В целом ряде случаев наблюдаемые данные представляют собой не точные значения, используемые в теоретической модели, а результаты их измерения с некоторой погрешностью. Примерами могут служить доход, уровень образования, навыки, здоровье, процентные ставки, производство, капитал и т. п. Ошибки при измерении переменных модели обычно приводят к негативным последствиям для оценок метода наименьших квадратов. Методы решения этой проблемы сложны и часто требуют чрезмерно сильных допущений. В этом разделе мы кратко опишем суть проблемы. Более полное обсуждение проблемы ошибки измерения и обсуждение наиболее часто используемого решения (инструментальных переменных), а также некоторых приложений мы отложим до раздела 8.5. Удобно будет разделить обсуждение ошибок измерения в зависимой переменной и в регрессорах. В последнем случае также удобно сначала рассмотреть случай модели с одним регрессором, а затем расширить его до случая множественной регрессии. Рассмотрим модель, описывающую ожидаемый уровень дохода населения: ∗ x (4-55) I = β + ε, где I* — полный ожидаемый доход. Предположим, что вместо этого измерен уровень заработанного дохода I. Неясно, как I связана с I*. Обычно предполагают, что ошибка измерения аддитивна, т. е. I I* + w. Подставляя это = I равенство вместо в (4-55), получаем x I = β + ε + w = x β + v, (4-56) 4.7. Проблемы в данных 115 что, кажется, несколько сложнее исходной регрессии, хотя и очень на нее похоже. Если w и x некоррелированы, то это действительно так. Если w — гомоскедастичная ошибка с нулевым средним, не коррелированная с x, то вся разница между моделями (4-55) и (4-56) состоит в том, что дисперсия 2 2 2 шоков в (4-56) равна > . В остальном это две регрессии, и в обоих σ + σ σ w ε ε случаях может быть состоятельно оценена с помощью метода наименьβ квадратов. Ошибка измерения проявляет себя через уменьшение точности оценки, поскольку асимптотическая дисперсия оценки из (4-56) рав2 (σ /n)[plim(X X/n)] в отличие от /n)[plim(X X/n)] в случае, если (σ β v ε оценивается с помощью (4-55). Также ошибка измерения приводит к ухуд2 качества приближения регрессии. Обратите внимание, что R в регрессии (4-55) равен ∗ 0 ∗ 2 − e/n)/(I M I R = 1 (e /n). ∗ 2 Числитель сходится к σ , в то время как знаменатель сходится к полной дисε I*, которая может достигать + Qβ, где Q plim(X X/n). Таким σ β = ε образом, 2 2 plimR = β Qβ/[σ + β Qβ]. ∗ ε 2 2 R Аналогичный показатель для (4-56), , отличается только тем, что σ в знаε 2 менателе заменяется на > . Следовательно, σ σ v ε 2 2 − plimR plimR > 0. ∗ Таким образом, качество приближения, полученного оценкой регрессии (4-56), будет или, по крайней мере, ожидается хуже, чем качество приближения, полученного оценкой регрессии (4-55). (Вывод выше касался асимптотического приближении, так что это неравенство может не выполняться в конкретной конечной выборке.) Мы показали, какие последствия будет иметь ошибка при измерении зависимой переменной. Заметим, что если ошибка неаддитивна, если она коррелирована с x или обладает другими «плохими» свойствами вроде гетероскедастичности, то эти результаты не будут верными, а о последствиях ошибки измерения в этих случаях ничего сказать с уверенностью нельзя. Существует ли здесь «решение», также неясно. Рассуждения, приведенные выше, показывают, что предпочтительнее было бы иметь точные значения зависимой переменной. При их отсутствии не лучше ли использовать какую- нибудь проксипеременную? К сожалению, I и так является прокси, поэтому, если нет доступной I с меньшей дисперсией ошибки измерения, ничего нельзя поделать. С другой стороны, кажется, что вывод довольно безобиден. Выборка содержит меньше информации, чем нам хотелось бы, но имеющейся информации достаточно для построения состоятельной оценки и β для построения соответствующих статистических выводов на этой информации. когда с ошибкой измерены независимые переменные, значительно сложнее. Для простоты мы сохраним обозначения I и I* для наблюдаемой и теоретической переменных соответственно. Возьмем простую парную регрессию = β + β I + ε, 1 2 4.7. Проблемы в данных 117 Рис. 4.9. Диаграмма рассеяния логарифмов цены и площади картин Моне Точка, обозначенная «O» и обведенная в кружок, соответствует неожиданно дешевой (сравнительно с предсказанием регрессии) картине. (Это не самая дешевая картина в выборке, а та, предсказание регрессии для которой оказалось наиболее ошибочным.) Поскольку метод наименьших квадратов основан на квадратах отклонений, оценка, скорее всего, сильно зависит от экстремальных значений вроде этих, особенно если выборка невелика. «Влиятельное наблюдение» — это такое, которое может иметь значительное влияние на оценки коэффициентов регрессии, полученные при помощи метода наименьших квадратов. Для простой регрессии, показанной на рис. 4.9, в работе Belsley, Kuh и Welsh (1980) была определена мера влиятельности i: наблюдения 2 − 1 (x x ¯ ) i n h = + , (4-58) i n − 2 n Σ (x x ¯ ) j n j=1 i. где x ¯ и сумма в знаменателе дроби вычисляются без наблюдения (Эта n мера основывается на разности b и b , где последнее вычисляется без на(i) i. Мы скоро к этому вернемся.) Предлагается считать наблюдение влиятельным, если h > 2/n. Нужно принять решение: отбрасывать это наi или нет. Нужно отметить, что наблюдения с большим «рычагом» необязательно являются «выбросами» (которые мы определим ниже), по- скольку анализ проводится условно по x . Чтобы это проиллюстрировать, i наблюдение «I» на рисунке было бы помечено, даже если бы лежало в точности на линии регрессии — здесь источник влиятельности лежит в числителе второго члена h , который не связан с расстоянием до прямой. В нашем i примере «влиятельное наблюдение» — результат того, что Моне решил написать маленькую картину. Суть здесь в том, что у нас отсутствует теория, x объясняющая экстремальные значения . Устранение таких наблюдений — i 118 Глава 4. Оценки методом наименьших квадратов это чисто алгебраическое действие, которое приведет к тому, что линия регрессии будет строиться по значениям x , наиболее близким к средним. i Изменение вектора коэффициентов множественной линейной регрессии при добавлении к выборке наблюдения равно 1 −1 − − , (4-59) b b = ∆b = X X x y x b i i (i) (i) (i) −1 (i) i 1 + x X X x i (i) i (i) где оценка b построена с учетом наблюдения i, а оценка b — без наблюде(i) i и X не включает наблюдение i. (См. упражнение 5 к главе 3.) Трудно (i) выделить характеристики наблюдения, которые сильно влияли бы на это изменение. Мера влиятельности −1 h = x X X x ii i (i) i (i) K−1 K−1 1 jk 0 − − (4-60) = + x x ¯ x x ¯ Z M Z n,j k (i) i,j i,k (i) n j=1 k=1 обычно используется для определения влиятельных наблюдений [Belsley, Kuh, Welsh (1980) и Cook (1977).] В данном случае критерием было бы h ii > 2(K−1)/n. Квадраты отклонений элементов x от средних значений переi входят в h , так что эта мера снова опирается на удаленность наii от средних значений. (Для примера см. выражение для дисперсии прогноза в подразделе 4.6.1.) Вообще говоря, «выброс» — это наблюдение, которое кажется не подчиняющимся правилам, определяемым моделью. Так, возможно, оно возникает из другого процесса порождения данных. Точка «O» на рис. 4.9 кажется именно такой. Выбросы возникают по разным причинам. Самое простое объяснение — это ошибки в данных. Если предположить, что данные верны, то нужно как-то определить, какое наблюдение является выбросом. Необычно большие остатки являются очевидным кандидатом для подобного выбора. Но поскольку распределение шоков предполагает наличие некоторого количества значительных отклонений, просто убирать неудобные наблюдения будет явной ошибкой. С другой стороны, можно подозревать, что такие наблюдения выбраны из другого распределения. «Стандартизированные» (studentized) остатки строятся с учетом этого факта: оцениваются значения коэффициентов и дисперсия остатков без учета наблюдения i для каждого наблюдения в выборке, а затем модифицированные остатки стандартизируются. i-й стандартизированный остаток равен 2 e e e − e /(1 − h ) i ii i (4-61) e(i) = , − − n 1 K − (1 h ) ii где e — вектор остатков для полной выборки, построенный по b, включающий остаток e для наблюдения i. Вообще говоря, этот остаток имеет ti с − − степенями свободы (или асимптотически станn 1 K дартное нормальное распределение). Наблюдения с большими стандартизированными остатками, скажем, большими 2,0, можно считать выбросами. 4.8. Заключение и выводы Interval estimation — Интервальное оценивание Least squares attenuation — Недооценка метода наименьших квадратов Lindeberg–Feller Central Limit Theorem — Центральная предельная теорема Линдеберга–Феллера Linear estimator — Линейная оценка Linear unbiased estimator — Линейная несмещенная оценка Maximum likelihood estimator — Оценка методом максимального правдоподобия absolute error — Средняя абсолютная ошибка Mean square convergence — Сходимость в среднеквадратичном Mean squared error — Средний квадрат ошибки Measurement error — Ошибка измерения of moments — Метод моментов Minimum mean squared error — Минимальная среднеквадратичная ошибка Minimum variance linear unbiased estimator — Линейная несмещенная оценка с наименьшей дисперсией Missing at random — Случайные пропуски completely at random — Полностью случайные пропуски Missing observations — Пропущенные наблюдения Modified zero-order regression — Модифицированный метод нулевого порядка Monte Carlo study — Исследования методом Монте-Карло Multicollinearity — Мультиколлинеарность missing at random — Неслучайные пропуски Oaxaca’s and Blinder’s decomposition — Разложение Охака и Блаиндера Omission of relevant variables — Пропуск существенных (значимых) переменных linear predictor — Оптимальный линейный предиктор Orthogonal random variables — Ортогональные случайные величины Panel data — Панельные данные Pivotal statistic — Базисная статистика Point estimation — Точечная оценка Prediction error — Ошибка предсказания interval — Доверительный интервал для предсказания Prediction variance — Дисперсия предсказания estimator — Предварительная оценка Principal components — Главные компоненты limit — Предел по вероятности mean squared error — Квадратный корень из среднеквадратичной ошибки Sample selection — Выборочная селективность distribution — Выборочное распределение Sampling variance — Выборочная дисперсия — Полупараметрический estimator — Размытая оценка Specification errors — Ошибки спецификации error — Стандартная ошибка Standard error of the regression — Стандартная ошибка регрессии Stationary process — Стационарный процесс Statistical properties — Статистические свойства — Стохастические Stochastic regressors (случайные) регрессоры Theil statistic — Статистика Тейла ratio — t t-статистика Variance inflation factor — Множитель наполнения дисперсии Zero-order method — Метод нулевого порядка ˆ ˆ 1. Пусть есть две независимые несмещенные оценки параметра и , с θ, θ θ 1 2 различными дисперсиями, v и v . Какая из линейных комбинаций вида 1 2 122 Глава 4. Оценки методом наименьших квадратов ˆ ˆ ˆ будет несмещенной оценкой с наименьшей дисперсией θ = c θ + c θ 1 1 2 2 для θ? 2 2. Рассмотрим парную регрессию , с | и | y = βx + ε E [ε x] = 0 E [ε x] = i i i 2 . = σ a. Найдите линейную оценку с минимальным среднеквадратичным β ˆ отклонением. [Подсказка. Пусть оценка имеет вид Выбери- ( β = c y). ˆ ˆ 2 те c, минимизирующее − Ответ является функциVar( β) + (E( β β)) . ей неизвестных параметров.] b. Для оценки из пункта a) покажите, что отношение среднеквадратичˆ ошибки к среднеквадратичной ошибке оценки методом наиβ квадратов b равно ˆ 2 2 MSE [ β] τ β 2 где = , τ = . 2 2 MSE [b] (1 + τ ) [σ /x x] Заметим, что τ — теоретический аналог для t-статистики, проверяющей гипотезу о том, что β = 0, приведенной в (5-11). Как можно интерпретировать поведение этого отношения при → ∞? τ 3. Предположим, что классическая модель регрессии применима, но истинное значение константы равно 0. Сравните дисперсию оценки методом наименьших квадратов коэффициентов наклона, построенных по уравнению без постоянного члена, с соответствующей дисперсией оценки, построенной по уравнению с (излишним) постоянным членом. 4. Рассмотрим уравнение регрессии где шоки имеют y = α + βx + ε , ε i i i i плотность f (ε ) = (1/λ) exp(−ε /λ), ε ≥ 0. Эта модель несколько необычi поскольку все шоки в этой модели неотрицательны. Заметим, что 2 | а | . Покажите, что оценка OLS коэффициента E [ε x ] = λ, Var[ε x ] = λ i i i i наклона является несмещенной, а оценка свободного члена смещена. 5. Докажите, что оценка OLS для свободного члена в классической модели регрессии является линейной несмещенной оценкой с наименьшей дисперсией. Как монополист, максимизирующий прибыль, вы наблюдаете функцию спроса Q = α + βP + ε. В прошлом вы устанавливали следующие цены и продавали следующие соответствующие количества товара: Q 3 3 7 6 10 15 16 13 9 15 9 15 12 18 21 P 18 16 17 12 15 15 4 13 11 6 8 10 7 7 7 Пусть ваши предельные издержки равны 10. Постройте с помощью метода наименьших квадратов 95%-й доверительный интервал для ожидаемого значения выпуска, максимизирующего прибыль. 7. Следующие выборочные моменты были вычислены на x = [1, x , x , x ] 1 2 3 основе 100 наблюдений, полученных с помощью генератора случайных чисел:     100 123 96 109 460 123 252 125 189 810     ∗Xy ∗y X X = , = , y = 3924.     96 125 167 146 615     109 189 146 168 712 4.8. Заключение и выводы 123 Истинная модель, описывающая эти данные, имеет вид y = x +x +x +ε. 1 2 3 a. Вычислите коэффициенты корреляции между регрессорами. b. Вычислите МНК-оценки коэффициентов в регрессии y на константу , и . x x x 1 2 3 c. Вычислите МНК-оценки коэффициентов в регрессиях на константу y x и x и на константу x и x . 1 2 2 3 d. Вычислите множитель наполнения дисперсии (VIF) для каждого регрессора. Регрессоры очевидно коллинеарны. Из-за какой переменной возникает проблема? 8. Рассмотрим множественную регрессию y на переменных X и дополниK переменную z. Докажите, что при выполнении условий A1–A6 классической модели регрессии истинное значение дисперсии OLS оценки коэффициентов при X больше, когда z включена в оцениваемое уравнение регрессии, чем при ее отсутствии. Будет ли то же самое верно для выборочной оценки ковариационной матрицы? Почему? Предполагайте, что X и z являются нестохастическими и коэффициент при z не равен 0. 9. В классической нормальной модели регрессии без константы y = Xβ + ε и с регрессорами, предполагая, что истинное значение коэффициента K β равно нулю, вычислите точное ожидаемое значение величины F [K, n− 2 2 −K] − − = (R /K)/[(1 R )/(n K)]. K 2 10. Докажите, что где b — OLS-оценка, E [b b] = β β + σ (1/λ ), k k=1 а — собственное значение матрицы λ X X. k 11. Для классической нормальной регрессии y = Xβ + ε без константы и с 2 R /K K регрессорами, чему равно − , если plim F [K, n K] = plim 2 (1−R )/(n−K) истинное значение равно 0? β 12. Пусть e — i-й остаток метода наименьших квадратов в регрессии y на i X в классической модели регрессии и пусть — соответствующий шок. ε i Докажите, что − plim(e ε ) = 0. i i 2 13. В простой модели регрессии y = µ + ε , ε ∼ N [0, σ ] докажите, что i i i выборочное среднее состоятельно и асимптотически нормально распределено. Теперь рассмотрите альтернативную оценку i i µ ˆ = w y , w = = . i i i i (n(n+1)/2) i i Заметьте, что w = 1. Докажите, что это состоятельная оценка µ, и выi ее асимптотическую дисперсию. [Подсказка: i = n(n + 1)(2n+ i +1)/6.] 14. Возьмем выборку из наблюдений, из которых полных, а неполn в которых пропущено значение зависимой переменной y . Данные i о значениях регрессоров полны для всех наблюдений, и . Мы x n X X i c m хотим с помощью этих данных оценить параметры линейной регрессии Рассмотрим следующую стратегию пополнения. Шаг 1: оцеy = Xβ + ε. ним линейную регрессию y на X и вычислим b . Шаг 2: с помощью X c c c m 124 Глава 4. Оценки методом наименьших квадратов построим предсказания значений по , затем оценим регрессию y X b m m c полной выборки наблюдений (y ) на полную выборку регрессоров , X b c m c (X ). , X c m a. Покажите, что оценки векторов коэффициентов, полученные на первом и на втором шаге, совпадают. b. Является ли оценка коэффициентов, полученная на втором шаге, несмещенной? Покажите, что сумма квадратов остатков одинакова для обеих оценок. Покажите, что оценка , полученная на втором шаге, смещена вниз. σ 15. В (4-13) мы видели, что если лишние переменные X добавляются к ре2 y на X , то OLS-оценка вектора коэффициентов является несме1 оценкой истинного вектора параметров , 0 . Покажите, β = (β ) 1 − − что в этой длинной регрессии e e/(n K K ) также является несме1 оценкой . σ 16. В подразделе 4.7.3 мы рассматривали регрессию y на набор главных компонент, а не на исходные данные. Для простоты допустим, что X не соK постоянного члена и что переменных измерены в своих отклонениях от среднего и стандартизированы путем деления на соответствующие стандартные отклонения. Рассмотрим регрессию y на L главных компонент, XC , где L K. Пусть d обозначает вектор коэффициенZ = < L тов. Уравнение регрессии имеет вид y = Xβ + ε. Выше утверждалось, что E[d] = C β. Докажите это утверждение. L 17. В примере 4.10 была рассмотрена регрессионная модель, по которой можно предсказать цены на картины Моне. Самая дорогая картина была продана за $33,0135M (log = 17, 3124). Высота и ширина этой картины равнялись 35 и 39,4 дюйма соответственно. Постройте с помощью этих данных и модели доверительные интервалы для предсказаний логарифма цены и самой цены этой картины. Эмпирические приложения 1. В табл. F2.2 приведены данные по потреблению бензина в США с 1953 по 2004 г. Заметим, что потребление здесь измерено как величина суммарных расходов на бензин. Чтобы получить величину потребления на душу населения, поделите показатель GASEXP на величину GASP, умноженную на Pop. Другие переменные не нуждаются в преобразовании. a. Оцените множественную регрессию душевого потребления бензина на доход на душу населения, цену бензина, другие цены и временной тренд. Приведите все полученные результаты. Соответствуют ли знаки полученных коэффициентов вашим ожиданиям? b. Проверьте гипотезу о том, что с точки зрения спроса на бензин для потребителей не имеет значения, изменяются цены на новые или подержанные автомобили. c. Оцените эластичность спроса на бензин по цене бензина, эластичность по доходу и перекрестную эластичность по цене общественного транспорта. Вычислите их в точке, соответствующей 2004 г. ГЛАВА 5 Тестирование гипотез и выбор спецификации 5.1. Введение Модель линейной регрессии используется для трех важных целей: оценивания и предсказания, которые освещались в предыдущей главе, и тестирования гипотез. В этой главе будут рассмотрены некоторые приложения тестирования гипотез с использованием линейной регрессионной модели. Мы начнем с методологической и статистической теории. Часть этой теории была представлена в главе 4 (включая идею основной (базисной) статистики в подразделе 4.5.1) и в приложении C.7. В разделе 5.2 мы обобщим методологию на случай тестирования на основе регрессионной модели. После изложения теории в разделах 5.3–5.7 будут рассмотрены некоторые приложения регрессионного анализа. Это обобщение будет касаться ограничений, накладываемых на параметры модели, таких как «релевантность» переменной (т.е. наличие при ней ненулевого коэффициента) или адекватность модели данным (т.е. соответствуют ли данные гипотезе о том, что все коэффициенты равны нулю). Основной интерес в обсуждении будут представлять линейные ограничения. Мы обратимся к нелинейным ограничениям в конце изложения, в разделе 5.7. В разделе 5.8 рассматривается более широкий класс гипотез, включающий такие, как выбор из двух моделей, например, между линейной и логлинейной. В каждом из приведенных случаев процедура тестирования разрешала сопоставление двух теорий происхождения данных; в разделах 5.2–5.7 — узкой и широкой моделей, а в разделе 5.8 примерно одинаковых моделей. В разделе 5.9 иллюстрируется конкретный тест спецификации, который в сущности представляет тест такого утверждения, как «модель корректна», против утверждения «модель неадекватна». Этот тест позволяет сравнить теорию, лежащую в основе модели, с «некоторой другой, неназванной теорией». Наконец, в разделе 5.10 представлены некоторые общие принципы и элементы стратегии тестирования модели и выбора спецификации. 5.2. Методология тестирования гипотез Мы начинаем анализ с регрессионной модели как утверждения о том, что y Xβ (5-1) = + ε. В качестве конкретного приложения пример 4.6 иллюстрировал аукционные цены картин: 128 Глава 5. Тестирование гипотез и выбор спецификации (5-2) ln Price = β + β ln Size + β AspectRatio + ε. 1 2 3 Некоторые вопросы могут возникнуть относительно «модели» в (5-2), в сущности, о переменных. Естественно предположить, что ценители изобразительного искусства будут интересоваться соотношением сторон, которое является элементом эстетической ценности картины. Но идея о том, что размер должен влиять на цену, противоестественна, особенно учитывая удивительно малые размеры некоторых наиболее известных картин, таких как Мона Лиза Постоянство памяти (30 в высоту и 21 в ширину) или Дали (лишь 9,5 в высоту и 13 в ширину). Скептик может усомниться в наличии lnSize в уравнении или, другими словами, ненулевого коэффициента . β 2 Чтобы разрешить эту проблему, можно поставить вопрос следующим образом: соответствует ли специфицированное уравнение данным, т. е. наблюдаемым ценам, по которым продаются картины? Чтобы ответить на этот вопрос, естественным представляется сначала оценить регрессию и затем рассмотреть оценку . «Тест» в этом случае будет состоять в том, равен ли β 2 b нулю в регрессии, оцененной методом наименьших квадратов, или нет. 2 Понимая, что наклон оценки линейной регрессии — это случайная величина, которая никогда не будет в точности равна нулю, даже если нулю на самом деле равен коэффициент , мы рассмотрим более мягкую формулиβ — достаточно ли выборочная оценка близка к нулю для того, чтобы мы сделали вывод о том, что ее теоретический аналог на самом деле ноль, т.е. что ненулевое значение, которое мы наблюдаем, — это не что иное, как шум, вызванный выборочной вариацией. Без ответа остаются вопросы: как близка к нулю должна быть оценка, чтобы мы могли сделать этот вывод? в чем измерять эту близость? в какой степени мы можем быть уверены, что сделали правильный вывод? (Конечно, не полностью.) насколько вероятно, что правило принятия решения, которое мы выберем, приведет к неверному выводу? Этот раздел формализует эти идеи. После детального изложения методологии будет рассмотрено несколько численных примеров. 5.2.1. Ограничения и гипотезы В рамках нашего подхода мы будем формулировать гипотезу в форме ограничения на модель. Таким образом, в рамках обсуждаемой здесь классической методологии модель является утверждением общего характера, а гипотеза — предложением, конкретизирующим это утверждение. В примере с изобразительным искусством в (5-2) таким дополнительным утверждением является β = 0 — без комментариев относительно β или β . Мы 2 1 3 определяем нулевую гипотезу как утверждение, конкретизирующее модель, и альтернативную гипотезу как более общее утверждение. В рассматриваемом примере более общая модель позволяет уравнению содерAspectRatio и lnSize и — она допускает возможность того, что любой из коэффициентов может быть равен нулю, но не настаивает на этом. Нулевая гипотеза настаивает на том, что но не утверждает ничего относиβ = 0, 2 тельно или . Формальные обозначения для фиксирования этой гипотеβ β 1 3 зы выглядят как 5.2. Методология тестирования гипотез 129 Price Size AspectRatio ln = β + β ln + β + ε, 1 2 3 H : β = 0, (5-3) 0 2 H : β = 0. 1 2 Отметим, что нулевая и альтернативная гипотезы вместе взаимоисключающи и исчерпывающи. Третьей возможности нет; верна либо одна, либо другая, но не обе. Начиная с этого момента, анализ будет посвящен сопоставлению нулевой гипотезы с данными. Данные могут убедить эконометриста отвергнуть нулевую гипотезу. В этот момент может показаться уместным принятие альтернативы. Однако в интересах поддержания гибкости методологии, т.е. открытости к новой информации, уместным выводом в данном случае будет отвержение или неотвержение нулевой гипотезы. Неотвержение нулевой гипотезы неэквивалентно ее принятию, хотя формулировка и может намекать на это. Принимая нулевую гипотезу, мы неявно отказываемся от дальнейшего продолжения исследования. Таким образом, традиционная, классическая методология оставляет возможность того, что дополнительная информация может поменять выводы. Методология нашего тестирования будет сформулирована таким образом, чтобы или отвергнуть H : дан0 несовместимы с гипотезой с существенной долей уверенности, или не H отвергать : данные совместимы с гипотезой. 0 5.2.2. Вложенные модели Общий подход к тестированию гипотезы состоит в том, чтобы сформулировать статистическую модель, которая включает гипотезу в качестве ограничения на свои параметры. Теория имеет тестируемые утверждения, если из нее следуют какие-либо тестируемые ограничения модели. Рассмотрим, например, модель инвестиций, I , t (5-4) ln I = β + β i + β ∆p + β ln Y + β t + ε , t 1 2 t 3 t 4 t 5 t которая говорит о том, что инвесторы чувствительны к номинальной ставке i процента , темпу инфляции ∆p , логарифму реального выпуска lnY и друt факторам, растущим со временем, включаемым во временной тренд, t. Альтернативная теория говорит о том, что «инвесторы интересуются реальной процентной ставкой». В этом случае альтернативная модель имеет вид − (5-5) ln I = β + β (i ∆p ) + β ∆p + β ln Y + β t + ε . t 1 2 t t 3 t 4 t 5 t Несмотря на то что эта новая модель отражает вторую теорию, уравнение все же содержит номинальную процентную ставку и инфляцию. Теория не порождает тестируемые утверждения для нашей модели. Но рассмотрим более сильную гипотезу «инвесторы интересуются только реальной процентной ставкой». Получаемое уравнение ln I = β + β (i − ∆p ) + β ln Y + β t + ε (5-6) t 1 2 t t 4 t 5 t теперь ограничено; в контексте (5-4) тестируемое утверждение состоит в том, что Более сильное утверждение подразумевает конкретβ + β = 0. 2 3 ное соотношение параметров уравнения, которое может подтверждаться, но может и опровергаться эмпирическими наблюдениями. 130 Глава 5. Тестирование гипотез и выбор спецификации Описание тестируемых утверждений в предыдущем параграфе (верно) указывает на то, что тестируемые ограничения подразумевают, что толь- ко некоторые из возможных моделей, допустимых исходной спецификацией, будут действительны, т.е. совместимы с теорией. В предыдущем примере (5-4) специфицирует модель с пятью неограниченными параметрами Но (5-6) показывает, что только некоторые значения па(β , β , β , β , β ). 1 2 3 4 5 раметров совместимы с теорией, а именно те, для которых верно −β . β = 3 2 Это подмножество значений содержится внутри неограниченного множества. Поэтому модели называются вложенными (nested). Рассмотрим другую гипотезу — «инвесторы не беспокоятся об инфляции». В этом случае меньший набор коэффициентов — это (β , , 0, , И снова ограниβ β β ). 1 2 4 5 чения подразумевают подходящее пространство параметров «меньшее» (имеющее меньшее число измерений), чем неограниченное. Общий результат состоит в том, что гипотеза, специфицируемая ограниченной моделью, содержится внутри неограниченной модели. Теперь рассмотрим альтернативную пару моделей: модель : «инвесторов интересует только инфляция»; 0 модель : «инвесторов интересует только номинальная процентная ставка». 1 В этом случае два вектора параметров — это (β , 0, , , в модель β β β ) 1 3 4 5 0 и (β , , 0, , в модель . В этом случае обе спецификации являются β β β ) 1 2 4 5 1 подмножествами неограниченной модели, но ни одна из них не может быть получена наложением ограничений на другую. Две эти модели не вложены. Пока что нас интересуют только вложенные модели. Невложенные модели рассматриваются в разделе 5.8. 5.2.3. Процедуры тестирования — методология Неймана–Пирсона В примере, приведенном в (5-2), интуиция подсказывает подход к тестированию, основанный на сопоставлении данных и гипотезы. Основа методологии, предложенной в работе Неймана и Пирсона (Neyman, Pearson (1933)), предоставляет надежное основание для тестирования гипотез в постановке, рассматриваемой нами в этой главе. В целом исследователь следует логике, основанной на вопросе: какие данные позволят мне отвергнуть гипотезу? Учитывая формулировку гипотезы в подразделе 5.2.1, он эквивалентен вопросу о том, какого рода данные поддержат модель. Наблюдаемые данные делятся на область отвержения и область принятия. Процедура тестирования сводится к рассмотрению статистических доводов. Как только определился вид области отвержения, если наблюдаемые данные относятся к нему, гипотеза отвергается. Для того чтобы увидеть, как этот подход работает на практике, рассмотрим снова гипотезу о размере в уравнении цены на произведения искусства. Мы проверяем гипотезу о том, что равно нуβ Оценим наклон регрессии методом наименьших квадратов. Определим заранее, как далеко от нуля должна быть оценка , чтобы привести к отверβ нулевой гипотезы. Как только правило определено, сам тест работает 0+ механически. В частности, в этом случае далека от нуля, если > b b β 2 2 2 0− или < . Если происходит одно из этих событий, гипотеза отвергается. b β 2 2 Принципиальным является то, что правило определяется заранее. 134 Глава 5. Тестирование гипотез и выбор спецификации где c(β) — это набор из J нелинейных функций Линейная гипотеза являβ. частным случаем. Аналогом нашего требования для линейного случая является то, что снова J строго меньше K и матрица производных G(β) (5-10) = ∂c(β)/∂β имеет полный ранг по строкам. Это означает, что ограничения функционально независимы. В линейном случае G(β) — это матрица констант R, которую мы видели ранее, и функциональная независимость эквивалентна линейной независимости. Мы подробно рассмотрим нелинейные ограничения в разделе 5.7. На данный момент ограничимся рассмотрением общей линейной гипотезы. Гипотеза, подразумеваемая ограничениями, записывается как H : Rβ − q = 0, 0 H Rβ − q 0. : = 1 Мы рассмотрим два подхода к тестированию гипотезы, тесты Вальда и тесты, основанные на качестве модели. Гипотеза характеризует популяцию. Если гипотеза верна, выборочная статистика должна воспроизводить это описание. Продолжая предыдущий пример, гипотеза утверждает, что некий коэффициент в регрессионной модели равен нулю. Если гипотеза верна, оценка коэффициента должна быть близка к нулю по крайней мере в пределах выборочной вариации. Тесты выглядят следующим образом: • Тест Вальда: гипотеза утверждает, что Rβ − равен 0. Оценка методом q наименьших квадратов b является несмещенной и состоятельной оценкой β. Если гипотеза верна, то выборочное отклонение Rb − q должно быть близко к нулю. Для примера с единственным коэффициентом, если верна гипотеза о том, что равен нулю, то должен быть близок к β b k k − нулю. Тест Вальда измеряет, насколько близок Rb q к нулю. • Тесты на основе качества модели: мы получаем наилучшее качество под2 модели — самый высокий , используя метод наименьших квадR и не накладывая никаких ограничений. Мы доказали это в главе 3. Теперь мы покажем, что сумма квадратов остатков никогда не уменьшится при наложении ограничений. Точнее, она будет увеличиваться, за исключением маловероятного специального случая. Например, когда мы накладываем ограничение , исключая из модели, то должны β = 0 x k k 2 ожидать падения R . Эмпирическим приложением для тестирования ги2 будет мера того, насколько сильно падает R при наложении ограничений. ПРЕДПОСЫЛКА. Для получения тестовых статистик в этом разделе мы предполагаем, что ошибки распределены нормально. Как мы видели в главе 4, с этим предположением мы сможем получить точные распределения тестовых статистик. В разделе 5.6 рассмотрим последствия избавления от этой предпосылки и разработаем альтернативный набор результатов, который позволит нам продолжить анализ без нее. 5.4. Тест Вальда 135 5.4. Тест Вальда Тест Вальда является наиболее часто используемой процедурой. Он нередко называется тестом значимости. Основополагающим принципом его работы служит оценка регрессии без ограничений с последующей оценкой того, совместимы ли результаты с гипотезой в пределах выборочной вариации. Тестирование гипотез о коэффициенте Простейшим случаем является тестирование равенства одного коэффициента какому-либо значению. Рассмотрим еще раз наш пример с рынком произведений искусства из раздела 5.2. Нулевая гипотеза имеет вид 0 H : β = β , 0 2 2 0 где β — это гипотетическое значение коэффициента, в данном случае нуль. 2 Расстоянием Вальда между оценкой коэффициента и гипотетическим значением называется линейное расстояние (разность между этими значениями), измеренное в единицах стандартных отклонений. Таким образом, в 0 b этом случае расстояние между и β будет равно k k 0 − b β k k √ (5-11) W = . k 2 kk σ S Как мы видели в (4-38), W (которая раньше называлась z ) имеет стандартk нормальное распределение в предположении, что . Теперь E[b ] = β k k 0 отметьте, что если не равен , то все так же имеет нормальное E[b ] β W k k k 1 распределение, но среднее не равно нулю. В частности, если E[b ] равно β , k k 0 которое отличается от β , то k 1 0 − β β 1 k k |E[b √ (5-12) E{W ] = β = . k k k 2 kk σ S 0 (Например, если гипотеза состоит в том, что и не равен нулю, β = β = 0 β k k √ √ k 1 W b 2 kk 2 kk то ожидаемое значение = / σ S будет равно β / σ S , что не k k k равно нулю.) Для целей использования в процессе тестирования гипотез W k 0 наша интерпретация состоит в том, что если не равен , то b будет β β k k k 0 близок к в единицах стандартных отклонений. Следовательно, логика теβ будет состоять в принятии решения о ложности H — необходимости ее 0 отвержения, если «велика». W k Прежде чем мы определим, что значит «велика», отметим, что предло2 здесь расстояние Вальда не может быть использовано, поскольку σ 2 s неизвестно. Его оценка была получена с помощью . Воспользуемся снова 2 результатами главы 4 и оценим W , используя выборочную оценку . Тогда σ k получаем 0 − b β k k √ (5-13) t = . k 2 kk s S 0 Предполагая, что действительно равен , т.е. что нулевая гипотеза верβ имеет с n−K степенями свободы. [См. (4-41).] Теперь k 5.4. Тест Вальда 137 существенно больше критического 95%-го значения, равного 1,96, мы отвергаем гипотезу о том, что коэффициент β равен нулю; оказыва2 что покупатели картин Моне интересуются размером. Напротив, коэффициент при AspectRatio равен −0, с оценкой стандартной 16537 ошибки 0,12753, так что соответствующее t-значение для тестирования гипотезы H :β = 0 всего лишь −1, 30. Поскольку это сильно меньше 0 3 1,96, мы делаем вывод, что покупателей произведений искусства (картин Моне) не интересует соотношение сторон картины. В качестве финального замечания рассмотрим другую (столь же загадочную) гипотезу — являются ли аукционные цены неэластичными H : β ≤ 1 или эластичными 0 2 по отношению к площади. Это так называемый односторонний H : β > 1 1 2 тест. Используя подход Неймана–Пирсона к формулировке теста, мы отвергнем нулевую гипотезу, если оценка коэффициента в достаточной степени превысит 1,0 (и не отвергнем, если она будет меньше или равна 1,0). Для поддержания размера теста на уровне 0,05 мы разместим всю площадь критической области (области отвержения) справа от 1,0; критическое значение из таблицы составляет 1,645. Тестовая статисти− — это (1, 33372 1, 0)/0, 09072 = 3, 679 > 1, 645, т. е. мы отвергнем и эту нулевую гипотезу. Пример 5.2. Уравнение зарплаты Таблица F5.1 из приложения содержит 753 наблюдения, использовавшихся в исследовании предложения труда замужних женщин (Mroz (1987)). Мы используем эти данные в качестве примера. Из 753 индивидов выборки 428 формально были участниками рынка труда. Для них мы оценим уравнение зарплаты в полулогарифмической форме, предложенной в примере 2.2: 2 age age education kids lnearnings = β + β + β + β + β + ε, 1 2 3 4 5 где earnings — это hourly wage (почасовая зарплата), умноженная на hours worked (число отработанных часов), education (образование) измеряется в годах полученного образования и kids — это бинарная переменная, равная единице при наличии в домохозяйстве детей до 18 лет. (См. подробное описание данных в приложении F.) Результаты оценки регрессии представлены в табл. 5.1. Так, для оценки 5 параметров используются 428 наблюдений, t-статистика имеет − степени свободы. Для (428 5) = 423 95%-го уровня значимости при таком большом числе степеней свободы можно использовать значение стандартного нормального распределения, равное 1,96. По этому показателю все переменные статистически значимы и знаки соответствуют ожиданиям. Интерес представляет вопрос о том, оказывает ли влияние число детей (kids) на заработную плату, на отработанные часы или на оба показателя. Интерпретация оценки при переменной, характеризующей уровень образования, состоит в том, что дополнительный год обучения дает с 6,7%-й прирост зарплаты. Квадрат возраста предполагает, что для заданного уровня образования и размера 138 Глава 5. Тестирование гипотез и выбор спецификации семьи зарплата растет до максимума у − что составляет примерно b /(2b ), 2 3 43 года, после чего она начинает падать. Некоторые замечания: (1) оценка регрессии только для выборки из индивидов, которые работали положительное число часов, не является безвредным механизмом построения выборки. Поскольку индивиды делали выбор (работать или не работать), вполне вероятно (этого стоит ожидать), что потенциальный уровень зарплаты (вместе с некоторыми другими аспектами, которые мы рассмотрим в главе 19) играл важную роль. (2) Уравнение зарплаты представляет собой смесь уравнения предложения труда — часов, отработанных индивидом, и уравнения спроса на труд, заработная плата — это, надо полагать, принятое предложение. Поэтому неясно, какова точная природа этого уравнения. Скорее всего, это смесь уравнений сложной системы структурных уравнений. (См. обсуждение в примере 10.1.) Таблица 5.1. Результаты оценки регрессии для уравнения зарплаты Сумма квадратов остатков: 599,4582 Стандартная ошибка регрессии: 1,19044 2 R на основе 428 наблюдений 0,040995 Переменная Коэффициент Стандартная t- отношение ошибка Константа 3,24009 1,7674 1,833 Age 0,20056 0,08386 2,392 2 Age –0,0023147 0,00098688 –2,345 Education 0,067472 0,025248 2,672 Kids –0,35119 0,14753 –2,380 −n Оценка ковариационной матрицы для − × b (e n = 10 ) 2 Константа Age Age Education Kids 3,12381 –0,14409 0,0070325 0,0016617 –8,23237e–5 9,73928e–7 –0,0092609 5,08549e–5 –4,96761e–7 0,00063729 0,026749 –0,0026412 3,84102e–5 –5,46193e–5 0,021766 F-статистика 5.4.2. и отклонение метода наименьших квадратов Теперь рассмотрим процедуру тестирования набора из J линейных ограничений, указанных в нулевой гипотезе, − H : Rβ q = 0, 0 против альтернативной гипотезы H : Rβ − q = 0. 1 Имея оценку b, полученную методом наименьших квадратов, наш интерес сосредоточен на векторе отклонений − Маловероятно, что векRb q = m. тор m будет в точности равен 0. Статистический вопрос состоит в том, может 5.4. Тест Вальда 139 ли отклонение m от 0 быть отнесено к выборочной ошибке или оно является значимым. Поскольку b распределен нормально [см. (4-18)] и m — это линейная функция от b, то m также распределен нормально. Если нулевая гипотеза верна, то Rβ − q = 0 и m имеет вектор средних | | − − E [m X] = RE[b X] q = Rβ q = 0 и ковариационную матрицу 2 −1 | − | | Var[m X] = Var[Rb q X] = R Var[b X] R = σ R(X X) R . Мы можем построить тест для гипотезы на основе критерия Вальда. H 0 Условно относительно X мы получаем: −1 W = m Var[m | X] m −1 −1 2 − − (5-14) = (Rb q) [σ R(X X) R ] (Rb q) −1 −1 − − (Rb q) [R(X X) R ] (Rb q) = 2 σ 2 ∼ χ [J]. Если гипотеза верна, то статистика W имеет хи-квадрат-распределение с 1 J степенями свободы . Как подсказывает интуиция, чем больше значение m, т. е. выше степень несоответствия оценки ограничениям, тем больше статистика хи-квадрат. Следовательно, большое значение хи-квадрат будет аргументом против нулевой гипотезы. Статистика хи-квадрат в (5-14) не может быть использована, поскольку 2 2 2 параметр неизвестен. Используя вместо и поделив результат на J, σ s σ F-статистику J мы получаем с и n − K степенями свободы, которую можно использовать. Производя замену в (5-14), поделив на J и умножив и поделив на − мы получаем n K, 2 W σ F = 2 J s −1 −1 2 − − − (Rb q) [R(X X) R ] (Rb q) 1 σ (n K) = 2 2 σ J s (n − K) 2 −1 −1 (Rb − q) [σ R(X X) R ] (Rb − q)/J (5-15) = . − 2 2 − [(n K)s /σ ]/(n K) Если т. е. если нулевая гипотеза верна, то − − Rβ = q, Rb q = Rb Rβ = −1 −1 = R(b − β) = R(X X) X ε. [См. (4-4).] Пусть C = [R(X X) R ] . Так как − R(b β) ε ε −1 = R(X X) X = D , σ σ σ −1 числитель F равен где Числитель — это [(ε/σ) T(ε/σ)]/J, T = D C D. W/J из (5-14). Он распределен как произведение 1/J и хи-квадрат [J ], как по2 выше. В (4-16) мы получили, что − − s = e e/(n K) = ε Mε/(n K), 1 Эти вычисления являются приложением «квадратичной формы полного ранга» из раздела B.11.6. Отметьте, что, несмотря на то что хи-квадрат-распределение рассматривается условно относительно X, оно также свободно от X. 140 Глава 5. Тестирование гипотез и выбор спецификации где M — это идемпотентная матрица. Следовательно, знаменатель F равен − Эта статистика распределена как произведение [(ε/σ) M(ε/σ)]/(n K). − и хи-квадрат [n − Следовательно, F-статистика — это отно1/(n K) K]. шение двух хи-квадрат-переменных, каждая из которых поделена на число своих степеней свободы. Поскольку и обе распределены норM(ε/σ) T(ε/σ) мально и их ковариация TM равна 0, векторы квадратичной формы независимы. Числитель и знаменатель F являются функциями независимых случайных векторов и, следовательно, независимы. Это завершает доказательство того, что полученное распределение является F-распределением. [См. 2 (B-35).] Сокращение в (5-15) дает F-статистику для тестирования линейσ гипотез: −1 −1 2 − − (Rb q) R[s (X X) ]R (Rb q) − (5-16) F [J, n K|X] = . J Для тестирования одного линейного ограничения вида H : r β + r β + · · · + r β = r β = q 0 1 1 2 2 K K (обычно некоторые r равны нулям) F-статистика равна 2 − (Σ r b q) j j j − F [1, n K] = . Σ Σ r r Est. Cov[b , b ] j k j k j k Если гипотеза состоит в том, что j-й коэффициент равен конкретному числу, j-м то R имеет единственную строку с 1 в столбце и нулями в остальных, −1 — это j-й диагональный элемент обратной матрицы и — R(X X) R Rb−q это − F-статистика в таком случае равна (b q). j 2 (b − q) j − F [1, n K] = . Est. Var[b ] j Рассмотрим альтернативный подход. Выборочная оценка равна r β · · · r b + r b + + r b = r b = q ˆ . 1 1 2 2 K K Если существенно отличается от q, то мы заключаем, что данные выборки q ˆ несовместимы с гипотезой. Естественно построить тест на основе − q ˆ q (5-17) t = . se(ˆ q ) Нам нужно оценить стандартную ошибку . Поскольку является линейной q ˆ q ˆ 2 −1 функцией от b и у нас есть оценка ковариационной матрицы b, s (X X) , мы можем оценить дисперсию с помощью q ˆ 2 −1 | Est. Var[ˆ q X] = r [s (X X) ]r. Знаменатель — это квадратный корень из этого числа. Другими словами, t t — это расстояние между гипотетической функцией истинных коэффициентов и той же функцией наших оценок этих коэффициентов, выраженное в 5.4. Тест Вальда 141 единицах стандартной ошибки. Если гипотеза верна, то наши оценки должны отражать этот факт, по крайней мере, в пределах выборочной вариации. Таким образом, если абсолютное значение предыдущего t-значения больше, чем соответствующее критическое значение, гипотеза ставится под вопрос. Между статистиками (5-16) и (5-17) существует полезное соотношение. Мы можем записать квадрат t-статистики как −1 −1 2 2 − − − (r b q) r [s (X X) ]r (r b q) (ˆ q q) 2 t = = . Var(ˆ q − q | X) 1 Следовательно, для тестирования одного ограничения модуль t-статистики — это квадратный корень из F-статистики, которая может быть использована для тестирования этой гипотезы. Пример 5.3. Уравнение инвестиций с ограничениями В подразделе 5.2.2 предложена следующая теория поведения инвесторов: они заботятся только о реальной процентной ставке. Если бы инвесторы интересовались только реальной ставкой процента, одинаковые изменения в процентной ставке и темпе инфляции не оказывали бы независимого влияния на инвестиции. Нулевая гипотеза имеет вид H : β + β = 0. 0 2 3 Оценки параметров уравнений (5-4) и (5-6), полученных с использованием квартальных данных за период между I кварталом 1950 г. и IV кварталом 2000 г. о реальных инвестициях, реальном ВВП, процентной ставке (90-дневной ставке процента по казначейским векселям) и инфляции, измеренной как разность логарифма ИПЦ, приведенные в таблице из приложения F5.2, представлены в табл. 5.2. (При вычислении разности логарифма ИПЦ одно наблюдение потеряно.) Для получения соответствующей тестовой статистики нам требуется стандартная ошибка , которая составляет q ˆ = b + b 2 3 −6 2 2 1/2 × se(ˆ q ) = [0, 00319 + 0, 00234 + 2(−3, 718 10 )] = 0, 002866. t-статистика для теста, таким образом, равна −0, 00860 + 0, 00331 t = = −1, 845. 0, 002866 Таблица 5.2. Оценка уравнений инвестиций (в скобках — оценки стандартных ошибок) β β β β β 1 2 3 4 5 Model –9,135 –0,00860 0,00331 1,930 –0,00566 (5-4) (1,366) (0,00319) (0,00234) (0,183) (0,00149) 2 s =0,08618, R =0,979753, e e =1,47052, Est. Cov[b , b ] =–3,718e–6 2 3 Model –7,907 –0,00443 0,00443 1,764 –0,00440 (5-6) (1,201) (0,00227) (0,00227) (0,161) (0,00133) t2 s =0,8670, R =0,979405, e e =1,49578 142 Глава 5. Тестирование гипотез и выбор спецификации Используя 95%-е критическое значение для t [203-5] 1,96 (значение = для стандартного нормального распределения), мы заключаем, что сумма двух коэффициентов незначимо отличается от нуля, так что гипотеза не должна быть отвергнута. Обычно есть более чем один способ для того, чтобы сформулировать регрессионную модель. Один из удобных способов параметризации ограничений состоит в такой его формулировке, при которой для тестирования гипотезы стандартные тестовые статистики, получаемые из регрессии, могли быть использованы без дальнейших подсчетов. В предыдущем примере мы могли записать регрессионную модель в том виде, в котором она специфицирована в (5-5). Тогда эквивалентный способ тестирования состоял бы H 0 в оценке инвестиционного уравнения со ставкой процента и инфляцией в качестве регрессоров и тестировании нашей теории путем тестирования гипотезы о том, что равен нулю, используя стандартную t-статистику, котоβ получается элементарным вычислением. Когда регрессия оценивается таким образом, −0, и оценка стандартной ошибки равна 0,00287, b = 00529 3 t-статистике, −1, приводя к равной 844(!). (Упражнение: предположим, что номинальная процентная ставки — а не темп инфляции — была включена в качестве дополнительного регрессора. Как вы считаете, чему была бы равна оценка коэффициента и стандартной ошибки?) Рассмотрим, наконец, тест для проверки совместной гипотезы: β + β = 0 (инвесторы рассматривают реальную процентную ставку), 2 3 склонность к инвестированию равна β = 1 (предельная 1), 4 β = 0 (временной тренд отсутствует). 5 Тогда       −0.0053 0 1 1 0 0 0 и − R = 0 0 0 1 0 , q = 1 Rb q = 0.9302 .       −0.0057 0 0 0 0 1 0 Подставляя эти значения в F, получаем Пятипроцентное критичеF = 109, 4. ское значение для равняется 2,65. Таким образом, мы заключаем, F [3, 198] что эти данные несовместимы с гипотезой. Результат не указывает, какое из ограничений оказывает наиболее значимое влияние на отвержение гипотезы. Если три ограничения тестируются по одному, t-статистики в (5-17) равны −1, и −3, Следовательно, на основе отдельных тестовых 844, 5, 076 803. статистик стоит ожидать отвержения второй и третьей гипотез. 5.5. Тестирование ограничений с использованием показателей качества регрессии Другой подход к тестированию основан на использовании характеристик качества регрессии. Вспомним, что вектор оценок b выбирался, миними2 сумму квадратов отклонений, e e. Поскольку равен 1 − e e/y M y 5.5. Тестирование ограничений... 143 0 и y M y постоянна и не включает b, из этого следует, что b выбирается, мак2 R . Возникает вопрос, приведет ли выбор других значений для коэффициентов наклона к значительной потере в качестве описания данных. Например, в уравнении инвестиций (5-4) интерес представляет вопрос о том, приводит ли к существенному ухудшению качества регрессии предположение о выполнении гипотезы (что инвесторы интересуются только реальной процентной ставкой) по сравнению с неограниченной регрессией. Для получения тестовой статистики мы сначала рассматриваем получение оценки методом наименьших квадратов при условии наличия ограничений, 2 затем построим тестовую статистику на основе сравнения R двух регрессий. Оценка наименьших квадратов с ограничениями Предположим, что мы явным образом наложили ограничения общей линейной гипотезы на регрессию. Оценка наименьших квадратов с ограничениями может быть получена как решение задачи минимизации: − − при ограничении (5-18) Minimize S(b ) = (y Xb ) (y Xb ) Rb = q. b 0 0 0 0 0 Функция Лагранжа для этой задачи может быть записана как ∗ 2 − − − (5-19) L (b , λ) = (y Xb ) (y Xb ) + 2λ (Rb q) . 0 0 0 0 Решения и будут удовлетворять необходимым условиям b λ ∗ ∗ ∗ ∂L = −2X (y − Xb ) + 2R λ = 0, ∗ ∗ ∂b ∗ (5-20) ∗ ∂L − = 2(Rb q) = 0. ∗ ∂λ ∗ Деление на 2 и раскрытие скобок приводят к уравнению для блочной матрицы: X R b X y ∗ (5-21) = R 0 λ q ∗ или Ad = v. ∗ Предполагая, что блочная матрица в скобках невырождена, оценка наименьших квадратов с ограничениями — это верхняя часть решения −1 d = A v. (5-22) ∗ Если помимо этого X X невырождена, то явное решение для b и λ может ∗ ∗ быть получено с использованием формулы для блочной обратной матрицы 3 (A-74) : −1 −1 −1 b = b − (X X) R [R(X X) R ] (Rb − q) = ∗ − = b Cm, 2 Так как не ограничена, мы можем сформулировать ограничения в терминах Удобство λ 2λ. масштабирования можно увидеть в (5-20). 3 Общее решение, приведенное для , может быть использовано, даже если вырождеd X ∗ на. Например, предположим, что X X имеет размерность 4×4 и ранг 3. Тогда X X вырождена. Но если на наложено параметрическое ограничение, то матрица в скобках размерности × β 5 5 может иметь ранг 5. Эта формулировка и набор связанных результатов приведены в работе Грина и Сикса (Greene, Seaks (1991)). 144 Глава 5. Тестирование гипотез и выбор спецификации и (5-23) −1 −1 − λ = [R(X X) R ] (Rb q). ∗ Грин и Сикс (Greene, Seaks (1991)) показывают, что ковариационная мат2 b является произведением σ и верхнего левого блока A . Опять же в ∗ обычном случае, в котором невырождена, может быть получена явная X X формула: 2 −1 2 −1 −1 −1 −1 | − Var[b X] = σ (X X) σ (X X) R [R(X X) R ] R(X X) . (5-24) ∗ Таким образом, | | − неотрицательно определенная матрица. Var[b X] = Var[b X] ∗ Одна из интерпретаций такого сокращения в дисперсии заключается в том, сколько информации содержится в ограничениях. Следует отметить, что явное решение для включает вектор отклонеλ − Если оценка методом наименьших квадратов без ограничений Rb q. удовлетворяет ограничению, множители Лагранжа будут равны нулю и b ∗ будет равен b. Конечно, это маловероятно. Решение b с ограничениями ∗ равно решению b без ограничений за вычетом слагаемого, которое отражает невозможность решения без ограничений удовлетворить ограничениям. 5.5.2. Потеря в качестве подгонки оценки наименьших квадратов с ограничениями Для того чтобы получить тест, основанный на оценке наименьших квадратов с ограничениями, рассмотрим сначала один коэффициент, а затем обратимся к общему случаю с J линейными ограничениями. Рассмотрим изменение в качестве множественной регрессии при добавлении переменной z в модель, уже содержащую − переменных, Как показано в разделе K 1 x. 3.5 (теорема 3.6) (3-29), влияние на качество модели будет выражаться как ∗2 2 2 2 − (5-25) R = R + 1 R r , Xz X X yz ∗ 2 2 2 2 где — новый после включения z, — исходный и — частная R R R R r Xz X yz y z корреляция между и с учетом влияния x. Таким образом, как известно, качество улучшается (или, по крайней мере, не ухудшается). При выводе формулы для коэффициента частной корреляции между y и z в (3-22) мы получили удобный результат: 2 t ∗2 z (5-26) r = , yz 2 − t + (n K) z 2 где — это квадрат t-статистики для тестирования гипотезы о том, что коt при z равен нулю в множественной регрессии y на X и z. Если мы ∗2 2 решим (5-25) относительно r и (5-26) относительно t и затем подставим yz z первое решение во второе, получим результат 2 2 − R R /1 Xz X 2 (5-27) t = . z 2 − − 1 R /(n K) Xz 5.5. Тестирование ограничений... 145 Мы видели в конце подраздела 5.4.2, что для единственного ограничения, такого как β = 0, z 2 − − F [1, n K] = t [n K], что дает искомый результат, т.е. из (5-27) видно, что квадрат t-статистики 2 (F-статистика) получается с использованием изменения в . ИнтерпретиR z руя представленные выше преобразования как следствие из регрессии, мы видим, что был доказан результат для случая тестирования гипотезы о равенстве нулю отдельного коэффициента наклона. Но представленный результат имеет общий характер. Тестовая статистика для одt-статистики линейного ограничения равна квадрату в (5-17). По построению можно отметить, что для одного ограничения F является мерой потери качества модели, которая происходит в результате наложения ограничения. Для получения этого результата перейдем к общему случаю J линейных ограничений, который будет включать одно ограничение в качестве частного случая. Качество оценки коэффициентов методом наименьших квадратов с ограничениями не может быть лучше, чем в случае решения без ограничений. − Пусть e равен y Xb . Тогда, используя знакомый подход, имеем ∗ ∗ − − − − − e = y Xb X(b b) = e X(b b). ∗ ∗ ∗ Новая сумма квадратичных отклонений — это e e = e e + (b − b) X X(b − b) ≥ e e. ∗ ∗ ∗ ∗ (Средний член в выражении включает равный нулю.) Потеря в качестве X e, тогда равна −1 −1 e e − e e = (Rb − q) [R(X X) R ] (Rb − q). (5-28) ∗ ∗ Это выражение возникает в числителе F-статистики в (5-7). Подставляя оставшиеся части выражения, мы получаем − (e e e e)/J ∗ ∗ − F [J, n K] = . (5-29) − e e/(n K) 2 Наконец, поделив числитель и знаменатель F на −y) , получаем общий Σ (y i i результат: 2 2 (R − R )/J ∗ − (5-30) F [J, n K] = . − 2 − (1 R )/(n K) Эта форма имеет некоторую интуитивную привлекательность, состоящую в том, что характеристика различия качества двух моделей непосредственно включена в тестовую статистику. В качестве примера этого подхода рассмотрим совместный тест для проверки гипотезы о том, что все коэффициенты F-отношение, наклона в модели равны нулю, т.е. общее которое будет об2 в подразделе 5.5.3, где R = 0. ∗ Для наложения набора исключающих ограничений, таких как β = 0, k для одного или большего числа коэффициентов очевидный подход состоит в исключении переменных из регрессии и построении теста на основе сумм 146 Глава 5. Тестирование гипотез и выбор спецификации квадратов остатков для регрессий с ограничениями и без них. F-статистика для тестирования гипотезы о том, что в подмножестве, например , все β 2 коэффициенты равны нулю, строится с использованием и R = (0 : I), q = 0, −1 J = K = числу элементов в β . Матрица R(X X) R — это K ×K , нижний 2 2 2 2 правый блок полной обратной матрицы. Используя предыдущие результаты для блочных обратных матриц и результаты раздела 3.3, имеем −1 −1 R(X X) R = (X M X ) 1 2 2 и − Rb q = b . 2 Подставляя эти выражения в (5-28) получаем потерю в качестве, которая происходит при исключении набора переменных из регрессии: − e e e e = b X M X b . ∗ 1 2 2 ∗ 2 2 Процедура для подсчета соответствующей F-статистики состоит в простом сравнении сумм квадратичных отклонений от «короткой» и «длинной» регрессий, которые мы видели ранее. Пример 5.4. Производственная функция Данные в таблице из приложения F5.3 использовались в нескольких 4 исследованиях производственных функций . Регрессия логарифма выпуска (добавленной стоимости) на константу и логарифма труда и капитала, оцениваемая методом наименьших квадратов, дает оценки производственной функции Кобба–Дугласа, представленные в табл. 5.3. Мы протестируем несколько гипотез на основе этих результатов. Обобще5 модели Кобба–Дугласа — это транслогарифмическая модель , которая записывается как 2 2 1 1 ln Y = β + β ln L + β ln K + β ln L + β ln K + β ln L ln K + ε. 1 2 3 4 5 6 2 2 Как станет ясно позднее, в главе 10, эта модель отличается от модели Кобба–Дугласа тем, что в нее не вводится предпосылка о единичной эластичности замещения. Модель Кобба–Дугласа получается из нее при наложении ограничения Результаты оценки двух β = β = β = 0. 4 5 6 регрессий представлены в табл. 5.3. F-статистика для проверки гипотезы о том, что модель имеет форму Кобба–Дугласа, равна − (0, 85163 0, 67993)/3 F [3, 21] = = 1, 768. 0, 67993/21 4 База данных состоит из наблюдений по штатам в металлургическом производстве и производстве готовых металлических изделий (SIC 33). Изначально данные были собраны Хильдебрандом и Лью (Hildebrand, Liu (1957)) и затем использованы рядом авторов, в частности Эйгнером, Ловеллом и Шмидтом (Aigner, Lovell, Schmidt (1977)). 28-е наблюдение, использованное в исходном исследовании, неполно; мы использовали только оставшиеся 27. 5 Берндт и Кристенсен (Berndt, Christensen (1973)). См. обсуждение в примере 2.4 и подразделе 10.5.2. 5.5. Тестирование ограничений... 147 Таблица 5.3. Оценка производственной функции Транслогарифмическая Кобба–Дугласа Сумма квадратов остатков 0,67993 0,85163 Стандартная ошибка регрессии 0,17994 0,18837 R-квадрат 0,95486 0,94346 Скорректированный R-квадрат 0,94411 0,93875 Число наблюдений 27 27 ПереКоэффициент Стан- t-отно- Коэффи- Стан- t-отноменная шение циент дартная шение ошибка ошибка Константа 0,944196 2,911 0,324 1,171 0,3268 3,582 3,61364 1,548 2,334 0,6030 0,1260 4,787 ln L ln K –1,89311 1,016 –1,863 0,3757 0,0853 4,402 1 2 ln L –0,96405 0,7074 –1,363 2 1 2 0,08529 0,2926 0,291 ln K 2 0,31239 0,4389 0,712 ln L ln K Ковариационная матрица для 1 2 1 2 Константа ln L ln K ln L ln K ln L ln K 2 2 Константа 8,472 (0,1068) ln L –2,388 2,397 (–0,01984) (0,01586) –0,3313 –1,231 1,033 ln K (0,001189) (–0,009) (0,00728) 1 2 ln L –0,08760 –0,6658 0,5231 0,5004 2 1 2 –0,2332 0,03477 0,02637 0,1467 0,08562 ln K 2 0,3635 0,1831 –0,2255 –0,2880 –0,1160 0,1927 ln L ln K Критическое значение из таблицы для F-распределения равно 3,07, так что нет оснований отвергать гипотезу о том, что производственная функция может быть оценена в виде функции Кобба–Дугласа. Гипотеза о постоянной отдаче от масштаба часто тестируется в исследованиях, касающихся оценки вида производственной функции. Эта гипотеза эквивалентна ограничению, состоящему в том, что сумма двух коэффициентов производственной функции Кобба-Дугласа равна единице. Для описанных выше данных получаем 2 − (0, 6030 + 0, 3757 1) F [1, 24] = = 0, 1157, − 0, 01586 + 0, 00728 2(0, 00961) что существенно меньше, чем 95%-е критическое значение, составляющее 4,26. Оснований отвергнуть гипотезу нет; данные согласуются с гипотезой о постоянной отдаче от масштаба. Эквивалентными ограничениями для транслогарифмической модели были бы и β + β = 1 β + β + 2β = 0. 2 3 4 5 6 F-статистика с 2 и 21 степенями свободы равна 1,8991, что меньше, чем критическое значение 3,47. Снова гипотеза не отвергается. В большинстве случаев, встречающихся на практике, можно включить соответствующие гипотезе ограничения непосредственно в регрессию и 148 Глава 5. Тестирование гипотез и выбор спецификации 6 оценить модель с ограничениями . Например, ограничение в β = 1 2 модели Кобба–Дугласа можно записать так: ln Y = β + 1, 0 ln L + β ln K + ε 1 3 или так: − ln Y ln L = β + β ln K + ε. 1 3 Таким образом, модель с ограничениями оценивается с помощью регрессии − на константу и Отдельного внимания требует ln Y ln L ln K. использование этой регрессии для получения F-статистики. Если Fстатистика получается с использованием сумм квадратов остатков [см. (529)], то проблем не возникнет. Однако если используется выражение (530), то может потребоваться учесть наличие в регрессии с ограничениями другой зависимой переменной. В предыдущей регрессии зависимой переменной в регрессии без ограничений была ln Y , тогда как в регрессии 2 с ограничениями ln Y − ln L. R из регрессии с ограничениями составляет всего 0,26979, что дает F-статистику, равную 285,96, тогда как верное 2 значение составляет 9,935. Если же мы оценим , используя правильный R ∗ знаменатель, его значение составит 0,92006, что даст верное значение Fстатистики. что коэффициент при ln K в транслогарифмической модели отрицателен. Можно заключить, что оценка эластичности выпуска по капиталу имеет неверный знак. Однако такой вывод будет неверен; в транслогарифмической модели эластичность выпуска по капиталу составляет ∂ ln Y = β + β ln K + β ln L. 3 5 6 ∂ ln K Если мы подставим оценки коэффициентов и средние значения для ln K и (не логарифмы средних), равные 7,44592 и 5,7637 соответственно, то ln L результат составит 0,5425, что примерно соответствует нашим ожиданиям и не сильно отличается от значения 0,3757, полученного для модели Кобба–Дугласа. Оценка стандартной ошибки для этой линейной комбинации МНК-оценок получается как квадратный корень из Est. Var[b + b ln K + b ln L] = w (Est. Var[b])w, 3 5 6 где w = (0, 0, 1, 0, ln K, ln L) и b представляет полный вектор коэффициентов размерности Это значение равно 0,1122, что достаточно близко 6×1. к предыдущей оценке, равной 0,0853. 5.5.3. Тестирование значимости регрессии Нередко интерес представляет вопрос о том, значимо ли регрессионное уравнение в целом. Тогда это совместный тест для проверки гипотезы о том, все что коэффициенты, за исключением константы, равны нулю. Если все 6 Это не так, когда ограничения нелинейны. Мы рассмотрим этот случай в главе 7. 5.5. Тестирование ограничений... 149 2 коэффициенты наклона равны нулю, то коэффициент детерминации R так- же равен нулю, поэтому мы можем построить тест для проверки этой гипо2 на основе R . Центральный результат, необходимый для проведения 2 R теста, приведен в (5-30). Это специальный случай, в котором = 0, так что ∗ F-статистика, которая обычно приводится вместе с результатами множественной регрессии, представима в виде 2 R /(K − 1) − − F [K 1, n K] = . − 2 − (1 R )/(n K) Если гипотеза о том, что 0 (часть , не включающая константу), верна и β = β 2 ошибки распределены нормально, то эта статистика имеет F-распределение с − и − степенями свободы. Большие значения F выступают в пользу K 1 n K F отвержения гипотезы. Следует отметить, что большое значение вызвано 2 большим значением R . Логика теста состоит в том, что F-статистика — это 2 мера потери качества описания данных (а именно всего R ), что происходит, когда мы накладываем ограничение, состоящее в равенстве нулю всех F наклонов. Если велика, гипотеза отвергается. Пример 5.5. F-тест для уравнений доходов F-статистика для тестирования гипотезы о том, что четыре коэффициента наклона в уравнении доходов из примера 5.2 равны нулю, равна − 0, 040995/(5 1) F [4, 423] = = 4, 521, − − (1 0, 040995)/(428 5) что сильно превышает 95%-е критическое значение, составляющее 2,39. Отсюда следует вывод, что данные не согласуются с гипотезой о том, что все коэффициенты наклона в уравнении доходов равны нулю. Возможно, этого результата следовало ожидать, учитывая большие значения t-статистик, представленные ранее. Но так происходит не всегда. Можно привести пример того, как коэффициенты оказываются статистически значимыми по одному, но незначимыми в совокупности. Этот случай может рассматриваться как патологический и обратный более распространенному примеру, в котором ни один из коэффициентов незначим, тогда 2 как R имеет высокую значимость. Проблема состоит в том, что взаимное влияние между переменными может скрыть их индивидуальный вклад в качество регрессии, тогда как их совместный вклад может оказаться значимым. 2 5.5.4. Вывод ограничений и замечание об использовании R Как правило, ограничения, накладываемые линейной гипотезой, можно выразить при помощи алгебраического выражения. Для этого нужно разбить матрицу R на две части, одну с J столбцами и другую с K − J столбцами, так что первый набор линейно независим. (Существует много способов это осуществить; в данный момент подойдет любой.) Затем, используя вектор β, разбитый и упорядоченный соответствующим образом, можно запи- 156 Глава 5. Тестирование гипотез и выбор спецификации ранее, будет ˆ − c( β) q (5-33) z = , оценка стандартной ошибки или ее квадрат, которые ранее были распределены как − и − t[n K] F [1, n K] соответственно. Вычисление отклонения в числителе не представляет сложˆ Получение оценки выборочной дисперсии c(t β)−q, однако, включает ˆ дисперсию нелинейной функции β. Результаты, требуемые для этой оценки, представлены в подразделах ˆ 4.4.4, B.10.3 и D.3.1. Линейное приближение рядом Тейлора около исc( β) тинного вектора параметров имеет вид β ∂c(β) ˆ ˆ ≈ − (5-34) c( β) c(β) + ( β β). ∂β Тут приходится опираться на состоятельность, а не на несмещенность, по- скольку в общем случае ожидаемое значение нелинейной функции не равно ˆ ˆ функции от ожидаемого значения. Если plim то использование в β = β, c( β) качестве оценки обоснованно. (Требуемый здесь результат — это теоc(β) Слуцкого.) Предполагая, что использование этого приближения здесь уместно, дисперсия нелинейной функции приблизительно равна дисперсии правой части, которая в таком случае равна ∂c(β) ∂c(β) ˆ ˆ ≈ (5-35) Var[c( β)] Var[ β] . ∂β ∂β Производные в выражении для дисперсии являются функциями неизвесных параметров. Поскольку они оцениваются, для оценки производных используются выборочные аналоги. В качестве оценки дисперсии оценки −1 2 можно использовать . Наконец, основываемся на теореме D.22 из s (X X) tподраздела D.3.1 и берем стандартное нормальное распределение вместо ˆ распределения для тестовой статистики. Используя для оценки g( β) g(β) = можно проверить гипотезу тем же способом, что и ранее. = ∂c(β)/∂β, Пример 5.6. Долгосрочная предельная склонность к потреблению Функция потребления, имеющая различные — краткосрочную и долгосрочную — предельные склонности к потреблению, может быть записана в виде ln C = α + β ln Y + γ ln C + ε , t t t−1 t что является примером модели с распределенными лагами. В этой модели краткосрочная предельная склонность к потреблению (MPC) (эластичность, поскольку переменные в логарифмах) равна β, а долгосрочная MPC равна − Рассмотрим тестирование гипотезы о том, что δ = β/(1 γ). δ = 1. Квартальные данные об агрегированных потреблении и располагаемом доходе в США за период с 1950 по 2000 г. представлены в таблице из 5.7. Тестирование нелинейных ограничений 157 приложения F5.2. Оценки уравнения для этих данных представлены ниже: ln C = 0, 003142 + 0, 07495 ln Y + 0, 9246 ln C + e , t t t−1 t (0, 01055) (0, 02873) (0, 02859) 2 R = 0, 999712, s = 0, 00874. Оценки стандартных ошибок приведены в скобках. Также требуется Est. Asy. Cov[b, c] = −0, 0008207. Оценка долгосрочной MPC тогда равна − − Для получения оценки d = b/(1 c) = 0, 07495/(1 0, 9246) = 0, 99403. дисперсии d потребуется ∂d 1 ∂d b g = = = 13, 2626, g = = = 13, 1834. b c − − 2 ∂b 1 c ∂c (1 c) Оценка асимптотической дисперсии d равна 2 2 Est. Asy. Var[d] = g Est. Asy. Var[b] + g Est. Asy. Var[c]+ b c 2 2 + 2g g Est. Asy. Cov[b, c] = 13, 2626 × 0, 02873 + b c 2 2 × + 13, 1834 0, 02859 + 2(13, 2626)(13, 1834)(−0, 0008207) = 0, 0002585. Ее квадратный корень равен 0,016078. Для тестирования гипотезы о том, что долгосрочная MPC больше или равна 1, следует использовать − 0, 99403 1 z = = −0, 37131. 0, 016078 Поскольку используется асимптотическое приближение, обратимся к таблице для стандартного нормального распределения, а не для t. Гипотеза не отвергается. γ = 1 Можно было отметить, что эта гипотеза могла быть протестирована − с помощью линейного ограничения; если δ = 1, то β = 1 γ, или β + γ = 1. Оценка q = b + c − 1 = −0, 00045. Оценка 2 2 стандартной ошибки этой линейной функции равна − [0, 02873 + 0, 02859 1/2 −2(0, t-статистика для этого теста равна −0, 0008207)] = 0, 00118. 38135, что примерно совпадает с предыдущим значением. Поскольку выборка в данном случае достаточно велика, этого следует ожидать. Однако в расчетах нет ничего, что обеспечивало бы этот результат. В меньшей выборке ответ мог получиться другим. Например, используя последние 11 лет наблюдений, t-статистики для двух гипотез равны 7,652 и 5,681. Тест Вальда неинвариантен относительно формулировки гипотезы. В пограничном случае можно было получить иной вывод. Такое отсутствие инвариантности не характеризует тесты отношения правдоподобия или множителей Лагранжа, обсуждаемые в главе 14. С другой стороны, оба этих теста требуют предположения о нормальности, тогда как статистика Вальда его не требует. Все это является примером своего рода баланса между более детальной спецификацией и мощностью соответствующей процедуры тестирования. 158 Глава 5. Тестирование гипотез и выбор спецификации Обобщение в случае наличия более одной функции параметров получаˆ аналогично. Пусть — это набор J функций вектора оценки. Обоc( β) ˆ значим матрицу производных размерностью × как c( β) J K ˆ ∂c( β) ˆ (5-36) G = . ˆ ∂ β Оценка асимптотической ковариационной матрицы этих функций тогда имеет вид ˆ ˆ ˆ (5-37) Est. Asy. Var[ˆ c ] = G Est. Asy. Var[t β] G . ˆ ˆ j-я строка представляет собой K производных по K элементам НаприG ковариационная матрица для оценок краткосрочной и долгосрочной предельной склонности к потреблению может быть получена с использованием = . 2 − − 0 1/(1 γ) β/(1 γ) Статистика для тестирования J гипотез равна c(β) = q −1 − − (5-38) W = (ˆ c q) Est. Asy. Var[ˆ c ] (ˆ c q). В больших выборках W имеет распределение хи-квадрат с числом степеней свободы, равным числу ограничений. Следует отметить, что для одного ограничения это значение равно квадрату статистики (5-33). 5.8. Выбор между невложенными моделями Классические процедуры тестирования, приведенные выше, являются 7 наиболее мощными для рассмотренных типов гипотез . Несмотря на то что использование этих процедур, безусловно, желательно, требование спецификации гипотезы в виде y = Xβ + ε, H : Rβ = q 0 против H : Rβ = q, 1 может вносить некоторые ограничения. Два популярных исключения: общая проблема определения того, какой из двух наборов регрессоров подходит лучше для описания данных, а также выбор между линейной и логлинейной моделями. В настоящий момент интерес представляет сравнение двух конкурирующих линейных моделей: (5-39) H : y = Xβ + ε 0 0 и (5-40) H : y = Zγ + ε . 1 1 7 Stuart, Ord (1989, ch. 27). 5.8. Выбор между невложенными моделями 159 Классические процедуры, рассматривавшиеся до сих пор, не предлагают методов выбора более предпочтительной модели. Общей проблеме тестирования невложенных гипотез такого типа уделяется значительное внимание в теоретической литературе, она встречается в большом числе эмпирических 8 приложений . 5.8.1. Тестирование невложенных гипотез Полезное различие между процедурами тестирования гипотез, обсуждавшимися в предыдущих разделах, и выбором модели, рассматриваемым здесь, заключается в асимметрии между нулевой и альтернативной гипо9 являющейся частью классической процедуры тестирования . По- скольку по построению классические процедуры рассматривают выборку на предмет наличия аргументов в пользу отвержения «нулевой» гипотезы, конкретная формулировка этой гипотезы может быть принципиальна для результата. К счастью, методология Неймана–Пирсона дает рекомендацию; нулевой гипотезе обычно соответствует самая узкая модель в рассматриваемом наборе. С другой стороны, классические процедуры никогда не приводят к точным выводам. Пока уровень значимости процедуры тестирования не настолько высок, чтобы исключить все альтернативы, всегда останется вероятность ошибки I рода. В результате нулевая гипотеза никогда не отвергается с убежденностью, а лишь с заданной степенью уверенности. Тесты для выбора спецификации, напротив, рассматривают конкурирующие гипотезы как равные. Естественной нулевой гипотезы в этом случае нет. Однако процесс заканчивается четким решением — при тестировании в виде (5-39a, b) одна из моделей будет отвергнута, а другая принята; затем анализ продолжится в рамках исключительно выбранной модели независимо от отвергнутой. Действительно, он и не может быть продолжен, пока одна из моделей не отвергнута. Частой практикой, например, в такой постановке для исследователя является тестирование с одной из моделей в качестве нулевой, а затем с другой. К сожалению, учитывая способ построения тестов, может сложиться ситуация, при которой ни одна из моделей не будет отвергнута; в любом случае необходимо проводить дальнейший анализ. Как будет показано, наука в этом вопросе несколько неточна. Первые работы, посвященные тестированию невложенных гипотез, в частности работа Кокса (Cox (1961, 1962)), были написаны в рамках процедур, использующих выборочные правдоподобия и принцип максимального правдоподобия. Последние исследования были выстроены вокруг общей основы, получившей название принцип охвата [Mizon, Richard (1986)]. В сущности, принцип концентрирует внимание на вопросе о том, может ли выбранная модель объяснить особенности конкурирующих моделей, т.е. может ли эта модель охватить альтернативу. Третий подход основан на формулировке полной модели, которая включает обе конкурирующие модели 8 Обзоры работ по данной тематике представлены в работах Уайта (White (1982a, 1983)), Гурьера и Монфора (Gourieroux, Monfort (1994)), Макалера (McAleer (1995)), Песарана и Уикса (Pesaran, Weeks (2001)). В обзоре Макалера описано много приложений, тогда как Гурьер и Монфор сосредоточены на теоретических аспектах вопроса. 9 См. работу Грейнджера и Песарана (Granger, Pesaran (2000)) для обсуждения. 160 Глава 5. Тестирование гипотез и выбор спецификации в качестве частных случаев. Когда это возможно, тест между моделями основывается, в сущности, на процедурах тестирования, похожих на классические. Далее будут рассмотрены тесты, использующие все три подхода. 5.8.2. Принцип охвата Всеобъемлющим называется подход, при котором тестируется способность одной модели объяснить особенности другой. Модель 0 «охватывает» модель 1, если особенности модели 1 могут быть объяснены моделью 0, но 10 обратное неверно . Поскольку не может быть записана в качестве ограH на , ни одна из рассмотренных до сих пор процедур не может H 1 быть использована. Одной из возможностей является искусственное вложение двух моделей. Пусть X представляет набор переменных в X, не входящих в Z. Определим аналогично по отношению к X, и пусть W будут Z переменными, которые входят в обе модели. Тогда и могут быть объH H 0 1 единены в «супермодель»: y = X β + Z γ + Wδ + ε. В принципе H отвергается, если обнаруживается, что γ = 0, при помо1 обыкновенного F -теста, тогда как H отвергается, если обнаруживается 0 что С этим подходом связаны две проблемы. Во-первых, остается β = 0. δ смесью из частей и и не указывает на равенство нулю какой-либо из β γ F этих частей. Таким образом, этот тест на самом деле не позволяет различить между собой H и H ; он различает между собой H и гибридную модель. 0 1 1 Во-вторых, эта объединенная модель может иметь очень большое число регрессоров. В контексте временных рядов может возникнуть проблема мультиколлинеарности. альтернативный подход. Если H верна, то y будет полно0 объясняться X, за исключением случайного члена Предположим, что ε. затем следует попытка оценить при помощи регрессии y на Z. Какой бы γ вектор параметров не получился в результате оценки этой регрессии, назовем его c, если H верна, мы должны оценить в точности тот же вектор 0 коэффициентов в результате регрессии на Z, поскольку является слуXβ шумом при выполнении . Поскольку должен быть оценен вектор H 0 предположим, что вместо этого мы используем Xb и оцениваем . Тестиβ, предположения о том, что модель 0 «охватывает» модель 1, будет представлять тест для проверки гипотезы о том, что Несложно E [c−c ] = 0. 0 показать [см. книгу Дэвидсона и Маккиннона (Davidson, MacKinnon (2004, с. 671–672))], что тест может быть проведен с использованием стандартного F -теста для тестирования гипотезы γ = 0 в дополненной регрессии: 1 y = Xβ + Z γ + ε , 1 1 1 где Z — это переменные в Z, которые не входят в X. (Можно показать, что 1 и совпадают, а значит, совпадают и тесты.) Z Z 1 10 См.: Дитон (Deaton (1982)), Дастур (Dastoor (1983)), Гурьер и др. (Gourieroux et al. (1983, 1995)) и особенно Мизон и Ричард (Mizon, Richard (1986)). 5.8. Выбор между невложенными моделями 161 5.8.3. Полная модель — J-тест Подход, основанный на полной модели, связан с функцией плотности как характеристики процесса порождения данных. Пусть f (y | данные, β ) 0 i 0 будет предполагаемой функцией плотности для модели 0. Определим альтернативу соответственно как | данные, Тогда функция плотности f (y β ). 1 i 1 для полной модели, включающей обе модели, имеет вид 1−λ λ | данные, | данные, [f (y β )] [f (y β )] 0 i 0 1 i 1 | f (y данные, β , β ) = , c i 0 1 | 1−λ | λ [f (y данные, β )] [f (y данные, β )] dy 0 i 0 1 i 1 i где интеграл берется по области определения функции плотности. Оценка полной модели с последующим тестом или 1 используется для оценки λ = 0 11 обоснованности модели 0 или 1 соответственно . -тест, предложенный Дэвидсоном и Маккинноном (Davidson, MacKinJ (1981)), является приложением этого принципа к линейной регрессионной модели, что может быть показано [см. Pesaran и Weeks (2001)] . Предложенная ими альтернатива предыдущей полной модели имеет вид − y = (1 λ)Xβ + λ(Zγ) + ε. В этой модели тестирование ограничения будет тестом против альтерλ = 0 нативы . Проблема состоит в том, что не может быть оценена отдельно в H λ 1 этой модели; это означало бы излишнее масштабирование регрессионных коэффициентов. J-тест Дэвидсона и Маккиннона заключается в оценке γ при помощи оценки регрессии y на Z с последующей оценкой регрессии y на X и являющиеся значениями, предсказанными первой регрессией. Zˆ γ , Обоснованный, по крайней мере асимптотически, тест состоит в тестиH H : λ = 0. Если H истинна, то plim λ = 0. Асимптотически отноше0 ˆ ние (т.е. обычная распределено согласно стандартному λ/se( λ) t-статистика) нормальному закону распределения, и при тестировании могут использоваться значения из стандартной таблицы. К сожалению, при тестировании H против H и наоборот возможны все четыре варианта (отвергнуть обе 0 1 или какую-либо одну из гипотез, не отвергнуть ни одну). Эта проблема, однако, связана с конечностью выборки. Дэвидсон и Маккиннон показали, что ˆ при → ∞, если верна, вероятность того, что будет значимо отличаться n H λ 1 от 0, стремится к 1. J-тест функции потребления Пример 5.7. Гэвер и Гейзель (Gaver, Geisel (1974)) рассматривали две модели функции потребления: H : C = β + β Y + β Y + ε 0 t 1 2 t 3 t−1 0t и H : C = γ + γ Y + γ C + ε . 1 t 1 2 t 3 t−1 1t 11 Сильва (Silva (2001)) демонстрирует приложение к выбору между логит- и пробитмоделями для случая моделей бинарного выбора. 162 Глава 5. Тестирование гипотез и выбор спецификации Первая модель предполагает, что потребление реагирует на изменение в доходах в течение двух периодов, тогда как вторая — что изменение в доходах влияет на потребление на протяжении многих периодов. Квартальные данные по агрегированному реальному потреблению в США и реальному располагаемому доходу приведены в таблице из приложения F5.2. Здесь будет показано применение J-теста к этим данным и двум предложенным спецификациям. Во-первых, две модели оцениваются отдельно (используя наблюдения со II квартала 1950 г. по IV квартал 2000 г.). Регрессия на константу, , лаг и предсказанные второй C Y Y моделью значения дают оценку λ, равную 1,0145, с t-статистикой 62,861. Таким образом, должна быть отвергнута в пользу . Но, меняя и H H H 0 1 0 местами, получается оценка равная −10, с −7, H λ, 677, t-статистикой 188. 1 12 Таким образом, также отвергается . H 1 5.9. Тестирование спецификации модели Рассмотренные до сих пор тесты оценивали вложенные модели. Предполагалось, что одна из двух моделей верна. В разделе 5.8 мы расширили класс рассматриваемых моделей на случай двух невложенных моделей. При этом не предполагается, что любая из них обязательно является истинным процессом порождения данных; мы лишь пытаемся выяснить при помощи теста, какая из двух моделей находится ближе к истине. Тесты на спецификацию находятся между этими двумя подходами. Идея теста на спецификацию модели состоит в рассмотрении конкретной нулевой модели и альтернатив, которые не задаются явным образом в качестве ограничений на регрессионное уравнение. Полезным способом рассмотрения некоторых тестов на спецификацию является подход, при котором центральная модель y = Xβ + ε отождествляется с нулевой гипотезой, а альтернатива представляет собой, возможно, незаявленное обобщение этой модели. Тест Рамсея (Ramsey (1969)) RESET-тест рассматривает нелинейности в функциональной форме и является одним из примеров таких тестов. Один (являющийся неоднозначным) подход к анализу выглядит следующим образом: • y Xβ H : = + ε, 0 • y Xβ более высокие степени и другие переменные H : = + x +ε. 1 k Естественным подходом было бы включение в модель квадратов, кубов и перекрестных произведений регрессоров с последующим тестированием до H как ограничения на большую модель. Сложности состоят в том, что, во0 этот подход может слишком конкретно задавать форму альтернативной гипотезы и что, во-вторых, при большом числе регрессоров X он может быстро разрастись. Решение, предложенное Рамсеем, заключается во включении степеней x в регрессию, используя предсказания метода наиβ квадратов, обычно следует добавить квадраты и, возможно, кубы регрессоров. Для этого нужна двухшаговая процедура, поскольку, чтобы 12 Обсуждение такой возможности см. в работе Макалера, Фишера и Фолкера (McAleer, Fisher, Volker (1982)). 5.9. Тестирование спецификации модели 163 2 3 добавить b) и (x b) , требуются коэффициенты. Предложение состоит в (x i i том, чтобы сначала оценить модель, используя метод наименьших квадратов, а затем, на втором шаге, квадраты (и кубы) предсказанных на первом шаге значений добавить в уравнение и переоценить его. Затем (асимптотический) тест Вальда используется для тестирования гипотез, соответствующих исходной модели. В качестве общей стратегии такого рода спецификация предназначена для определения нарушений предпосылок нулевой модели. Очевидным преимуществом такого теста является то, что он допускает существенно большую степень общности, чем простая процедура тестирования ограничений, например равенства коэффициента нулю. Но такая общность дается существенной ценой: 1. Тест неконструктивен. Он не указывает, что должен делать исследователь, если модель, лежащая в основе нулевой гипотезы, отвергается. Это общая особенность тестов на спецификацию модели. Отвержение нулевой модели не указывает ни на какую конкретную альтернативу. 2. Поскольку альтернативная гипотеза не указывается, неясно, какова мощность теста против какой-либо конкретной альтернативы. 3. Для этого конкретного теста (возможно, не для некоторых других тестов на спецификацию модели, которые мы рассмотрим позднее), поскольку x b использует один b для всех наблюдений, наблюдения являются корреi тогда как в исходной модели предполагается, что они некоррелированы. Ввиду двухшаговой природы оценки неясно, какую ковариационную матрицу следует использовать для теста Вальда. Две другие сложности возникают в связи с этим тестом. Во-первых, неясно, куда сходятся коэффициенты, предполагая, что они сходятся куда бы то ни было. Во- вторых, дисперсия разности между x b и x β — это функция x, так что реi на втором шаге может оказаться гетероскедастичной. Это приводит к тому, что размер и мощность теста могут оказаться совершенно не теми, чего следовало ожидать. Размер RESET-теста Пример 5.8. Для изучения истинного размера RESET-теста в конкретном приложении при помощи метода Монте-Карло был проведен эксперимент. Результаты, представленные в табл. 4.6, приводят следующие оценки уравнения (5-2): −8, − ln Price = 42653 + 1, 33372 ln Area 0, 16537Aspect Ratio + e, где sd(e) = 1, 10266. Мы рассматриваем правую часть регрессии как нашу генеральную совокупность. Далее генерируем 5000 выборок по 430 наблюдениям (размер исходной выборки), используя один набор регрессионных коэффициентов и генерируя новую выборку ошибок для каждой реализации. Таким образом, для каждой реализации есть новая выборка наблюдений ln Price , r ir для которой регрессионная часть используется много раз, а ошибки генерируются заново. Для каждой выборки оценивается коэффициент и предсказанное значение. Затем регрессия переоценивается с включением 164 Глава 5. Тестирование гипотез и выбор спецификации в нее квадрата и куба предсказанного значения. Наконец, для каждой выборки оценивается статистика хи-квадрат и модель, лежащая в основе нулевой гипотезы, отвергается при значении этой статистики, превышающем 5,99, 95-й процентиль распределения хи-квадрат с двумя степенями свободы. Номинальный размер этого теста составляет 0,05. Таким образом, в выборках, состоящих из 100, 500, 1000 и 5000 наблюдений, модель, лежащая в основе нулевой гипотезы, должна отвергаться 5, 25, 50 и 250 раз. В рассматриваемом эксперименте значение хи-квадрат-статистики превысило 5,99 для 8, 31, 65 и 259 случаев соответственно, что указывает на то, что, по крайней мере, при достаточном числе повторений тест ведет себя, как и ожидается. Затем исследовалась мощность теста путем подключения к предсказаниям ln Area, умноженного на 0,1. Невозможно определить точную мощность RESET-теста в выявлении этого нарушения нулевой модели. В эксперименте с 1000 повторений нулевая гипотеза была отвергнута 321 раз. Следует заключить, что процедура обладает мощностью в отношении выявления этого нарушения предположений модели. 5.10. Построение модели — подход от общего к частному В последние 20 лет произошел сдвиг в подходе к построению моделей отчасти ввиду результатов, представленных в предыдущих двух разделах. Стараясь сохранить простоту спецификации, исследователи обычно начинают с маленькой спецификации, планомерно расширяя ее до интересующей, включая дополнительные переменные. Но на основе предыдущих результатов можно предположить, что любой критерий, который может быть использован для принятия решения о включении переменной в текущую спецификацию, будет испорчен смещениями, вызванными неполной спецификацией на начальных этапах. Пропуск важных переменных в общем случае оказывается худшей из двух возможных ошибок. Таким образом, подход от частного к общему имеет не много доводов в свою пользу. Основываясь на работе Хендри [например, Hendry (1995)] и последних достижениях в компьютерных технологиях, исследователи находятся в более комфортной ситуации, начиная поиск правильной спецификации с больших моделей, включающих много переменных и, возможно, сложные лаговые структуры. Привлекательная стратегия заключается в применении подхода от общего к частному, т.е. при сокращении модели до предпочтительной спецификации. [Этот процесс был полностью автоматизирован в компьютерной (c) программе Hendry PCGets . См., например, Хендри и Котцис (Hendry, Kotzis (2001)).] Конечно, такой подход должен учитывать два связанных между собой соображения. В регрессии «все в кучу», включающей все переменные, которые могут оказаться нужными, принятие фиксированной вероятности ошибки I рода, например 5%, гарантирует для достаточно большой модели, что некоторые переменные покажутся значимыми, скорее всего, «случайно». Во-вторых, проблемы, связанные с предварительным оцениванием и пошаговым построением модели, также связаны с риском итоговой 5.10. Построение модели — подход от общего к частному 165 неправильной спецификации модели. В качестве одного, к сожалению, часто встречающегося примера можно привести ситуацию, когда используемые таким образом статистики приводят к необъясняемым лаговым структурам в динамических моделях с большим количеством лагов зависимой или независимой переменной. 5.10.1. Критерии выбора модели В ходе предшествующего обсуждения было указано на ряд подходов к выбору модели, основанных на тестировании невложенных гипотез. Показатели качества модели и процедуры тестирования, основанные на сумме 2 квадратов ошибок, такие как и тест Кокса (Cox (1961)), полезны, когда R интерес представляет описание данных или прогнозирование зависимой переменной внутри выборки. Когда же построение модели нацелено на прогнозирование, внутривыборочные показатели необязательно оптимальны. 2 Как было показано, не может падать после включения переменных в R модель, так что для него характерна тенденция к «слишком хорошему» описанию выборки. Этот критерий может помешать выбрать наилучшую прогнозирующую модель, поскольку включение переменных в модель может увеличить дисперсию прогнозной ошибки (см. раздел 4.6), несмотря на улучшенное качество описания данных. Учитывая это соображение, нормиро2 или скорректированный , R n − 1 n − 1 e e 2 2 − − − (5-41) R = 1 (1 R ) = 1 , n − − − 2 n K n K (y y) i i=1 был предложен как мера качества, которая корректно штрафует потерю степеней свободы, вызванную включением дополнительных переменных в мо2 Следует отметить, что может упасть при включении переменной в R модель, если сумма квадратов остатков падает недостаточно быстро. (Ре2 приводится в теореме 3.7; не растет при включении переменной R в модель, если для параметра при этой переменной не преt-статистика единицы по абсолютному значению.) Предпочтительность норми2 R для оценки качества прогноза была продемонстрирована в 2 литературе. [См. Diebold (2003), где демонстрируется, что простой имеR отрицательное смещение как мера дисперсии ошибки прогноза на шаг вперед за пределы выборки.] 2 Нормированный R штрафует потерю степеней свободы, которая происходит при расширении модели. Однако возникает вопрос о том, достаточно ли велик штраф для того, чтобы убедиться в истинности модели, к которой приведет исследователя этот показатель (предполагая, что истинная модель находится среди рассматриваемых моделей) с ростом выборки. Было предложено два альтернативных показателя качества модели: информационный критерий Акаике: 2 2 2K/n − (5-42) AIC(K) = s (1 R )e y и информационный критерий Шварца, или байесовский: 2 2 K/n BIC(K) = s (1 − R )n . (5-43) y 5.10. Построение модели — подход от общего к частному 167 1) параметрический подход; 2) предположение об истинном процессе, порождающем данные; 3) оценка, основанная на качестве подгонки модели; 4) игнорирование неопределенности относительно модели. Все эти аспекты рассматривались в предыдущих разделах. Точка зрения Хансена состоит в том, что приведенный анализ слишком узок и мешает развитию процедур поиска моделей. Все представленные здесь процедуры выбора модели основаны на функции правдоподобия, которая требует конкретных предположений о распределении. Хансен, напротив, предлагает обратить внимание на полупараметрические структуры. В случае регрессионного анализа это приводит к рассмотрению оценок обобщенным методом моментов. Жертвами такого поворота будут тестовые статистики, основанные на распределении, такие как статистики Кокса и Вонга, и даже показатели AIC и BIC, которые являются преобразованиями функции правдоподобия. Однако здесь были предложены альтернативы [см., например, Hong, Preston, Shum (2000)]. Второе направление критики уже было озвучено. Предполагаемая «истинная» модель может быть слишком узкой. Вместо этого (утверждает Хансен) следует рассматривать спецификацию как приближение истинного процесса, порождающего данные, это в существенной степени расширяет поиск спецификации, направляя его в сторону модели, которая дает наилучшее приближение. Конечно, здесь следует поднять вопрос о том, что есть «лучшее». До этого момента мы рассматривали функцию правдоподобия, которая в случае классической регрессии может рассматриваться как возрастающая функция 2 . Автор выступает за более «сфокусированный» информационный критеR (FIC), который напрямую рассматривает интересующие нас параметры, а не качество описания данных моделью. Каждое из этих предложений направлено на улучшение процесса выбора модели на основе знакомых критериев, таких как тестовые статистики, основанные на показателях качества и характеристиках модели. Возможно, центральной проблемой является неопределенность относительно самой модели. Поиск истинной модели, вероятно, оказывает влияние на статистические выводы, сопоставимое с поиском спецификации, при условии заданной формы модели (см. подразделы 4.3.2 и 4.3.3). К сожалению, включение такого рода неопределенности в статистические процедуры остается нерешенной задачей. Хансен предлагает в качестве возможного направления методы байесовского усреднения моделей, обсуждаемые ниже, хотя и высказывает некоторый скептицизм относительно байесовских методов в целом. 5.10.4. Байесовское усреднение моделей При наличии сомнений относительно уместности одной из двух моделей существует возможность сделать вывод о том, что «истинной» не является ни одна из них. Подход к тестированию, основанный на принципе «вправо или влево», загоняет исследователя в тупик. Байесовский подход к этому вопросу означает рассмотрение проблемы сравнения двух гипотез, а не обоснованности одной по отношению к другой. Выборочный эксперимент 168 Глава 5. Тестирование гипотез и выбор спецификации начинается с набора априорных вероятностей об относительных преимуществах двух гипотез, который обобщается в «априорном отношении вероятностей» сбора данных строится байесовский P = Prob[H ]/Prob[H ]. 01 0 1 множитель, который обобщает вес аргументов в выборке в пользу той или иной модели. В результате анализа данных получается «постериорное отношение вероятностей» | × . В конечном счете, ex P data = Bayes f actor P 01 01 post, ни одна модель не отбрасывается; просто наше представление об относительном правдоподобии моделей пересматривается с учетом данных. Конечно, такой подход оставляет открытым вопрос спецификации. Выбирая между моделями, как наилучшим образом использовать имеющуюся в наличии информацию? В недавних работах, посвященных байесовскому усреднению моделей [Hoeting et al. (1999)], был предложен ответ. Приложение Райта (Wright (2003)) представляет интересную иллюстрацию. Новые методы, такие как байесовская векторная авторегрессия (BVAR), улучшили прогнозную силу эконометрических моделей. Сток и Уотсон (Stock, Watson (2001, 2004)) показывают, что существенное улучшение в качестве прогноза международной инфляции может быть получено путем усреднения большого числа прогнозов различных моделей и источников. Этот примечательный результат устойчив по отношению к странам и периодам. На его основе было озвучено две идеи. Во-первых, идея смешения различных моделей в существенной степени отражает дух четвертого аргумента Хансена. Во-вторых, следует отметить, что суть улучшения состоит не в качестве описания данных (аргумент 3), а в предсказательной силе модели. Сток и Уотсон отметили, что простое усреднение с равными весами по непонятным пока причинам приносит существенное улучшение. Райт предложил байесовское усреднение моделей в качестве более систематического подхода при выборе весов для получения еще лучшей предсказательной силы. Лимер (Leamer (1978)), по всей видимости, первым предложил байесовское усреднение моделей в качестве способа комбинирования моделей. Позднее эта идея была рассмотрена Мином и Зельнером (Min, Zellner (1993)) в контексте прогнозирования роста выпуска, Доппельхофером и др. (Doppelhofer et al. (2000)) для межстрановых регрессий, Купом и Поттером (Koop, Potter (2004)) для макроэкономических предсказаний, а также рядом других исследователей. Предположим, что рассматривается моделей, индексиM при помощи индекса . Для простоты запишем m = 1, . . . , M m-ю модель в простой форме, f (y | Z, θ ), где f (.) — это функция плотности, m m y и Z — это данные и — это вектор параметров модели Предположим θ m. m ∗ также, что модель истинна, но неизвестна исследователю. Исследователь m имеет априорные представления относительно вероятности, что модель π m ∗ m верна, так что π — это априорная вероятность того, что m = m . Постеm вероятности для моделей равны | P (y, Z m)π m ∗ Π = Prob(m = m | y, Z) = , (5-46) m M | P (y, Z r)π r r=1 где P (y, Z | m) — это безусловное правдоподобие для m-й модели, | | (5-47) P (y, Z m) = P (y, Z θ , m)P (θ )dθ , m m m θ m 5.11. Заключение и выводы 169 где | — это условное (относительно ) правдоподобие моP (y, Z θ , m) θ m-й m m дели и — это априорное представление исследователя относительP (θ ) m но параметров модели. Все это дает набор весов, альтернативный = m-й Π m ˆ = 1/M , предложенному Стоком и Уотсоном. Пусть θ обозначает байесовm оценку (постериорное среднее) параметров модели (См. главу 16.) m. Каждая модель предоставляет апостериорную прогнозную плотность ˆ ∗ | Байесовская усредненная по моделям прогнозная плотность f (y Z, θ , m). m в таком случае будет равна M ∗ ˆ ∗ | (5-48) f = f (y Z, θ , m)Π . m m m=1 Точечный прогноз тогда будет равен взвешенному подобным образом значению прогнозов отдельных моделей. Байесовское усреднение классических оценок Пример 5.9. Многие исследователи относятся скептически к байесовским методам из-за явной произвольности спецификации априорных функций плотности неизвестных параметров. В контексте байесовского усреднения моделей от исследователя требуются априорные плотности не толь- ко для вероятностей моделей но и для параметров отдельных π , m моделей . В своем исследовании Доппельхофер, Миллер и Сала-иθ (Doppelhofer, Miller, Sala-i-Martin (2000)) исследовали правильность набора регрессоров для включения в уравнение долгосрочного макроэкономического роста (дохода). При рассмотрении 32 возможных 32 кандидатов для их приложения составляло 2 (минус один, если M исключить модель без регрессоров), или примерно 4 млрд. Формулировка такого числа априорных представлений была бы крайне оптимистична. Авторы предложили новый способ взвешивания большого подмножества M (приблизительно 21 млн) из 2 возможных (классических) регрессий. Веса формировались с использованием байесовской процедуры, однако взвешивались оценки, получаемые классическим методом наименьших квадратов. И хотя этот способ существенным образом сокращает затраты на оценивание моделей, он все же требует оценивания миллионов МНКрегрессий. [См. Sala-i-Martin (1997).] В результате была получена модель с 12 независимыми переменными. 5.11. Заключение и выводы В данной главе был рассмотрен третий аспект приложения линейной реF- — тестирование гипотез. Главным результатом здесь является статистика, которая может быть получена одним из двух способов. Во-первых, как мера степени отличия оценки модели без ограничений от оценки модели, лежащей в основе нулевой гипотезы. Во-вторых, как мера потери качества подгонки модели, происходящей в результате предположения, что 170 Глава 5. Тестирование гипотез и выбор спецификации нулевая гипотеза верна. Затем мы обобщили F-статистику на случай больших выборок и рассмотрели ее асимптотические свойства, что позволило нам избавиться от предположения о нормальности остатков и обобщить ее на случай нелинейных ограничений. Эта глава является последней из пяти глав, посвященных методологии, связанной с наиболее широко применяемым инструментом в эконометрике — классической регрессионной моделью. Глава 2 началась с формулировки регрессионной модели. Затем в главе 3 был описан процесс получения оценок параметров при помощи метода наименьших квадратов — исключительно алгебраическое упражнение. В главе 4 оценка методом наименьших квадратов была переформулирована в терминах оценки неизвестного вектора параметров, а также были представлены выборочные свойства этой оценки в больших и малых выборках. Глава 5 была посвящена построению и уточнению регрессионной модели с помощью статистических результатов для тестирования гипотез относительно свойств генеральной совокупности. В этой главе были рассмотрены более общие вопросы, связанные со спецификацией модели и выбором модели из набора конкурирующих альтернатив. Рассмотренные здесь концепции тесно связаны с одной из основ эконометрической парадигмы; в основе модели лежит некоторая теоретическая конструкция, набор истинных поведенческих соотношений, которые составляют модель. Только в этом смысле понятия смещения и смещенных оценок имеют какой-то смысл — «смещение» как понятие может быть описано только в отношении некоторой «модели», по сравнению с которой оценка может быть смещенной, т.е. требуется отправная точка. Это понятие представляет собой центральный момент при анализе спецификации, в ходе которого были рассмотрены последствия недостаточно хорошего (исключение переменных) и слишком хорошего (включение избыточных переменных) описания данных моделью. Глава (и наше обсуждение линейной регрессионной модели) завершилась рассмотрением процедур, используемых для выбора между конкурирующими спецификациями модели. Основные термины и понятия Acceptance region — Область принятия Encompassing principle — Принцип охвата Adjusted R-squared — Нормированный R-квадрат Exclusion restrictions — Исключающие ограничения Akaike Information Criterion — Информационный критерий Акаике Ex post forecast — Ex post-прогноз Alternative hypothesis — Альтернатив- Functionally independent — Функционая гипотеза нально независимый Bayesian model averaging — Байесов- General nonlinear hypothesis — Общая ское усреднение моделей нелинейная гипотеза Bayesian Information Criterion — Байе- General-to-simple strategy — Стратегия совский информационный критерий от общего к частному Biased estimator — Смещенная оценка Inclusion of superfluous variables — Comprehensive model — Полная модель Включение избыточных переменных Consistent — Состоятельный J test — J-тест Distributed lag — Распределенный лаг Lack of invariance — Отсутствие инвариDiscrepancy vector — Вектор отклонений антности 5.11. Заключение и выводы 171 Lagrange multiplier test — Тест множи- Rejection region — Область отвержения телей Лагранжа Restricted least squares — Метод наиLinear restrictions — Линейные ограни- меньших квадратов с ограничениями чения Root mean squared error — Корень квадMean squared error — Среднеквадратичратный из среднеквадратичной ошибки ная ошибка Sample discrepancy — Выборочное отModel selection — Выбор модели клонение Nested — Вложенный Schwarz criterion — Критерий Шварца Nested models — Вложенные модели Simple-to-general — От простого к сложNominal size — Номинальный размер ному Nonnested — Невложенный Size of the test — Размер теста Nonnested models — Невложенные моSpecification test — Тест на спецификадели модели Nonnormality — Ненормальность Null hypothesis — Нулевая гипотеза Stepwise model building — Пошаговое One-sided test — Односторонний тест построение модели Parameter space — Пространство параt ratio — t-статистика метров Testable implications — Тестируемые Power of a test — Мощность теста утверждения Prediction criterion — Критерий предTheil U statistic —U -статистика Тейла сказания Wald criterion — Критерий Вальда Prediction interval — Предсказываемый Wald distance — Расстояние Вальда интервал — Статистика Вальда Wald statistic Prediction variance — Дисперсия предсказания test — Тест Вальда Упражнения 1. Оценка множественной регрессии y на константу и дает следующие x x 1 2 2 результаты: y ˆ = 4 + 0, 4x + 0, 9x , R = 8/60, e e = 520, n = 29, 1 2   29 0 0 X X = 0 50 10 .   0 10 80 Протестируйте гипотезу о том, что сумма коэффициентов наклона равна 1. 2. Используя результаты из упражнения 1, протестируйте гипотезу о том, что коэффициент наклона при равен 0, оценив регрессию с ограничеx и сравнив две суммы квадратов отклонений. 3. Анализируемая регрессионная модель имеет вид y = X β + X β + ε, 1 1 2 2 где матрицы X и X имеют K и K столбцов соответственно. Наклады1 ограничение β = 0. 2 a. Используя (5-23), докажите, что оценка с ограничениями имеет вид [b , 0], где b представляет собой вектор МНК-оценки в регрессии 1∗ 1∗ y на . X 1 0 b. Докажите, что если наложить ограничение для ненулевого β = β 2 2 −1 0 вектора , то оценка с ограничениями равна β β b = (X X ) X (y− 1 1∗ 1 2 1 1 0 −X β ). 2 2 172 Глава 5. Тестирование гипотез и выбор спецификации 4. Выражение для вектора коэффициентов в модели с ограничениями (5-23) может быть записано в виде − где w не включает b = [I CR]b + w, ∗ b. Чему равно C? Покажите, что ковариационная матрица МНК-оценки с ограничениями равна −1 −1 −1 −1 −1 2 2 − σ (X X) σ (X X) R [R(X X) R ] R(X X) и что эта матрица может быть записана как −1 −1 | | − | | Var[b X] [Var(b X)] R [Var(Rb) X] R Var[b X]. 5. Докажите, что МНК-оценка с ограничениями не может иметь б oльшую ´ ковариационную матрицу, чем МНК-оценка без ограничений. 2 6. Докажите, что R , связанный с МНК-оценкой с ограничениями, нико2 не превышает , связанного с оценкой без ограничений. Сделайте R вывод о том, что наложение ограничений никогда не улучшает качество регрессии. 7. Альтернативный способ протестировать гипотезу Rβ − q = 0 заключается в использовании теста Вальда для проверки гипотезы о том, что где определена в (5-23). Докажите что λ = 0, λ ∗ ∗ e e −1 ∗ 2 ∗ χ = λ Est. Var[λ ] λ = (n − K) − 1 . ∗ ∗ ∗ e e Заметьте, что дробь в квадратных скобках представляет отношение двух 2 оценок . Благодаря (5-28) и обсуждению выше мы знаем, что это отσ больше 1. Наконец, докажите что эта тестовая статистика экJF, J вивалентна статистике где равно числу тестируемых ограничений и F — это обычная F-статистика, приведенная в (5-16). Формально тест множителей Лагранжа требует, чтобы оценка дисперсии была основана на МНК с ограничениями. В таком случае тестовая статистика примет − вид LM = nJ/[(n K)/F + J]. (См. Godfrey (1988)). 8. Используйте тестовую статистику, выведенную в упражнении 7, для тестирования гипотезы из упражнения 1. 9. Докажите, что в условиях нулевой гипотезы о том, что оценка Rβ = q, (y − Xb ) (y − Xb ) ∗ ∗ 2 s = , ∗ − n K + J 2 J где — число ограничений, является несмещенной оценкой σ . 10. Покажите, что оценка множественной регрессии y на константу и x x 1 2 при наличии ограничений эквивалентна оценке регрессии β + β = 1 1 2 − на константу − . y x x x 1 2 1 11. Предположим, что истинная регрессионная модель приведена в (4-8). Результат в (4-10) показывает, что если или или не равны нулю, то P β 1.2 2 регрессия y только на дает смещенную и несостоятельную оценку . X β 1 1 Предположим, интерес представляет прогнозирование y, а не оценка параметров. Рассмотрим регрессию только на X для оценки β с помощью 1 1 (которая является смещенной). Будет ли прогноз y, полученный с исb , также смещен? Предположим, что | — лиX b E[X X ] 1 1 2 1 нейная функция . Обсудите ваши результаты в общем случае. Как скаX на прогнозировании исключение переменных из регрессии? 5.11. Заключение и выводы 173 12. Сравните среднеквадратичные ошибки и из подраздела 4.7.2. b b 1 1.2 (Подсказка: сравнение зависит от данных и параметров модели, но для двух величин может быть получено компактное выражение.) 13. Функция логарифмического правдоподобия для линейной регрессионной модели с нормально распределенными ошибками представлена в примере 4.6. Покажите, что в оценках максимального правдоподобия b 2 для β и e e/n для σ логарифм правдоподобия является возрастающей 2 функцией R для модели. 14. Покажите, что модель, соответствующая альтернативной гипотезе из примера 5.7, может быть записана как ∞ ∞ H : C = θ + θ Y + θ Y + θ Y + ε + λ ε . 1 t 1 2 t 3 t−1 s+2 t−s it s t−s s=2 s=1 В таком случае выглядит как ограничение на . Однако, поскольку H H 0 1 ограничений бесконечное множество, это не сводит тест к стандартному тестированию ограничений, но тем не менее указывает на связь между двумя формулировками. Эмпирические приложения 1. В приложении к главе 3 мы использовали 15 из 17 919 наблюдений из исследования взаимосвязи между заработной платой и образованием, способностями и характеристиками семьи, проведенного Купом и Тобиасом (Koop, Tobias (2004)). (См. таблицу из приложения F3.2.) В этом упражнении мы будем использовать полный набор данных. Они могут быть получены в архиве данных Journal of Applied Econometrics на http:// www.econ.queensu.ca/jae/12004-vl9.7/koop-tobias/. Файл с данными состоит из двух частей. Первая часть файла содержит панель из 17 919 наблюдений для следующих переменных: Столбец 1 Person id (от 1 до 2,178) — номер индивида Столбец 2 Education — образование Log of hourly wage Столбец 3 — логарифм почасовой заработной платы Столбец 4 Potential experience — опыт Столбец 5 Time trend — временной тренд Столбцы 2–5 содержат переменные, меняющиеся во времени. Вторая часть данных содержит постоянные во времени переменные для 2178 домохозяйств: Столбец 1 Ability — способности Столбец 2 Mother’s education — образование матери Father’s education Столбец 3 — образование отца Столбец 4 Dummy variable for residence in a broken home — фиктивная переменная, равная 1, если человек живет в плохом доме Number of siblings Столбец 5 — число братьев или сестер. 176 Глава 5. Тестирование гипотез и выбор спецификации равносильны нелинейным ограничениям: γ δ nc d или − = γ δ γ δ = 0. nc s pt d γ δ pt s Опишите подробно, как бы вы тестировали обоснованность такого ограничения. c. Используя данные о рынке бензина из табл. F2.2, протестируйте два ограничения, предложенные здесь, отдельно и совместно. 4. в примере 5.7 проводится с использованием данных за более чем J-тест 50 лет. Будет оптимистично надеяться, что структура экономики не поменялась за 50 лет. Остается ли верным результат теста из примера 5.7, если провести его на данных только с 1980 по 2000 г.? Повторите вычисления на этом подмножестве данных. ГЛАВА 6 Функциональная форма и структурный сдвиг 6.1. Введение Этой главой мы завершим анализ модели линейной регрессии. Мы начнем с анализа различных видов функциональной формы регрессионной молинейными Многие типы функций являются в смысле определения из подраздела 2.3.1. При помощи различных преобразований зависимой и независимых переменных, бинарных переменных и различных комбинаций функций от переменных можно получить обширный класс моделей, которые все могут быть оценены с помощью линейного метода наименьших квадратов. В разделе 6.2 рассматривается использование бинарных переменных для учета нелинейности в модели. В разделе 6.3 мы расширим класс рассматриваемых моделей до моделей, линейных по параметрам. Используя логарифмы, квадратичные и перекрестные члены (произведения величин), можно рассмотреть большое число функциональных форм в рамках модели регрессии. В разделе 6.4 о структурном сдвиге (structural change) рассматривается вопрос спецификации модели и тестирования наличия дискретного изменения в процессе порождения данных. В контексте временных рядов это относится к внезапным изменениям экономики, таким как важные события на финансовых рынках (например, мировой финансовый кризис 2007–2009 гг.) или изменениям на рынках ресурсов, таким как нефтяные шоки. В случае межобъектных данных регрессионная модель может быть модифицирована для учета дискретных различий между группами, таких как, например, различия в структуре предпочтений или в поведении мужчин и женщин на рынке труда. 6.2. Использование бинарных переменных Одним из самых полезных приемов в регрессионном анализе является использование бинарных переменных, или дамми-переменных (дамми) (фиктивная переменная, binary variable, dummy variable, dummy). Даммипеременная принимает значение один для некоторых наблюдений, указывая на наличие влияния или членства в группе, и значение ноль для остальных наблюдений. Бинарные переменные предоставляют удобную возможность учета дискретных сдвигов в регрессионной модели. 6.2. Использование бинарных переменных 179 − exp(β + β x + β )E[exp(ε)] exp(β + β x)E[exp(ε)] 1 2 3 1 2 = 100% = exp(β + β x)E[exp(ε)] 1 2 − = 100%[exp(β ) 1]. 3 Пример 6.2. Ценность подписи В примере 4.10 мы рассматривали взаимосвязь между логарифмом цены продажи и площадью поверхности для 430 продаж полотен Моне. Результаты оценки регрессий для этого примера включены в табл. 6.2. Эти результаты указывают на наличие сильной зависимости между площадью и ценой: значение коэффициента, равное 1,33372, указывает на высокоэластичную взаимосвязь, а равная 14,70, утверt-статистика, что эта взаимосвязь статистически значима. Однако в модель не включена переменная (эффект) наличия подписи художника, влияющая на цену продажи. Из 430 сделок, рассмотренных в выборке, 77 представляли собой неподписанные картины. Результаты правой части табл. 6.2 включают фиктивную переменную наличия подписи. Результаты показывают крайне сильное влияние этой переменной. Из результатов оценки регрессии следует, что E[Price|Area, Aspect, Signature) = 2 − = exp[−9, 64 + 1, 35 ln Area 0, 08AspectRatio + 1, 28Signature + 0, 993 /2]. Таблица 6.2. Оцененное уравнение для логарифма цены ln price = β + β ln Area + β aspect ratio + β signature + ε 1 2 3 4 Значение Price 0,33274 ln Число наблюдений 430 Сумма квадратов остатков 519,17235 420,16787 0,99313 Стандартная ошибка 1,10266 0,33620 0,46279 R-квадрат Скорректированный 0,33309 0,45900 R-квадрат Переменная КоэффиСтан- Станt дартная ошибка ент ошибка Константа −8,42653 0,61183 −13,77 −9,64028 0,56422 −17,09 ln Аrea 0,33372 0,09072 14,70 0,34935 0,08172 16,51 Aspect ratio −0,16537 0,12753 −1,30 −0,07857 0,11519 −0,68 Signature 0,00000 0,00000 0,00 1,25541 0,12530 10,02 (См. раздел 4.6.) Сравнивая этот результат для картины такой же площади и такого же соотношения между сторонами, мы получаем, что согласно модели эффект от наличия подписи (signature) составляет × − 100% (∆E[Price]/Price) = 100%[exp(1, 26) 1] = 252%. 180 Глава 6. Функциональная форма и структурный сдвиг Наличие подписи увеличивает цену по сравнению с похожей картиной более чем вдвое. Оценка стандартной ошибки для этого коэффициента составляет 0,1253. С помощью дельта-метода мы можем получить оцененную стандартную ошибку − которая равна квадратному корню [exp(b ) 1], 3 2 2 × из [exp(b )] 0, 1253 , т.е. 0,4417. Для процентной разницы в 252% мы 3 получаем оценку стандартной ошибки, равную 44,17%. На первый взгляд влияние размера картины, о котором мы говорили ранее, может быть объяснено наличием подписи. Если художник был склонен подписывать в основном более крупные картины, это объясняло бы противоречащее интуиции влияние размера. (Это являлось бы примером своего рода эффекта мультиколлинеарности.) Для регрессии, включающей и непрерывную переменную, и дамми, мы можем с легкостью подтвердить или опровергнуть это предложение. Средний размер для 77 сделок с неподписанными картинами составил 1 228,69 квадратного дюйма. Средний размер полотен для других 353 сделок был равен 878,016 квадратного дюйма. Действительно, обнаруживается существенная систематическая разница между размером подписанных и неподписанных картин, однако она обратна той, которую мы предполагали. Таким образом, мы обнаружили значимое влияние размера и подписи на аукционные цены картин Моне. Aspect Ratio, однако, представляется не оказывающим существенного влияния. Для этой выборки характерна еще одна особенность, заслуживающая нашего внимания. В этих 430 сделках было продано лишь 387 различных картин. Некоторые сделки включали повторную продажу уже продававшейся картины. Предположение, что наблюдения являются независимыми реализациями случайной величины, нарушено, по крайней мере, для некоторых наблюдений. Такой вид «кластеризации» будет рассмотрен в главе 11 в ходе обсуждения панельных данных. Исследователи часто включают фиктивную переменную в регрессию для того, чтобы учесть эффект, относящийся к единственному наблюдению. Например, при анализе временного ряда иногда включается фиктивная переменная, равная единице, только для единственного нетипичного года, например года крупной забастовки или года существенного изменения в государственной политике. (См. пример анализа функции спроса на деньги в Германии в подразделе 21.3.5.) Легко показать (мы рассмотрим это в качестве упражнения) крайне полезное следствие этого использования даммипеременной. фиктивной переменной, принимающей значение один толь- ко для одного наблюдения, равносильно удалению этого наблюдения из выборки с точки зрения оценки коэффициентов методом наименьших квадратов и оценки дисперсии (но не с точки зрения R-квадрата). 6.2.2. Случай нескольких фиктивных переменных Когда в данных присутствует несколько групп объектов, требуется включение целого набора бинарных переменных. Типичным примером такой ситуации является поправка на сезонные факторы при анализе макроэко- 6.2. Использование бинарных переменных 181 номических данных. Мы можем записать функцию потребления для квартальных данных как C = β + β x + δ D + δ D + δ D + ε , t 1 2 t 1 t1 2 t2 3 t3 t где x — это располагаемый доход. Отметим, что только три из четырех фикt переменных включаются в модель. Если бы была включена четвертая дамми, то сумма всех четырех фиктивных переменных была бы равна единице для каждого наблюдения, в точности повторяя константу, и мы бы имели случай совершенной мультиколлинеарности. Эта ситуация известна как ловушка фиктивных переменных (dummy variable trap). Чтобы ее избежать, мы исключаем дамми-переменную для четвертого квартала. (В зависимости от ситуации может оказаться удобнее включить четыре отдель1 фиктивные переменные и исключить общую константу .) Любой из четырех кварталов (или 12 месяцев) может быть использован в качестве базового. рассуждение представляет собой подход к десезонализации данных (или сезонной корректировке данных). Рассмотрим альтернативную формулировку: = βx + δ D + δ D + δ D + δ D + ε . t t 1 t1 2 t2 3 t3 4 t4 t Используя результаты раздела 3.3 для частичной регрессии, мы можем сказать, что оценки этой множественной регрессии эквивалентны оценкам, получаемым в ходе следующей процедуры. Сначала мы оцениваем регрессии C x и на четыре фиктивные переменные, а затем используем остатки этих регрессий для последующей оценки регрессии очищенного от сезонности показателя потребления на очищенный от сезонности показатель дохода. Очевидно, что очистка от сезонности таким способом перед оценкой регрессии потребления на доход приводит к той же оценке коэффициента при доходе (и тому же вектору остатков), что и включение набора фиктивных переменных в регрессию. Пример 6.3. Влияние жанра фильма на кассовые сборы кинофильмов В примере 4.12 из табл. 4.8 представлены результаты оценки регрессии логарифма кассовых сборов для 62 фильмов, вышедших в прокат в 2009 г., на несколько переменных, в числе которых и набор дамми-переменных для определения жанра фильма: Action, Comedy, Animated или Horror. Оставшаяся категория включает «любой из оставшихся 9 жанров» в стандартном наборе из 13 жанров, который используется в подобных моделях. Четыре получившиеся оценки коэффициентов составили −0, −0, 869, 016, −0, соответственно. Все это позволяет говорить о том, что, 833, +0, 375 за исключением фильмов ужасов (horror), фильмы этих жанров обычно собирают в прокате существенно меньше денег, чем фильмы других видов. Отметим, что интерпретация коэффициента b непосредственно как оценки процентного изменения для категории, как мы поступили 1 Suits (1984) и Greene, Seaks (1991). 182 Глава 6. Функциональная форма и структурный сдвиг в примере 6.1, когда интерпретировали коэффициент −0, при Kids 35 как указывающий на 35%-е изменение в доходе, — это аппроксимация, хорошо работающая в тех случаях, когда коэффициент b близок к нулю, но ухудшающаяся по мере удаления от нуля. Таким образом, значение −0, приведенное выше, не означает 87%-й разницы в сборах между 869, Action фильмами жанра и другими. Используя формулу из примера 6.2, мы получаем разницу примерно в − или 58%. [exp(−0, 869) 1], 6.2.3. Случай нескольких групп Случай, при котором требуется несколько наборов фиктивных переменных, во многом напоминает уже рассмотренные. Однако есть одно важное исключение. Рассмотрим модель расходов штата на душу населения на образование y как функцию дохода штата на душу населения x. Предположим, что у нас есть наблюдения для всех штатов за лет. Регресn = 50 T = 10 сионная модель, которая позволяет ожидаемым расходам меняться как со временем, так и между штатами, будет выглядеть как y = α + βx + δ + θ + ε . (6-2) it it i t it Как и прежде, необходимо исключить одну фиктивную переменную из каждого набора для избежания ловушки фиктивных переменных. В нашем примере, если включить 50 переменных для штатов и 10 переменных для периодов, все равно останется проблема «точной мультиколлинеарности»: сумма 50 переменных для штатов и 10 для периодов одинакова и равна 1. Одна из переменных в каждом наборе (или общая константа и одна из переменных в одном из наборов) должна быть исключена. Анализ ковариации Пример 6.4. Данные из таблицы приложения F6.1 были использованы при исследовании эффективности в предоставлении услуг авиаперелетов в работе Грина (Greene (2007a)). Отрасль авиалиний является одним из любимых объектов для анализа [см., например, работы Schmidt, Sickles (1984), Sickles, Good, Johnson (1986)] отчасти ввиду интереса к этому быстро менявшемуся в период дерегулирования рынку, отчасти ввиду доступности больших качественных массивов данных, собранных (уже не существующим) Комитетом гражданской авиации (Civil Aeronautics Board). Исходные данные состояли из 25 фирм, наблюдавшихся ежегодно на протяжении 15 лет (с 1970 по 1984) и составлявших, таким образом, «сбалансированную панель». Одни из этих фирм на протяжении этого периода подверглись слиянию, а в других проходили забастовки, это существенно сокращало число полных наблюдений. Исключение этих и других наблюдений с недостающими данными оставляет 10 полных наблюдений, из которых для нижеследующего примера мы выбрали шесть. Мы оценим уравнение издержек вида 6.2. Использование бинарных переменных 183 2 ln C = β + β ln Q + β ln Q + β ln P + β Loadfactor + i,t 1 2 i,t 3 i,t 4 fuel i,t 5 i,t 14 5 + θ D + δ F + ε . t t i i i,t t=1 i=1 и — это дамми-переменные для годов и фирм соответственно. Мы D F t i исключили последние переменные в каждой группе. Оцениваемая модель для полной спецификации имеет вид 2 − ln C = 13, 56 + 0, 8866 ln Q + 0, 01261 ln Q + 0, 1281 ln P i,t i,t i,t f i,t − временные эффекты 0, 8855 LF + + i,t + индивидуальные эффекты + e . i,t Временные эффекты (фиктивные переменные для лет) обнаруживают явную закономерность, как видно из рис. 6.1. Рассматривался период быстро растущих цен на топливо, так что можно ожидать отражения этого факта в издержках. Поскольку одна из дамми-переменных по годам исключена, эффект проиллюстрирован относительно базового года (1984). 0,1 0,0 0,1 0,2 0,3 (Год) 0,4 B 0,5 0,6 0,7 0,8 0 5 10 15 Год Рис. 6.1. Оценки коэффициентов при дамми-переменных, соответствующих году Интерес представляет вопрос о том, значимы ли статистически индивидуальные эффекты (фиктивные переменные для фирм), временные эффекты, все эффекты или никакие из них. В табл. 6.3 представлены суммы квадратов остатков всех четырех регрессий. F-статистика для гипотезы об отсутствии индивидуальных эффектов составляет 65,94, что значительно превышает критическое значение. Статистика для временных эффектов составляет 2,61, что превышает критическое значение 1,84, но, пожалуй, в меньшей степени, чем можно было бы судить, глядя на 184 Глава 6. Функциональная форма и структурный сдвиг рис. 6.1. При отсутствии дамми-переменных для каждого года временной эффект, должно быть, в существенной степени отражается в эффекте влияния роста цены топлива. Таблица 6.3. F-тесты на влияние фирмы и года Модель Сумма Ограничения F Ст. св. квадратов Полная модель 0,17257 0 Только временные 1,03470 5 65,94 [5, 66] эффекты Только индивидуальные 0,26815 14 2,61 [14, 66] эффекты Нет эффектов 1,27492 19 22,19 [19, 66] 6.2.4. Пороговые эффекты и индикаторные переменные В большинстве приложений фиктивные переменные используются для того, чтобы учесть чисто качественные факторы, такие как членство в группе или учет конкретного временного периода. Однако в некоторых случаях фиктивные переменные представляют собой уровни некоторого фактора, который мог бы быть измерен непосредственно, если бы это было возможно. Например, образование — это как раз тот случай, когда мы обычно наблюдаем прохождение некоторых этапов, а не, скажем, годы образования. Предположим, например, что нас интересует регрессия вида income = β + β age + effect of education + ε. 1 2 Данные об образовании могут состоять из наивысшего достигнутого уровня образования, такого как среднее образование (high school) бакалавр (HS), (undergraduate) (B), магистр (master) (M ) или доктор наук (Ph.D) (P ). Очевидно, неудовлетворительный подход здесь состоит в использовании переменной E, равной 0 для первой группы, 1 для второй, 2 для третьей и 3 для четвертой, т.е. рассмотрении уравнения в виде income = β + β age+ 1 2 +β E +ε. Проблема здесь состоит в том, что этот подход подразумевает один 3 и тот же прирост дохода для каждого пройденного этапа: β есть разница 3 между доходами доктора наук и магистра, равно как магистра и бакалавра. Это маловероятно и излишне ограничивает регрессию. Более гибкая модель использовала бы три (или четыре) бинарные переменные, по одной для каждого уровня образования. Таким образом, можно было бы записать income = β + β age + δ B + δ M + δ P + ε. 1 2 B M P Соотношение между коэффициентами и доходом для заданного возраста имеет вид Среднее образование : E [income | age, HS ] = β + β age, 1 2 | Бакалавр : E [income age, B ] = β + β age + δ , 1 2 B | Магистр : E [income age, M ] = β + β age + δ , 1 2 M 188 Глава 6. Функциональная форма и структурный сдвиг иммиграция происходит в Майами, но не происходит в Лос-Анджелесе и не является результатом действий жителей этих городов. Тогда |M, и |M, для Майами, E[y 79] = β + γ E[y 81] = β + γ + δ i 79 M i 81 M E[y |L, 79] = β + γ и E[y |L, 81] = β + γ для Лос − Анджелеса. i 79 L i 81 L Предполагается, что рост безработицы в обоих городах был бы постоянным при отсутствии иммиграции. Если ни один из городов не испытывал бы иммиграции, изменение в уровне безработицы составило бы |M, − |M, − для Майами, E[y 81] E[y 79] = β β i,0 i,0 81 79 |L, − |L, − для Лос − Анджелеса. E[y 81] E[y 79] = β β i,0 i,0 81 79 Если бы миграция затронула оба города, то E[y |M, 81]− E[y |M, 79] = β − β + δ для Майами, i,1 i,1 81 79 |L, − |L, − для для Лос − Анджелеса. E[y 81] E[y 79] = β β + δ i,1 i,1 81 79 Миграция («воздействие») произошла только в Майами. Разность между разностями, которая определяет результат этого эксперимента, равна {E[ |M, − |M, − {E[ |L, − |L, y 81] E[ y 79]} y 81] E[ y 79]} = δ. i,1 i,1 i,0 i,0 Автор анализировал изменения в уровнях занятости и заработной платы в двух городах на протяжении нескольких лет после строительства «лодочного моста». Эффект был удивительно мал, учитывая масштаб эксперимента в Майами. Одной из важных проблем при анализе политики является измерение эффекта воздействия, при котором фиктивная переменная выступает результатом решения индивида. В примере клинического исследования, о котором говорилось выше, представители контрольной группы (по предположению) не знают о том, что они находятся в контрольной группе. Распределение воздействия экзогенно по отношению к эксперименту. В исследовании Крюгера и Дэйл (Krueger, Dale (2002)), напротив, включение в экспериментальную группу студентов элитного колледжа полностью добровольно и определяется индивидом. Ключевым моментом для анализа в таком случае служит принятие во внимание вполне допустимой ситуации, когда «фиктивная переменная воздействия» отражает скрытую мотивацию и инициативу участников, а не влияние самой программы. В этом и состоит основное преимущество естественных экспериментов: они наиболее точно (возможно, в полной мере) воспроизводят экзогенное распределение воздействия 3 из клинических испытаний . Некоторые подобные случаи будут рассмотрены нами в главах 8 и 19. 6.3. Нелинейность в переменных В настоящий момент будет полезно записать линейную регрессионную модель в очень общей форме. Пусть есть независимых пеz = z , z , . . . , z L 1 2 L ременных, — линейно независимых функций от z, — наf , f , . . . , f K g(y) 1 2 K 3 Обсуждение этого подхода см. в работах Angrist, Krueger (2001) и Angrist, Pischke (2010). 6.3. Нелинейность в переменных 189 блюдаемая функция от Пусть также выполнены все наши обычные предy. относительно шоков. Модель линейной регрессии может быть записана как · · · g(y) = β f (z) + β f (z) + + β f (z) + ε 1 1 2 2 K K (6-4) · · · = β x + β x + + β x + ε = x β + ε. 1 1 2 2 K K Используя логарифмы, экспоненты, обратные величины, трансцендентные функции, многочлены, произведения, дроби и т.д., эта «линейная» модель может быть оценена в большом числе случаев. 6.3.1. Кусочно-линейная регрессия При рассмотрении данных о доходах в большой выборке индивидов различных возрастов ясно прослеживаются некоторые закономерности, касающиеся пороговых возрастов. В частности, доход растет с возрастом на всем рассматриваемом диапазоне, но темп роста может меняться в определенные моменты, такие, например, как 18 лет, когда типичный индивид заканчивает среднюю школу, и 22 года, когда он или она заканчивает университет. Зависимость дохода от возраста (time profile of income) может напоминать график, представленный на рис. 6.2. Основываясь на предшествующем обсуждении, мы можем оценить такую регрессионную модель, просто разделив выборку на три подвыборки. Однако такой подход проигнорирует непрерывность предполагаемой зависимости. Результат будет больше похож на точечный график, чем на непрерывную функцию, которую мы ожидаем увидеть. Регрессия с ограничениями и то, что обычно называется сплайн (spline)-функцией, могут быть использованы для достижения 4 желаемого результата . Рис. 6.2. Сплайн-функция 4 Этому вопросу посвящена работа Пуарье (Poirier (1974)). Часто цитируемый пример приведен в работе Гарбера и Пуарье (Garber, Poirier (1974)). 190 Глава 6. Функциональная форма и структурный сдвиг Функция, которую мы хотим оценить, имеет вид 0 0 | если E [income age] = α + β age, age < 18, 1 1 α + β age, если age ≥ 18 и age < 22, 2 2 если ≥ α + β age, age 22. Граничные значения 18 и 22 называются узлами (knots). Пусть ∗ ∗ d = 1, если age ≥ t , d = 1, если age ≥ t , 1 2 1 2 ∗ ∗ где и Для объединения всех трех уравнений мы используем t = 18 t = 22. 1 2 income = β + β age + γ d + δ d age + γ d + δ d age + ε. 1 2 1 1 1 1 2 2 2 2 Эта зависимость отражена пунктиром на рис. 6.2. Коэффициенты наклона у трех сегментов равны и . Для того чтобы сдеβ , β + δ β + δ + δ 2 2 1 2 1 2 лать функцию кусочно-непрерывной (piecewise continuous), мы потребуем, чтобы сегменты соединялись в узлах, т.е. ∗ ∗ β + β t = (β + γ ) + (β + δ )t 1 2 1 1 2 1 1 1 и ∗ ∗ (β + γ ) + (β + δ )t = (β + γ + γ ) + (β + δ + δ )t . 1 1 2 1 1 1 2 2 1 2 2 2 Это линейные ограничения на коэффициенты. Приводя подобные члены, первое ограничение запишем как ∗ ∗ или −δ γ + δ t = 0 γ = t . 1 1 1 1 1 1 Повторяя ту же операцию для второго ограничения и подставляя их в (6-3), мы получаем ∗ ∗ − − income = β + β age + δ d (age t ) + δ d (age t ) + ε. 1 2 1 1 2 2 1 2 Оценки методом наименьших квадратов при ограничениях могут быть получены при помощи множественной регрессии, используя константу и переменные: = age, 1 − если ≥ и иначе x = age 18, age 18, 0 2 и x = age − 22, если age ≥ 22, и 0 иначе. 3 Мы можем проверить гипотезу о том, что наклон функции постоянен, проверяя совместно ограничения и δ = 0 δ = 0. 1 2 6.3.2. Функциональные формы Часто используемой формой регрессионной модели является логлинейная модель (loglinear model): ln y = ln α + β ln X + ε = β + β x + ε. k k 1 k k k k 196 Глава 6. Функциональная форма и структурный сдвиг Рис. 6.4. Остатки от предсказанной функции издержек Коэффициент при выпуске, который растет и затем превышает 1, соответствует U-образной функции издержек, как и предполагалось ранее. Второй подход состоит в расширении функции издержек и включении в нее квадратичного члена логарифма выпуска. Этот подход соответствует значительно более общей модели и приводит к результатам, указанным в табл. 6.5. Снова t-тест уверенно демонстрирует, что повышение общности модели — это шаг в правильном направлении: t = 0, 051/0, 00054 = 9, 44. 8 Эластичность выпуска в этой квадратичной модели равна . β + 2γ log Q q qq Отдача от масштаба возрастает, когда это значение меньше 1, и постоянна, когда оно равно 1. Используя два значения из таблицы (0,152 и 0,0052 соответственно), можно определить, что эта функция и в самом деле приводит к U-образной кривой средних издержек с минимумом в точке ln Q = (1− −0, 152)/(2 × 0, 051) = 8, 31, или Q = 4079, что находится примерно посередине диапазона выпуска для доступной в исследовании выборки фирм. Это исследование было дополнено в работе Кристенсена и Грина (Christensen, Greene (1976)). Используя те же данные, но более сложную (транслогарифмическую) функциональную форму и оценивая спрос на факторы одновременно с функцией издержек, авторы пришли к выводам, в целом соответствующим результатам работы Нерлова (Nerlove (1963)). Выбранная ими функциональная форма указала на то, что обобщенная модель в работе Нерлова (Nerlove (1963)), приведенная в табл. 6.5, несколько недооценила диапазон выпуска, для которого издержки производства единицы продукции продолжали бы убывать. Авторы также повторили исследование с вы8 Нерлов некорректно измерял экономию от масштаба для этой функции как 1/(β +δ log Q), q 2 где и — это коэффициенты при логарифме Q и log Верное выражение выглядит как β δ Q. q Эта неточность периодически обнаруживалась и в 1/[∂ log C/∂ log Q] = 1/[β + 2δ log Q]. q некоторых более поздних публикациях. 6.3. Нелинейность в переменных 197 боркой из 123 фирм начиная с 1970 г. и пришли к похожим результатам. В этой выборке, однако, многие фирмы расширялись достаточно быстро, чтобы истощить доступную экономию от масштаба. Мы вернемся к рассмотрению данных 1970 г. при исследовании издержек производства в подразделе 10.5.1. Таблица 6.5. Логквадратичная функция издержек (в скобках приведены стандартные ошибки) 2 2 − − log Q log Q log P log P log P log P R L F K F Все фирмы 0,152 0,051 0,481 0,074 0,96 (0,062) (0,0054) (0,161) (0,150) Предшествующий пример иллюстрирует три полезных инструмента для определения неспецифицированной нелинейности и работы с ней: анализ ошибок, использование кусочно-линейной регрессии и многочленов для аппроксимации неизвестной регрессионной функции. 6.3.5. Внутренне линейные модели Логлинейная модель иллюстрирует промежуточный случай нелинейной регрессионной модели. Уравнение, однако, является внутренне линейным β ε (или линейным по сути) (intrinsically linear). Взяв логарифмы от 2 , Y = αX e i i i мы приходим к ln Y = ln α + β ln X + ε i 2 i i или y = β + β x + ε . i 1 2 i i Хотя это уравнение почти во всем линейно, следует отметить, что оно уже нелинейно по Записывая его через , мы получаем полностью линейα. модель. Но интерес может представлять именно другая форма записи. Конечно, в принципе ничего не изменилось, поскольку — это просто β 1 ln α. Если параметр β может быть оценен, то можно предложить очевидную 1 оценку для α, α ˆ = exp(b ). 1 Этот факт приводит нас к полезному свойству внутренне линейных моделей — свойству инвариантности. Используя процедуру нелинейного метода наименьших квадратов, описанную в следующей главе, мы можем оценить и непосредственно, минимизируя функцию суммы квадратов ошиα β 2 бок: n 2 минимизировать по − − (6-8) (α, β ) : S(α, β ) = (ln Y ln α β ln X ) . 2 2 i 2 i i=1 Эта математическая задача представляет некоторую сложность ввиду наличия члена Однако эквивалентная линейная задача минимизации квадln α. ратов — n 2 минимизировать по − − − (6-9) (β , β ) : S(β , β ) = (y β β x ) 1 2 1 2 i 1 2 i i=1 198 Глава 6. Функциональная форма и структурный сдвиг легко решается с помощью обычной оценки методом наименьших квадратов, которую мы использовали до сих пор. Свойство инвариантности, которое мы здесь применяем, состоит в том, что получившиеся в обоих случаях результаты будут численно идентичны: мы получим идентичные результаты, оценивая с помощью (6-8) и используя exp(β из (6-9). Используя этот α ) 1 результат, мы можем обобщить определение линейности и включить некоторые дополнительные случаи, которые иначе были бы достаточно сложны. Определение 6.1. Внутренняя линейность. Если в классической линейной регрессионной модели K параметры β , β , . . . , β могут быть 1 2 K записаны как взаимно однозначных, возможно, нелинейных функций K от интересующих нас параметров то модель является θ , θ , . . . , θ , 1 2 K внутренне линейной по вектору параметров θ. Пример 6.7. Внутренне линейная регрессия В подразделе 14.6.4 мы оценим с помощью метода максимального правдоподобия параметры модели −ρ (β + x) −y/(β+x) ρ−1 | f (y β, x) = y e . Γ(ρ) В этой модели | что предполагает другой подход E [ y x] = (βρ) + ρx, к оценке двух параметров. Эта функция является по сути линейной регрессионной моделью E [y | x] = β + β x, где β = βρ и β = 1 2 1 2 Оценки этих параметров могут быть получены при помощи = ρ. метода наименьших квадратов, а оценка получена как . Так как β b /b 1 2 это выражение является нелинейной функцией оцененных параметров, то для оценки стандартных ошибок нужно использовать дельта-метод. 9 Используя данные из этого примера , получаем, что оценки методом наименьших квадратов и равны −4, (23,734) и 2,4261 (1,5915) β β 1431 1 2 (в скобках указаны стандартные ошибки). Оценка ковариации равна −36, 979. Оценка β равна −4, 1431/2, 4261 = −1, 7077. Мы оцениваем ˆ выборочную дисперсию β как 2 2 ˆ ˆ ∂ β ∂ β ˆ Est. Var[ β] = Var[b ] + Var[b ]+ 1 2 ∂b ∂b 1 2 ˆ ˆ ∂ β ∂ β 2 +2 Cov[b , b ] = 8, 6889 . 1 2 ∂b ∂b 1 2 В табл. 6.6 сравниваются оценки параметров, полученные при помощи методов наименьших квадратов и максимального правдоподобия. Меньшие стандартные ошибки оценок максимального правдоподобия — это результат наличия неэффективных (равных) весов наблюдений, которые использует метод наименьших квадратов. Гамма-распределение обладает 9 Данные приведены в таблице FC.1 приложения. 6.3. Нелинейность в переменных 199 существенной скошенностью. Кроме того, как нам известно из результатов приложения C, это распределение принадлежит к экспоненциальному семейству. Мы выяснили, что для гамма-распределения достаточные статистики для плотности записываются как и . Эффективная Σ y Σ ln y i i i i оценка должна использовать оба этих выражения, тогда как оценка наименьших квадратов использует только первое из них. Таблица 6.6. Оценки регрессии в гамма-модели: сравнение методов наименьших квадратов и максимального правдоподобия β ρ Оценка Стандартная Оценка Стандартная ошибка ошибка Метод наименьших –1,708 8,689 2,426 1,592 квадратов Метод максимального –4,719 2,345 3,151 0,794 правдоподобия В понятии внутренней линейности по сути принципиальным моментом является взаимная однозначность. Если требуемые условия выполняются, то модель может быть оценена через функции β , . . . , β , а после их оценки 1 K из них уже можно вывести оценки интересующих нас параметров. Взаимная однозначность отображения является условием идентификации (identification condition). Если оно выполнено, то говорят, что интересующие нас параметры (θ) регрессии точно идентифицируются (exactly identified) через параметры линейной модели. Прекрасный пример приведен в работах β Кменты (Kmenta (1986, с. 515), Kmenta (1967)). Пример 6.8. Производственная CES-функция Производственная функция с постоянной эластичностью замещения может быть записана как ν −ρ −ρ ln y = ln γ − ln[δK + (1 − δ)L ] + ε. (6-10) ρ Разложение в ряд Тейлора этой функции около точки ρ = 0 имеет вид 1 2 − − − − ln y = ln γ + νδ ln K + ν(1 δ)ln L + ρνδ(1 δ) [ln K ln L] + 2 (6-11) + ε = β x + β x + β x + β x + ε , 1 1 2 2 3 3 4 4 2 1 − где x = 1, x = ln K, x = ln L, x = ln (K/L), а преобразования 1 2 3 4 2 выглядят как − − β = ln γ, β = νδ, β = ν(1 δ), β = ρνδ(1 δ), 1 2 3 4 β γ = e , δ = β /(β + β ), ν = β + β , ρ = β (β + β )/(β β ). 1 2 2 3 2 3 4 2 3 2 3 (6-12) 200 Глава 6. Функциональная форма и структурный сдвиг Оценки параметров и могут быть получены при помощи β , β , β β 1 2 3 4 метода наименьших квадратов. Оценки γ, δ, ν и ρ, получаемые из второй строки (6-12), совпадают с теми, какие мы получили бы с помощью нелинейного метода наименьших квадратов, использованного непосредственно для (6-11). (Однако, как показывает автор, они не совпадают с нелинейной оценкой наименьших квадратов для (6-10) ввиду использования разложения Тейлора для получения (6-11)). Для построения оценки асимптотической ковариационной матрицы θ = воспользуемся дельта-методом. Матрица производных имеет = [γ, δ, ν, ρ] вид β e 0 0 0   1 2 2 −β 0 β /(β + β ) /(β + β ) 0 ∂θ   3 2 3 2 2 3 C = = .   ∂β   0 1 1 0   2 2 −β −β 0 β β β β β β (β + β )/(β β ) 3 4 3 2 4 2 2 3 2 3 2 3 ˆ ˆ ˆ −1 2 Оценка ковариационной матрицы для равна . θ C [s (X X) ] C Не все модели вида · · · (6-13) y = β (θ)x + β (θ)x + + β (θ)x + ε i 1 i1 2 i2 K ik i являются внутренне линейными. Напомним, что для этого требуется условие взаимной однозначности функции (т. е. точная идентификация параметров). Например, модель y = α + βx + γx + βγx + ε i i1 i2 i3 i не является линейной. Причина здесь состоит в том, что ее запись в форме (6-13) не учитывает условия равенства коэффициентов β и β β , что явля4 2 3 ется нелинейным ограничением (nonlinear restriction). В этой модели три параметра и переопределены (overidentified) через четыре параметα, β γ ра и . Оценки методом наименьших квадратов без ограничений β , β , β β 1 2 3 4 коэффициентов β , β и β могут быть использованы для получения двух 2 3 4 оценок каждого из интересующих параметров, и нет никакой гарантии, что они совпадут. Модели, не являющиеся внутренне линейными, обсуждаются в главе 7. 6.4. Моделирование и тестирование структурного сдвига F-теста Одним из распространенных приложений является тестирова10 на наличие структурного сдвига . Специфицируя регрессионную модель, мы предполагаем, что ее предпосылки выполняются для всех наблюдений в выборке. Однако легко представить процедуру тестирования гипотезы о том, что некоторые (или все) коэффициенты регрессии отличаются в 10 Этот тест обычно называется тестом Чоу (Chow test), следуя работе Chow (1960). 6.4. Моделирование и тестирование структурного сдвига 201 разных подвыборках исходных данных. Для примера вернемся к данным о рынке бензина, который мы рассматривали в примерах 2.3, 4.2, 4.4, 4.8 и 4.9. Как демонстрирует рис. 6.5, этот рынок развивался вполне предсказуемо до нефтяного шока 1973 г., а затем был достаточно переменчив. Выделяются большие скачки цен в 1973 и 1980 гг., так же как и больший разброс в потреб11 . Представляется маловероятным, что одна и та же регрессионная модель сможет описывать оба этих периода. Рис. 6.5. Цены на бензин и подушевое потребление, 1953–2004 гг. 6.4.1. Различные векторы параметров Данные о потреблении бензина охватывают два очень разных периода. До 1973 г. топливо имелось в изобилии и мировые цены на бензин были стабильны или снижались по крайней мере на протяжении двух десятилетий. Эмбарго 1973 г. было вызвано новым для этого рынка периодом, связанным с дефицитом, растущими ценами и повторяющейся нестабильностью. Вполне возможно, что соотношение, описываемое нашей регрессионной моделью, изменилось в 1974 г. Для тестирования подобной гипотезы можно действовать следующим образом. Обозначим первые 21 год из имеющихся данных по y и X как и , а оставшиеся — как и . Регрессия y X y X 1 1 2 2 без ограничений, допускающая различные коэффициенты в этих двух периодах, выглядит как y X 0 β ε 1 1 1 1 = + . (6-14) y 0 X β ε 2 2 2 2 11 Схожая картина будет наблюдаться и в 2006 г. 202 Глава 6. Функциональная форма и структурный сдвиг Обозначая матрицы данных как y и X, мы получаем, что оценка методом наименьших квадратов без ограничений имеет вид −1 X X 0 X y b 1 1 1 −1 1 1 b = (X X) X y = = , (6-15) 0 X X X y b 2 2 2 2 2 что соответствует оценке методом наименьших квадратов, полученной отдельно для каждого из двух уравнений. Таким образом, общая сумма квадратов остатков этой регрессии будет равна сумме двух сумм квадратов остатков двух отдельных регрессий: e e = e e + e e . 1 2 1 2 Вектор коэффициентов при ограничениях может быть получен двумя путями. Формально ограничение β = β имеет вид Rβ = q, где R = [I : −I] 1 2 и Соответственно общий результат, обсуждавшийся ранее, может q = 0. быть применен непосредственно. Более легким путем является подстановка этого ограничения в модель напрямую. Если два вектора коэффициентов совпадают, то (6-14) может быть записано как y X ε 1 1 1 = β + y X ε 2 2 2 и оценка с ограничениями может быть получена простым объединением данных и оцениванием общей регрессии. В этом случае сумма квадратов остатков такой регрессии с ограничением, равная e e , становится основой ∗ ∗ для теста. Тестовая статистика выписана в (5-29), где число ограничений J — это число столбцов в матрице , а число степеней свободы в знаменателе X 2 равно − n + n 2k. 1 2 6.4.2. Недостаточное число наблюдений В некоторых случаях ряды данных недостаточно длинны для оценки той или иной отдельной регрессии при тестировании структурного сдвига. Например, можно предположить, что у потребителей ушел год или два на то, чтобы приспособиться к двум нефтяным шокам 1973 и 1979 гг., но рынок принципиально не изменился или же изменение было временным. Мы можем применить тот же тест, что и прежде, но теперь выделим только четыре года (1974, 1975, 1980 и 1981) для отдельного рассмотрения. Поскольку требуется оценить шесть коэффициентов, а наблюдений только четыре, отдельные модели оценить невозможно. В работе Фишера (Fisher (1970)) было показано, что в такой ситуации можно поступить следующим образом. 1. Оценить регрессию, используя все данные, и посчитать сумму квадратов остатков при ограничении . e e ∗ ∗ 2. Оценить, используя более длинный (адекватный) подпериод (из n на1 сумму квадратов остатков без ограничений . Последнее e e 1 1 вычисление производится, считая, что, имея лишь наблюдений, n < K 2 мы можем идеально подогнать модель для и ничего, таким образом, y 2 не прибавим к сумме квадратов остатков. 6.4. Моделирование и тестирование структурного сдвига 203 3. Затем вычисляем -статистику, используя формулу F − (e e e e )/n ∗ ∗ 1 2 1 − F [n , n K] = . (6-16) 2 1 − e e /(n K) 1 1 1 12 Отметим, что у числителя имеется n , а не K степеней свободы . Этот тест 2 был назван тестом Чоу на предсказательную силу (predictive test), по- скольку он эквивалентен расширению ограниченной модели на более короткий подпериод и проведению теста на основе ошибок прогноза модели на этом подпериоде. 6.4.3. Изменение части коэффициентов Предложенная выше общая постановка задачи допускает различные варианты, позволяющие провести много тестов. Некоторые важные частные случаи можно рассмотреть на примере рынка бензина. Одним из возможных подходов к описанию ситуации на рынке может быть следующий. После нефтяного шока 1973 г. американцы просто уменьшили потребление бензина на фиксированную долю, но другие рыночные соотношения, такие как эластичность по доходу, остались на прежнем уровне. Этот случай привел бы к простому сдвигу вниз логлинейной регрессионной модели или, иными словами, лишь к сокращению значения постоянного члена. Таким образом, уравнение без ограничений имеет различные коэффициенты в двух подпериодах, тогда как уравнение с ограничениями представляет собой объединенную регрессию с различными постоянными членами. Матрицы регрессоров в этих двух случаях выглядят i 0 W 0 pre73 ограничений) (без X = U 0 i 0 W post73 и i 0 W pre73 наличии ограничений) (при X = . R 0 i W post73 Первые два столбца матрицы X — это фиктивные переменные, которые U обозначают подпериод, в который попадает наблюдение. Другое возможное объяснение состоит в том, что константа и один или несколько коэффициентов наклона изменились, но другие параметры остались неизменными. Результаты примера 6.9 указывают на то, что постоянный член и эластичности по цене и доходу изменились гораздо сильнее, чем перекрестные ценовые эластичности и временной тренд. Тест Чоу для такого ограничения очень похож на случай изменения только в константе. Пусть Z обозначает переменные, коэффициенты которых, как мы считаем, изменились, а W обозначает переменные, коэффициенты которых, по нашему мнению, остались на прежнем уровне. Тогда матрица регрессоров для регрессии с ограничениями будет выглядеть как i Z 0 0 W pre pre pre X = . (6-17) 0 0 i Z W post post post 12 Один из способов объяснения этого состоит в том, что для получения идеальной подгонки модели требуется лишь n < K коэффициентов. 2 6.4. Моделирование и тестирование структурного сдвига 205 Таблица 6.7. Функции потребления бензина Коэффициенты 1953–2004 Весь период До шока После шока (с разными константами для подпериодов) Income/Pop 1,6250 1,4562 0,8482 0,3739 PG ln –0,05392 –0,1132 –0,03227 –0,1240 ln PNC –0,08343 –0,1044 0,6988 –0,001146 ln PUC –0,08467 –0,08646 –0,2905 –0,02167 Год –0,01393 –0,009232 0,01006 0,004492 2 R 0,9649 0,9683 0,9975 0,9529 Стандартная 0,04709 0,04524 0,01161 0,01689 ошибка Сумма 0,101997 0,092082 квадратов 0,00202244 0,007127899 Было отмечено, что размер теста Вальда (Wald test) может отличаться от используемого нами и что это отклонение будет функцией альтернативной гипотезы. Существует две общие постановки задачи, в которых тест такого типа может представлять интерес. При сравнении двух (возможно) различных генеральных совокупностей (как уравнения предложения труда мужчин и женщин) мы мало что можем сказать по поводу предложенной статистики, поскольку отсутствует конкретная информация об альтернативных гипотезах. Но большая работа над статистикой подобного рода может быть проделана в контексте временных рядов. В этом случае природа альтернативной гипотезы определена более конкретно. Пример 6.9. Структурный сдвиг на рынке бензина На рис. 6.5 приведен график цен и выпуска для американского рынка бензина в период с 1953 по 2004 г. Первые 21 наблюдение находятся внизу на графике и указывают на спокойное функционирование рынка. Оставшиеся наблюдения явно отражают последовавший беспорядок на этом рынке. Мы будем использовать описанные тесты Чоу для изучения этого рынка. Модель, которую мы будем рассматривать, была предложена в примере 2.3, но здесь мы включим временной тренд: ln(G/P op) = β + β ln(Income/Pop) + β ln P G + β ln P N C + t 1 2 t 3 t 4 t + β ln P U C + β t + ε . 5 t 6 t 206 Глава 6. Функциональная форма и структурный сдвиг Три цены в этом уравнении относятся к G, новым автомобилям и подержанным автомобилям. Переменная Income/Pop представляет собой доход на душу населения, а G/Pop — это потребление бензина на душу населения. Временной тренд вычислен как t = Year −1952, поэтому для первого наблюдения регрессий для четырех функциональных форм t = 1. представлены в табл. 6.7. Используя данные по всей выборке с 1953 по 2004 г. и для двух подпериодов, с 1953 по 1973 и с 1974 по 2004 г., мы получаем три F-статистика оцененные регрессии: в первом и в двух последних столбцах. для тестирования ограничения, что коэффициенты в двух уравнениях совпадают, равна − (0, 101997 (0, 00202244 + 0, 007127899))/6 F [6, 40] = = 67, 645. (0, 00202244 + 0, 007127899)/(21 + 31 − 12) Критическое значение из таблицы распределения равно 2,336, поэтому в соответствии с нашими ожиданиями мы отвергаем гипотезу о том, что векторы коэффициентов одинаковы для двух периодов. Используя полный набор из 52 наблюдений для оценивания модели, мы получаем сумму квад- ∗ ∗ ратов ошибок, равную e e = 0, 101997. Когда n = 4, наблюдения для 1974, 2 1975, 1980 и 1981 гг. удаляются из выборки, сумма квадратов падает до e e = F-статистика равна 0,496. Поскольку критическое значение для = 0, 0973936. распределения − равно 2,594, мы не отвергаем гипотезу о стаF [4, 48 6] бильности. На данный момент мы можем прийти к выводу, что, хотя что-то на рынке определенно изменилось, гипотеза временного неравновесия не является адекватным описанием ситуации. Другой способ вычисления этой статистики может оказаться более удобным. Рассмотрим исходные данные со всеми 52 наблюдениями. Теперь добавим в регрессию четыре бинарные переменные: Y1974, Y1975, Y1980 и Y1981. Каждая из них принимает значение один в единственный указанный год и значение ноль во все 51 оставшихся года. Затем мы оцениваем регрессию с исходными шестью переменными и этими четырьмя дополнительными дамми-переменными. Сумма квадратов остатков в этой регрессии равна 0,0973936 (в точности столько же, сколько получилось бы в случае удаления из выборки этих четырех наблюдений — см. упражнение 7 в главе 3), поэтому F-статистика для тестирования совместной гипотезы о том, что эти четыре коэффициента равны нулю, равна − (0, 101997 0, 0973936)/4 F [4, 42] = = 0, 496, − − 0, 0973936/(52 6 4) что совпадает со значением, полученным ранее. (См. подраздел 6.4.2 для обсуждения этого теста.) F-статистика для тестирования ограничения о том, что все коэффициенты, за исключением константы, в этих двух уравнениях совпадают, рассчитывается на основе последних строк трех последних столбцов таблицы: (0, 092082 − (0, 00202244 + 0, 007127899))/5 F [5, 40] = = 72, 506. − (0, 00202244 + 0, 007127899)/(21 + 31 12) Табличное критическое значение равно 2,449, так что эта гипотеза также отвергается. Данные говорят о том, что модели в этих двух периодах различаются существенно, а не простым изменением постоянного члена. 208 Глава 6. Функциональная форма и структурный сдвиг В ходе работы исследователи ВОЗ использовали данные из табл. F6.3 приложения. (Они использовали панель данных с 1993 по 1997 г. Для этого примера мы выбрали данные 1997 г.) Данные ВОЗ были использованы многими исследователями в последующих работах. [См., например, работы Hollingsworth, Wildman (2002), Gravelle and al. (2002) и Greene (2004).] Регрессионная модель, использованная ВОЗ, содержала переменные DALE или COMP в левой части и расходы на здравоохранение, образование и квадрат образования в правой части уравнения. В работе Грина (Greene (2004)) в регрессию был добавлен ряд дополнительных переменных, таких как ВВП на душу населения, мера распределения дохода и показатели государственной эффективности и демократизации политической структуры, предоставляемые Всемирным банком (World Bank). Среди аспектов исследования, вызвавших споры, обсуждался тот факт, что модель рассматривала в совокупности страны с сильно различающимися показателями. Вторым ярким аспектом получившихся результатов, предположенным в работе Хилтса (Hilts (2000)) и подтвержденным в работе Грина (Greene (2004)), был тот факт, что «эффективными» среди рассматриваемых стран оказались 30 относительно здоровых стран, входящих в ОЭСР (Организация экономического сотрудничества и развития, Organization for Economic Cooperation and Development, OECD), тогда как остальной мир в среднем выглядел гораздо хуже. Здесь мы рассмотрим этот аспект подробнее в отношении переменной DALE. Анализ переменной COMP оставляется читателю в качестве упражнения. Таблица 6.8 содержит оценки регрессионных моделей для переменной DALE для всей выборки, стран ОЭСР и остальных соответственно. На первый взгляд между двумя подгруппами не наблюдается очень больших различий. Сначала нами была протестирована совместная значимость дополнительных переменных: распределения дохоF-статистика (GINI), ВВП на душу населения и т.д. Для каждой группы со- ∗ ∗ ставляет [(e e −e e)/7]/[e e/(n−11)]. Эти F-статистики указаны в последней строке таблицы. Критические значения для F[7,180] (вся выборка), F[7, 19] (ОЭСР) и F[7, 150] (не ОЭСР) равны 2,061, 2,543 и 2,071 соответственно. Мы заключаем, что дополнительные переменные вносят важный вклад в модель для стран, не входящих в ОЭСР (и для всех стран), но не для членов ОЭСР. Наконец, для тестирования на структурный сдвиг между членами ОЭСР и остальными странами мы вычислили [7757, 007 − (69, 74428 + 7378, 598)]/11 F [11, 169] = = 0, 637. − − (69, 74428 + 7378, 598)/(191 11 11) 95%-е критическое значение для F[11, 169] равно 1,846. Таким образом, мы не отвергаем гипотезу о том, что регрессионная модель одинакова для двух групп стран. Статистика Вальда, вычисленная по (6-18), говорит о другом. Значение этой статистики составляет 35,221. 95%-е критическое значение из таблицы хи-квадрат-распределения с 11 степенями свободы равно 19,675. На этом основании мы можем отвергнуть гипотезу о равенстве векторов коэффициентов. 6.4. Моделирование и тестирование структурного сдвига 209 Таблица 6.8. Результаты регрессий для продолжительности жизни Все страны ОЭСР Не ОЭСР Константа 5,237 38,734 42,728 49,328 26,812 41,408 Health 0,00629 –0,00180 0,00268 0,00114 0,00955 –0,00178 exp Education 7,931 7,178 6,177 5,156 7,0433 6,499 2 Education –0,439 –0,426 –0,385 –0,329 –0,374 –0,372 Gini –17,333 –5,762 –21,329 coeff Tropic –3,200 –3,298 –3,144 Pop. –0,255e–4 0,000167 –0,425e–4 Dens. Public –0,0137 –0,00993 –0,00939 exp GDP PC 0,000483 0,000108 0,000600 Democracy 1,629 –0,546 1,909 Govt. 0,748 1,224 0,786 Eff. 2 0,6824 0,7299 0,6483 0,7340 0,6133 0,6651 R Станд. 6,984 6,565 1,883 1,916 7,366 7,014 ошибки Сумма 9 121,795 7 757,002 92,21064 69,74428 8 518,750 7 378,598 квадратов 609,37 18 199,07 4 449,79 -тест 4,524 0,874 3,311 F 6.4.5. Тестирование стабильности модели при помощи теста на предсказательную силу Тест, определенный в (6-16) в подразделе 6.4.2, эквивалентен проверке гипотезы в «модели» H : β = β 0 2 1 y = x β + ε , t = 1, . . . , T , t 1 t 1 t y = x β + ε , t = T + 1, . . . , T + T . t 2 t 1 1 2 t (Отметим, что дисперсия ошибок предполагается одинаковой в обоих подпериодах.) Альтернативная постановка (использованная в примере) выглядит как y X 0 β ε 1 1 1 = + . y X I γ ε 2 2 2 Такая постановка означает, что y = x β + ε , t = 1, . . . , T , t 1 t 1 t y = x β + γ + ε , t = T + 1, . . . , T + T . t 2 t t 1 1 2 t 220 Глава 7. Модели регрессии предположение о строгой экзогенности процесса, порождающего по x i отношению к процессу, порождающему . Данные предполагаются ε x i i «доброкачественными». 6. Основная вероятностная модель. Существует корректное распределение вероятностей, порождающее . На данном этапе мы предположим, ε i что процесс порождает выборку из некоррелированных, одинаково (безусловно) распределенных случайных величин с нулевым средним и с ε i 2 дисперсией σ условно относительно h(x , β). Таким образом, на данi этапе форма нашей модели является полупараметрической. (См. раздел 12.3.) Мы не будем предполагать конкретного распределения для величин . Предположений 3 и 4 об условных моментах будет достаточно ε i для получения результатов данной главы. В главе 14 мы полностью параметризуем модель, предположив, что шоки распределены нормально. Это позволит нам сделать более точные выводы относительно некоторых тестовых статистик и к тому же позволит рассмотреть некоторые обобщения регрессионной модели. Здесь это предположение не требуется. Пример 7.2. Идентификация в транслогарифмической системе спроса В работе Кристенсена, Джоргенсена и Ло (Christensen, Jorgenson, Lau (1975)) была предложена транслогарифмическая косвенная функция полезности для потребителя, распределяющего свой бюджет между K товарами: K K K ln V = β + β ln(p /M ) + γ ln(p /M ) ln(p /M ), 0 k k kj k j j=1 k=1 k=1 где V — косвенная полезность, p — цена k-го товара, а M — это доход. k Полезность, прямая или косвенная, ненаблюдаема, и функция полезности не может быть использована для эмпирической модели. Тождество Роя, примененное к этой логарифмической функции, приводит к уравнению распределения бюджета для k-го товара в форме K β + γ ln(p /M ) ∂ ln V /∂ ln p k kj j k j=1 S = − = + ε, k = 1, . . . , K, k K ∂ ln V /∂ ln M β + γ ln(p /M ) M M j j j=1 где и = . Никакое преобразование уравнения β = Σ β γ Σ γ M k k M j k kj распределения бюджета не приведет к линейной модели. Это уравнение регрессии нелинейно по своей сущности. (Оно также является частью системы уравнений, но этот аспект мы пока игнорируем.) Несмотря на то что уравнение распределения сформулировано в терминах наблюдаемых величин, его все равно нельзя рассматривать в качестве эмпирической модели из-за проблемы идентификации. Если мы домножим каждый параметр в уравнении распределения на одну и ту же константу, то эта константа, появившаяся и в числителе, и в знаменателе, сократится и значение функции в уравнении не изменится. Указанную неопределенность можно разрешить, наложив условие нормировки Заметим, что β = 1. M проблемы идентификации подобного характера не возникают в линейных моделях. 7.2. Нелинейные регрессионные модели 221 7.2.2. Нелинейная оценка наименьших квадратов Нелинейная оценка наименьших квадратов определяется как точка минимума суммы квадратов: n n 1 1 2 2 − (7-7) S(β) = ε = [y h(x , β)] . i i i 2 2 i=1 i=1 Условия первого порядка для задачи минимизации выглядят как n ∂S(β) ∂h(x , β) i − (7-8) = [y h(x , β)] = 0. i i ∂β ∂β i=1 В линейной модели вектор частных производных был бы равен регрессорам x . Далее мы будем называть производные функции условного среднего по i 0 0 параметрам псевдорегрессорами, x . Мы получаем, что нелинейная (β) = x i i оценка наименьших квадратов находится как решение n ∂S(β) 0 (7-9) = x ε = 0. i i ∂β i=1 Эти уравнения для нелинейной регрессии представляют собой аналоги обычных уравнений метода наименьших квадратов (3-5). Для вычислений требуется применение итерационной процедуры решения (см. пример 7.3). Метод решения приведен в подразделе 7.2.6. Из предположений 1 и 3 следует, что E[ε |h(x , β)] = 0. Для линейной i i модели в связи с линейностью условного среднего получается, что и x не ε i i коррелированы между собой. Тем не менее некоррелированность с некоε нелинейной функцией от x (функцией регрессии) необязательно влеi некоррелированность как с x , так и с другой нелинейной функцией от i x . С другой стороны, результаты, касающиеся свойств оценки в этой моi которые мы получим, формулируются не в терминах x , а в терминах i некоторых функций от x (производных функции регрессии), поэтому с этой i E[ε|X] точки зрения нам не требуется предположение = 0. Последний вывод не является бесспорным для произвольной модели. Динамические модели, столь популярные в современной литературе, значительно усложнят подобный анализ. Если можно предположить, что строε некоррелирует с любой предшествующей информацией в модели, включая предыдущие шоки, то, возможно, интерпретация, аналогичная случаю линейной модели, может оказаться подходящей. Однако результаты о сходимости, необходимые для вывода асимптотических свойств оценки, все равно придется усилить. Динамическая нелинейная регрессионная модель выходит за рамки рассматриваемого нами материала. Строгой независимости ε и x будет достаточно для некоррелированности ε и любой функции i i i от x , но опять-таки для динамической модели это предположение может i быть спорным. Некоторое обсуждение этого аспекта модели нелинейной регрессии может быть найдено в книгах Дэвидсона и Маккиннона (Davidson, MacKinnon (1993, 2004)). 7.2. Нелинейные регрессионные модели 223 Признавая некоторую возможную некорректность, пока мы будем определять модель нелинейной регрессии следующим образом. Определение 7.1. Нелинейная модель регрессии. Модель называется нелинейной, если условия первого порядка для оценки параметров методом наименьших квадратов являются нелинейными функциями от параметров. Таким образом, мы определяем нелинейность в терминах техники оценки параметров, а не вида регрессионной функции. В дальнейшем мы расширим это определение, чтобы включить процедуры оценки, отличные от метода наименьших квадратов. 7.2.3. Асимптотические свойства оценки нелинейным методом наименьших квадратов Для нелинейной оценки наименьших квадратов можно получить некоторые аналитические результаты, такие как состоятельность и асимптотическая нормальность. Мы не можем гарантировать, что нелинейная оценка наименьших квадратов является наиболее эффективной, кроме как в случае нормально распределенных шоков. (К аналогичному заключению мы пришли для случая линейной модели.) Однако в полупараметрической постановке, рассматриваемой в этой главе, мы можем задаться вопросом, не является ли эта оценка в некотором смысле оптимальной, учитывая имеющуюся у нас информацию. Ответ на этот вопрос оказывается положительным. Несколько примеров, приведенных ниже, иллюстрируют этот момент. Нам потребуется сделать некоторые предположения о регрессорах. Точные требования обсуждаются в работах Джаджа и др. (Judge et al. (1985)), Амемии (Amemiya (1985)) и Дэвидсона и Маккиннона (Davidson, MacKinnon (2004)). В линейной модели для вывода асимптотических результатов мы предполагали, что матрица выборочных моментов (1/n)X X сходится к положительно определенной матрице Q. По аналогии мы потребуем выполнения этого условия для производных регрессионной функции, которые называются псевдорегрессорами в линеаризированной модели (определенной в (7-29)), вычисленных при истинных значениях параметров. Таким образом, в модели нелинейной регрессии аналогом для (4-20) будет n 1 1 ∂h(x , β ) ∂h(x , β ) i 0 i 0 0 (7-12) plim X X = plim = Q , 0 0 n n ∂β ∂β 0 0 i=1 0 где — положительно определенная матрица. Для вывода состоятельноQ b в линейной модели нам потребовалось условие plim(1/n)X ε = 0. Мы будем использовать аналогичное условие для псевдорегрессоров: n 1 0 plim x ε = 0. i i n i=1 Как уже было отмечено в (4-24), это называется условием ортогональности. Заметим, в частности, что оно отличается от условия ортогональности шо- 224 Глава 7. Модели регрессии ков и данных. Наконец, асимптотическая нормальность может быть выведена при общих условиях, если n 1 d 0 2 0 √ x ε −→ N [0, σ Q ]. i i n i=1 Имея это в виду, мы можем получить асимптотические свойства нелинейной оценки наименьших квадратов. Фактически это те же условия, которые мы использовали в случае линейной модели, только вместо регрессоров теперь мы используем производные линеаризированной функции, вычислен0 в точке . [Amemiya (1985).] β, X Критерий нелинейного метода наименьших квадратов представляет собой n n 1 1 2 2 − (7-13) S(b) = [y h(x , b)] = e , i i i 2 2 i=1 i=1 где b — искомое решение. Те значения параметров, при которых достигается минимум (половины) суммы квадратов остатков, и есть оценки нелинейным методом наименьших квадратов. Условия первого порядка для поиска минимума записываются как n ∂h(x , b) i − − (7-14) g(b) = [y h(x , b)] = 0. i i ∂b i=1 В линейной модели, рассматриваемой в главе 3, это приводило нас к системе линейных уравнений (нормальным уравнениям) (3-4). Однако в общем случае (7-14) представляет собой систему нелинейных уравнений, ко2 не имеет решения в явном виде. Заметим, что не влияет на решение σ [как и в (3-4)]. В искомой точке 0 −X g(b) = e = 0 аналогично (3-12) в случае линейной модели. При наших предположениях мы получаем следующий результат: Теорема 7.1. Состоятельность оценки нелинейного метода наименьших квадратов Если выполнены следующие предположения: a) пространство, содержащее является компактом (нет разрывов и β, невогнутых областей), 0 0 0 b) для каждого вектора в этом пространстве β plim (1/n)S(β ) = q(β ) является непрерывной и дифференцируемой функцией, 0 c) имеет единственный минимум, который достигается при истинq(β ) ном значении параметра тогда оценка нелинейного метода наименьших β, 7.2. Нелинейные регрессионные модели 225 квадратов, определенная в (7-13) и (7-14), является состоятельной. Мы кратко опишем доказательство, а затем рассмотрим отличия формулировки теоремы и ее доказательства от более простого случая линейной модели. Доказательство, несмотря на тонкость условий, проводится 0 0 непосредственным образом. Оценка, скажем , минимизирует b (1/n)S(β ). 0 0 Если минимизируется для каждого то в точке достигается (1/n)S(β ) n, b минимум и при неограниченном росте Мы предположили, что точка n. 0 минимума единственна и равна Если минимальное значение q(β ) β. 0 равно пределу по вероятности минимального значения суммы plim S(β ) квадратов, то теорема доказана. Это равенство следует из непрерывности в предположении b. В линейной модели состоятельность оценки метода наименьших квадратов следовала из условий и В рамках plim(1/n)X X = Q plim(1/n)X ε = 0. этого подхода мы могли бы использовать линеаризированную модель и получить в сущности тот же результат. Некоторая неточность этого подхода состоит в том, что линеаризированная модель не является истинной, она является приближением. Таким образом, для корректности этого метода требу0 предположить или показать, что где за plim(1/n)X δ = 0, δ = h(x , β) i i вычетом ее приближения рядом Тейлора. Обсуждение этого момента можно найти в работе Миттельхаммера и др. (Mittelhammer et al. (2000, с. 190–191)). Заметим, что ни слова не было сказано о несмещенности оценки. Оценка линейного метода наименьших квадратов в модели линейной регрессии в сущности является единственной несмещенной, которая рассматривается в этой книге. Вообще говоря, невозможно установить несмещенность для любой другой оценки. Как мы уже видели, несмещенность оценки выступает незначительным преимуществом в большинстве случаев — так, например, это свойство может выполняться как для оценки, построенной для 10 наблюдений, так и для оценки, построенной для 10 000 наблюдений. За исключением линейного случая, главным требованием к оценке является ее состоятельность. После установления состоятельности мы переходим к вопросу об эффективности и в большинстве случаев полагаемся на асимптотическую нормальность как на основу всех статистических выводов. Теорема 7.2. Асимптотическая нормальность оценки нелинейного метода наименьших квадратов Если псевдорегрессоры, определенные в (7-12), являются «доброкачественными», то 2 σ a −1 0 ∼N b β, (Q ) , n где 1 0 0 0 Q = plim X X . n Выборочной оценкой асимптотической ковариационной матрицы является 2 0 0 (7-15) Est.Asy.Var[b] = σ X X . 226 Глава 7. Модели регрессии Без предположений о вероятностном распределении трудно установить асимптотическую эффективность оценки нелинейного метода наименьших квадратов. Одним из возможных косвенных подходов может стать следующий. Из предположения об ортогональности псевдорегрессоров и истинных шоков следует, что оценка нелинейного метода наименьших квадратов является GMM-оценкой. При предположениях о гомоскедастичности и об отсутствии автокорреляции оптимальной взвешивающей матрицей будет именно та, которая была нами задействована, и, таким образом, оценка нелинейного метода наименьших квадратов использует оптимальную взвешивающую матрицу в классе GMM-оценок. Значит, она является асимптотически эффективной в классе GMM-оценок. Из требования о сходимости матрицы в (7-12) к положительно опреде0 матрице вытекает, что столбцы матрицы регрессоров должны X быть линейно независимыми. Это условие идентификации аналогично требованию о линейной независимости независимых переменных в линейной модели. Модели нелинейной регрессии обычно насчитывают несколько независимых переменных, и на первый взгляд может показаться, что достаточно проверить данные на мультиколлинеарность. Однако это не так. Подобная ситуация рассмотрена в примере 7.4. 2 Состоятельная оценка величины σ основана на остатках: n 1 2 − ,b)] (7-16) σ = [y h(x . i i n i=1 Поправка на число степеней свободы, где K — число элементов 1/(n−K), в β, здесь не так уж нужна, так как все результаты все равно верны лишь асимптотически. В работе Дэвидсона и Маккиннона (Davidson, MacKinnon 2 (2004)) утверждается, что в среднем (7-16) будет недооценивать и нужσ использовать поправку на число степеней свободы. Б ольшая ´ часть программного обеспечения использует эту поправку, но рекомендуется уточнять этот момент при исследовании. Учитывая все сказанное, оценка асимптотической ковариационной матрицы для оценки нелинейного метода наименьших квадратов задается в (7-15). После того как оценки нелинейного метода наименьших квадратов получены, статистические тесты и проверка гипотез могут быть проведены ровно так же, как это было описано в главе 5. Небольшая проблема может возникнуть с оценкой качества приближения данных моделью регрессии, так как известная нам мера качества 2 e 2 i R = 1 − (7-17) n − 2 (y y ¯ ) i i=1 более не обязана находиться между 0 и 1. Тем не менее она является удобной описательной мерой. 7.2.4. Проверка гипотез и ограничения на параметры В большинстве случаев гипотезы, которые нам потребуется проверять, будут достаточно простыми линейными ограничениями. Тесты можно про- 228 Глава 7. Модели регрессии − [S(b∗) S(b)]/J − (7-20) F [J, n K] = . S(b)/(n − K) Это уравнение уже появлялось ранее в представлении F -статистики в виде (5-29). Однако в нелинейном случае ни числитель, ни знаменатель не имеют точного хи-квадрат-распределения, поэтому -распределение полуF лишь приближенно. Отметим, что эта -статистика требует оценки F как модели с ограничениями, так и модели без ограничений. Тест Вальда основан на расстоянии между r(b) и q. Если оценки, полученные без ограничений, не удовлетворяют ограничениям, то возникают сомнения в справедливости самих ограничений. Статистика представляет собой −1 − {Est.Asy.Var[r(b) − − W = [r(b) q] q]} [r(b) q] (7-21) −1 ˆ − − = [r(b) q] R(b) VR (b) [r(b) q], ˆ где и вычисляется в точке оценке V = Est. Asy. Var[b], R(b) b, β. В условиях нулевой гипотезы эта статистика имеет предельное хи-квадрат-распределение с J степенями свободы. Если ограничения верны, то статистика Вальда и -статистика, умноженная на асимптотически эквиваF Статистика Вальда может быть основана на оцененной ковариационной матрице, полученной с помощью оценок без ограничений, что может сильно облегчить вычисления, если ограничения нелинейны. Следует отметить, что поведение статистики W в малых выборках может быть непредсказуемым и более традиционная -статистика может оказаться предпоF если выборка невелика. То же предупреждение относительно статистики Вальда, которое мы приводили для линейного случая, справедливо и здесь. Поскольку этот тест является чистым тестом значимости и не подвержен влиянию альтернативной гипотезы, то статистика Вальда не инвариантна к тому, как формулировать гипотезу. В том случае, если есть несколько эквивалентных способов сформулировать ограничения r(β) = q, W может приводить к разным результатам в зависимости от способа. Тест множителей Лагранжа основан на уменьшении суммы квадратов остатков, которое произойдет, если убрать ограничения из модели с ограничениями. Строгое обоснование теста приведено в подразделе 14.6.3. Для 4 модели нелинейной регрессии тест имеет особенно привлекательный вид . Пусть есть вектор остатков − вычисленный с помощью оценок e y h(x , b ), ∗ ∗ i i 0 при наличии ограничений. Напомним, что мы определяли как × X n K матрицу производных, вычисленную в векторе истинных параметров (см. 0 (7-29)). Пусть — такая матрица, вычисленная в векторе оцененных параX в модели с ограничениями. Тогда статистика множителей Лагранжа для модели нелинейной регрессии имеет вид 0 0 0 −1 0 e X [X X ] X e ∗ ∗ ∗ ∗ ∗ ∗ LM = . (7-22) e e /n ∗ ∗ 4 Вывод этого теста можно найти в работе Джаджа и др. (Judge et al. (1985)). Подробное обсуждение содержится в работе Миттельхаммера и др. (Mittelhammer et al. (2000)). 7.2. Нелинейные регрессионные модели 229 В условиях гипотезы эта статистика имеет предельное хи-квадратH с степенями свободы. Особенно привлекательным в этом J подходе является то, что он требует лишь вычисления оценок с ограничениями. Это может дать некоторый выигрыш с точки зрения вычислений, если, например, в результате ограничений модель сводится к линейной. Заметим также, что статистика множителей Лагранжа представляется в виде умноn, на нецентрированный регрессии на . Многие статистики R e X ∗ ∗ множителей Лагранжа считаются именно в этом виде. 7.2.5. Примеры В данном подразделе содержатся три примера оценки и статистических выводов в модели нелинейной регрессии. В примере 7.4 рассматривается нелинейная функция потребления в продолжение примеров 1.2 и 2.1. Эта модель является простым примером оценки и проверки гипотез в нелинейной модели. В примере 7.5 исследуется преобразование Бокса–Кокса (Box– Cox). Подобная спецификация полезна для обобщения случая линейной модели: она содержит линейную и логлинейную модели как частные случаи. Наконец, пример 7.6 представляет собой подробный разбор модели экспоненциальной регрессии. В нем мы изучим некоторые аспекты нелинейного моделирования, в частности «эффекты взаимодействия» (interaction effects). Нам уже встречались эффекты взаимодействия в подразделе 6.3.3 в модели вида y = β + β x + β z + β xz + ε. 1 2 3 4 2 В этом случае эффект взаимодействия был равен . Эф- ∂ E[y|x, z]/∂x∂z = β 4 фект отсутствовал, если β равен нулю. Пример 7.6 рассматривает (возмож4 непреднамеренный) аспект нелинейной модели, который заключается в том, что если то существует эффект взаимодействия, E[y|x, z] = h(x, z, β), даже если модель выписывается как h(x, z, β) = h(β + β x + β z). 1 2 3 Пример 7.4. Анализ нелинейной функции потребления Линейная функция потребления, рассмотренная в начале главы 2, есть частный случай более общей модели потребления γ C = α + βY + ε, где степень γ равна 1. При этом ограничении модель является линейной. Если может изменяться, то уравнение становится моделью нелинейной γ регрессии. Квартальные данные по потреблению, реальному располагаемому доходу и некоторым другим показателям экономики США в период с 1950 по 2000 г. приведены в табл. F5.2 приложения. Воспользуемся этими данными для оценки нелинейной функции потребления. (Подробности вычисления оценок приведены в подразделе 7.2.6, в примере 7.8.) Результаты оценки линейной регрессии с ограничениями и нелинейной 232 Глава 7. Модели регрессии что приводит к стандартному отклонению 0,0086423. Для проверки гипотезы, что MPC равна 1 в IV квартале 2000 г., обратимся к значению z = (1, 08264− −1)/0, в таблице стандартного нормального распределе0086423 = 9, 56299 ния. Разница статистически значима, поэтому мы отвергаем гипотезу. Пример 7.5. Преобразование Бокса–Кокса Преобразование Бокса–Кокса (Box–Cox transformation) [Box, Cox (1964), Zarembka (1974)] используется как инструмент для обобщения линейной модели. Преобразование имеет вид (λ) λ − x = (x 1)/λ. Особый интерес представляет случай приводящий к линейному λ = 1, (1) преобразованию − а также случай При равном нулю, x = x 1, λ = 0. λ, преобразование по правилу Лопиталя имеет вид λ λ − − x 1 d(x 1)/dλ λ × lim = lim = lim x ln x = ln x. λ 1 λ→0 λ→0 λ→0 условно Регрессионный анализ может быть проведен по λ. Для заданного значения λ модель K (λ) y = α + β x + ε (7-23) k k k=2 является линейной регрессией и может быть оценена методом наименьших квадратов. Однако если λ в (7-23) является неизвестным параметром, то регрессия становится нелинейной по параметрам. Вообще говоря, каждый регрессор можно преобразовывать с помощью своего значения но в большинстве приложений это приводит к тому, что обобλ, модели становится слишком громоздким и обычно λ предполагается 5 единым для всех переменных в модели . Для того чтобы быть определенным для любого значения должен быть строго положительным. В больλ, x шинстве приложений некоторые регрессоры — например дамми-переменные — не преобразуются. Для таких переменных, скажем обозначенных как (λ) , , а соответствующие производные в (7-24) равны нулю. Также ν ν = ν k k k (θ) возможно преобразовать скажем . Заметим, что преобразование заy, переменной касается спецификации модели в целом, а не только функциональной формы условного среднего. Например, θ = 1 соответствует линейному уравнению, в то время как логарифмическому. θ = 0 В некоторых приложениях такое преобразование возникает из необходимости рассматривать нулевые значения в логлинейной модели. Кейвс, Кристенсен и Трезевэй (Caves, Christensen, Trethaway (1980)) исследовали издержки производства для железнодорожных компаний, осуществляющих пассажирские и грузовые перевозки. Следуя мнению, изложенному в литературе по издержкам производства в естественных монополиях (regulated 5 Seaks, Layson (1983). 7.2. Нелинейные регрессионные модели 233 industries), транслогарифмическая функция цены (см. подраздел 10.4.2) является естественной для моделирования выпуска неоднородной продукции. Однако некоторые из исследуемых фирм не предоставляли услуги пассажирских перевозок, что препятствует использованию транслогарифмической модели. (В этом случае потребуется брать логарифм нуля.) Выходом может стать преобразование Бокса–Кокса, которое может быть вычислено для нулевых значений выпуска продукции. В этой ситуации (равно как и в аналогичных) возникает вопрос, следует ли трактовать нулевой выпуск ровно так же, как ненулевой, или же нулевой выпуск представляет собой отдельное решение компании, отличающееся от остальных уровней выпуска. Кроме этого, как можно видеть из (7-24), это лишь частичное решение проблемы. Нулевые значения регрессоров препятствуют получению соответствующих стандартных отклонений. Оценка методом наименьших квадратов получается непосредственно. В большинстве случаев мы ожидаем получить оценку методом наименьλ квадратов между и 2. Поэтому обычно λ оценивается путем исследования этого интервала в поисках значения, которое минимизировало бы сумму квадратов остатков. Обсудим, что происходит, если в выборке встречаются нулевые значения В этом случае на в модели потребуется налоx. ограничения, так как 0 определен лишь для строго положительных λ. Положительность значения λ, вообще говоря, не гарантируется в модели. После нахождения оптимального значения оценки методом наименьших λ квадратов оценка среднего квадрата остатков и найденное значение предλ собой нелинейные оценки параметров. После определения оптимального значения λ ее иногда считают известной величиной для получения результатов оценивания методом наименьˆ квадратов. Однако является оценкой неизвестного параметра. Несложλ показать, что стандартные отклонения, вычисленные по методу наименьших квадратов, всегда будут недооценивать истинные асимптотические стан6 отклонения . Чтобы узнать истинные значения, нам потребуется вычислить производные правой части (7-23) по и Псевдорегрессоры α, β λ. равны ∂h(.) = 1, ∂α ∂h(.) (λ) = x , (7-24) ∂β k k (λ) ∂x ∂h(.) 1 K K (λ) λ k − = β = β x ln x x . k k k ∂λ ∂λ λ k k=1 k=1 k Теперь мы можем определить асимптотическую ковариационную матрицу оценок параметров с помощью (7-15) и (7-16). Заметим, что присутствуln x k ет в Если то эта матрица не может быть вычислена. Именно ∂h(.)/∂λ. x = 0, k об этом моменте говорилось ранее. Важно помнить, что коэффициенты в нелинейной модели не равны коэффициентам наклона (или эластичностям) переменных. Для конкретной 6 Fomby, Hill, Johnson (1984, р. 426–431). 234 Глава 7. Модели регрессии (λ) модели Бокса–Кокса получаем ln Y = α + βX + ε ∂E[ln y|x] ∂E[ln y|x] λ = x = βx = η. X ∂ ln ∂X Стандартная ошибка этой оценки может быть получена с помощью дельтаλ Производные равны соответственно ∂η/∂β = x = η/β и ∂η/∂λ = Приводя подобные члены, мы получаем = η ln X. 2 ˆ 2 ˆ Asy.Var [ˆ η ] = (η/β) Asy.Var β + (β ln x) Asy.Var λ + ˆ ˆ + (2β ln x) Asy.Cov β, λ . Случай, рассмотренный в примере 7.4, относится к моделям Бокса–Кокса такого вида. Мы можем переписать (7-23) в виде λ − y = (α 1/λ) + (β/λ)X + ε = ∗ ∗ γ = α + β x + ε. Мы видим, что одним из способов работы с моделью регрессии Бокса–Кокса может быть преобразование этой модели в модель нелинейной регрессии и использование регрессии Гаусса–Ньютона (см. подраздел 7.2.6) для оценки параметров. Искомые параметры восстанавливаются следующим образом: ∗ ∗ и . λ = γ, α = α + 1/γ β = γβ Эффекты взаимодействия в логлинейной модели дохода Пример 7.6. Одним из недавних исследований в области экономики здравоохранения является работа «Incentive Effects in the Demand for Health Care: A Bivariate Panel Count Data Estimation» (Riphahn, Wambach, Million (2003)). Авторов интересует число посещений врача и больниц, а также влияние наличия частной страховки на число посещений, т.е. свидетельствуют ли данные о существовании риска недобросовестного поведения. Выборка представляет собой несбалансированную панель по 7293 домохозяйствам из 7 источника German Socioeconomic Panel (GSOEP) . Среди переменных панели присутствуют такие показатели, как доход домохозяйства (Income), несколько социодемографических показателей, таких как возраст (Age), пол (Male или Female) и образование (Education). В данном примере мы будем моделировать распределение дохода, используя последние доступные данные (1988 г.), точнее, межобъектные данные, включающие 4483 наблюдения. Два индивида в этой выборке сообщили о нулевом доходе, что несовместимо с моделями, которые мы собираемся использовать ниже. Удаляя эти два наблюдения, мы получаем выборку из 4481 наблюдения. Рисунки 7.1 и 7.2 представляют собой гистограмму и 7 Данные опубликованы на сайте Journal of Applied Econometrics по адресу http://qed.econ. queensu.ca/jae/2003-v18.4/riphahn-wambach-million/. Переменные, используемые в файле, перечислены в таблице приложения F7.1. Количество опросов одного домохозяйства отличается по годам и составляет от одного до семи раз в год. Общее число наблюдений равно 27 326. Мы будем использовать эти данные несколько раз по ходу изложения книги. 7.2. Нелинейные регрессионные модели 235 оценку ядерной плотности для дохода домохозяйств, построенные по этим данным. Рис. 7.1. Гистограмма дохода Рис. 7.2. Оценка ядерной плотности дохода 238 Глава 7. Модели регрессии Во-вторых, по построению модели вторая часть производной не равна коэффициенту, потому что величины входят в уравнение не только линейно, но и в квадрате или в составе произведения с другой величиной. Более того, для дамми-переменной Female мы бы хотели посчитать частное влияние как Female − Female ∆E[y|x]/∆Female = E[y|x, = 1] E[y|x, = 0]. Третий вопрос, который возникает, связан с тем, как считать частные влияния: по выборочным средним или по средним значениям переменных? Например, × Age Educ). ∂E[y|x]/∂Age = E[y|x] (β + 2β + β 2 3 7 Среднее значение для Age в выборке составляет 43,4452, а для Education — 11,4167. Частное влияние одного года образования оценивается как 0,000948, если его считать, усредняя частные влияния, вычисленные для каждого индивида. Оно же оценивается как 0,000925, если вычислять условное среднее и линейную составляющую в средних трех переменных. Без информации о размерности величины дохода частное влияние трудно интерпретировать. Так как средний доход по выборке составляет около 0,35, подобные частные влияния означают, что дополнительный год образования связан с изменением ожидаемого дохода примерно на 2,6% (т.е. 0,009/0,35). Age Грубый подсчет частного влияния не обнаруживает связи в модели между возрастом и ожидаемым доходом. Так, заметим, что коэффициент 2 при Age положительный, в то время как коэффициент при Age отрицательный. Отсюда следует (если игнорировать компоненту взаимодействия Age−Income, в конце уравнения), что связь определяемая моделью, является параболической. Частное влияние положительно при низких значениях возраста (Age) и отрицательно при высоких. Чтобы подробнее изучить этот момент, мы посчитаем ожидаемый Income отдельно для мужчин и для женщин, предполагая, что они закончили колледж (Educ = 16), для выборки с 25 до 64 лет. Результат изображен на рис. 7.3. Верхняя кривая относится к мужчинам (Female 0), а нижняя — к женщинам. Как = и ожидалось, форма является параболической; рисунок демонстрирует относительно сильное влияние: при прочих равных предполагается, что доход возрастает до 80% между 25 и 64 годами. (Важным для этого вычисления остается вопрос о том, что автор модели хочет проанализировать. Остается невыясненным, является ли эта параболическая связь траекторией ожидаемого дохода для каждого индивида по мере того, как меняется его возраст, или это средние доходы различных возрастных групп в конкретный момент (1988). Последнее кажется более разумным, судя по данному рисунку, хотя можно придумать объяснение и первой теории.) 7.2. Нелинейные регрессионные модели 239 доход Ожидаемый Возраст (в годах) Рис. 7.3. Ожидаемые доходы Рисунок демонстрирует также другой вывод из оцененной модели, который неочевиден из результатов регрессии. Коэффициент при даммипеременной Female положителен, высокозначим и является наибольшим по модулю в модели. Это может привести к выводу, что в среднем ожидаемый доход по этой выборке выше у женщин, чем у мужчин. Но рис. 7.3 явно демонстрирует обратное. Это различие объясняется компонентой взаимодействия, Female × Education. Отрицательный знак последнего члена порождает сомнения в положительности влияния. Однако знак совокупного влияния остается неясным без дополнительного анализа, предложенного ниже. Наконец, кроме возраста (Age), входящего в квадрате, в модель включена компонента взаимодействия Age × Education. Коэффициент является положительным и высокозначимым. Однако его интерпретация совершенно неочевидна. В линейной модели 2 Income Age Age Education Female = β + β + β + β + β 1 2 3 4 5 Female × Education Age × Education + β + β + ε 6 7 2 мы бы сказали, что То есть «эффект β = ∂ E[Income|x]/∂Age∂Education. 7 взаимодействия» есть изменение частного влияния Age при изменении Education (и наоборот). Конечно, если коэффициент β равен нулю, т.е. 7 это произведение отсутствует в модели, то нет никакого эффекта взаимодействия — вторая производная равна нулю. Тем не менее эта простая интерпретация часто неприменима в нелинейных моделях (т.е в любой нелинейной модели). Рассмотрим нашу экспоненциальную регрессию и предположим, что на самом деле β равен нулю. Для удобства пусть µ(x) 7 обозначает функцию условного среднего. Тогда частное влияние Age равно × Age) ∂µ(x)/∂Age = µ(x) (β + 2β 2 3 7.2. Нелинейные регрессионные модели 243 Обычно использование вычислительной техники не позволяет добить0 0 ся полной сходимости, т.е. того, чтобы выражение было в точности X e равно нулю. Полезным, не зависящим от масштаба является критерий δ = 0 0 0 0 −1 0 0 = e X (X X ) X e , который аналогичен критериям сходимости, рассмотренным в подразделе E.3.6. [См. (7-22).] Наконец, заметим, что итерационный алгоритм линеаризированной регрессии хоть и является очень эффективным для многих задач, но работает не всегда. Как и метод Ньютона, этот алгоритм может «выпрыгнуть» к сильно разбросанным значениям на второй итерации, после чего может оказаться невозможным вычислить остатки для следующей итерации. Принципиальным здесь может стать выбор начальных значений. Вычисление оценок нелинейным методом наименьших квадратов представляет собой смесь науки и искусства. [McCullough, Vinod (1999).] Если мы не обладаем никакой информацией для выбора начальных значений, рабочей стратегией может стать предварительное использование алгоритма Гаусса–Ньютона. Если этот алгоритм не приводит к ответу, то можно вернуться к стартовым значениям и использовать более общие алгоритмы, такие как BFGS, рассматривая минимизацию суммы квадратов остатков как обычную оптимизационную задачу. Пример 7.8. Нелинейный метод наименьших квадратов В примере 7.4 была рассмотрена нелинейная функция потребления γ C = α + βY + ε. Линеаризированная регрессионная модель записывается как 0 0 γ0 0 0 γ0 0 0 γ0 γ0 0 γ0 0 C−(α +β Y )+(α 1+β Y +γ β Y ln Y ) = α+β(Y )+γ(β Y ln Y )+ε . Объединяя слагаемые, получаем, что нелинейный метод оценивания сводится к последовательности регрессий 0 0 0 0 γ C = C + γ β Y ln Y на 1   ∂h(.) ∂h(.) ∂h(.) 0 0 γ x = = Y .   ∂α ∂β ∂γ 0 0 γ β Y ln Y Нахождение начальных значений для нелинейной процедуры может оказаться трудной задачей. Простой выбор произвольных значений может оказаться непродуктивным. К сожалению, не существует хороших правил выбора начальных значений, кроме того, что они должны по возможности не сильно отличаться от конечных (такое правило не особенно нам помогает). Иногда возможно использовать какую-нибудь состоятельную оценку в каβ начального значения. Однако во многих случаях единственная состоятельная оценка, которая возможна, и является оценкой методом наименьших квадратов, которую мы и пытаемся вычислить. В данном конкретном 244 Глава 7. Модели регрессии случае естественный выбор начальных значений возникает из-за того, что линейная модель будет частным случаем нашей. Таким образом, мы можем вычислить и с помощью линейного метода наименьших квадратов, коα β торый является частным случаем при γ = 1, и взять 1 в качестве стартового значения для Итак, итерации начинаются с оценок линейным методом γ. наименьших квадратов для и и 1 для α β γ. Решение достигается после восьми итераций; последующие итерации уже служат «тонкой настройкой» скрытых цифр (т.е. тех, которые исследователь не будет включать в отчет; «градиент» — это не зависящий от масштаба критерий сходимости упомянутый выше). Заметим, что на второй итераδ, вектор коэффициентов резко «прыгает» — сумма квадратов становится очень большой, но после этого итерационный процесс успокаивается и процедура сходится. Начинаем NLSQ-итерации. Линеаризированная регрессия. Итерация 1; сумма квадратов 1536321,88; градиент 996103,930 = = = Итерация = 2; сумма квадратов = 0,184780956E+12; 12 градиент 0,184780452E+12 (×10 = ) Итерация 3; сумма квадратов 20406917,6; градиент 19902415,7 = = = Итерация 4; сумма квадратов 581703,598; градиент 77299,6342 = = = Итерация = 5; сумма квадратов = 504403,969; градиент = 0,752189847 Итерация 6; сумма квадратов 504403,216; градиент 0,526642396E-04 = = = Итерация 7; сумма квадратов 504403,216; градиент 0,511324981E-07 = = = Итерация 8; сумма квадратов 504403,216; градиент 0,606793426E-10 = = = 7.3. Медианная и квантильная регрессии Мы придерживаемся основных предположений модели линейной регрессии = x β + ε, где и Если величины распределены нормально, E[ε|x] = 0 E[y|x] = x β. ε|x то распределение ε|x симметрично и медиана Med[ε|x] тоже равна нулю, а Med[y|x] При этих предположениях оценка методом наименьших = x β. квадратов остается естественным выбором для оценки Однако, как мы β. видели в примере 4.5, оценка методом наименьших абсолютных отклонений (least absolute deviations — LAD) представляет возможную альтернативу, которая может быть даже предпочтительнее. Предположим, что мы исходим непосредственно из второго предположения. В этом случае постановка модели выглядит как M ed[y|x] = x β. Здесь LAD-оценка, устойчивая к выбросам, возникает скорее сама по себе, 9 чем как альтернатива методу наименьших квадратов . Условная медиана |x вполне может быть функцией, представляющей самостоятельный инy i терес. В более широком смысле другие квантили распределения |x могут y i i 9 В примере 4.5 мы видели, что на малых выборках при распределениях с тяжелыми хвостами дисперсия LAD-оценки может быть меньше, чем оценки методом наименьших квадратов. 248 Глава 7. Модели регрессии Пример 7.9. Оценка LAD производственной функции Кобба–Дугласа В работе Зельнера и Реванкара (Zellner, Revankar (1970)) было предложено обобщение производственной функции Кобба–Дугласа, которое позволяет отдаче от масштаба меняться в зависимости от выпуска. Используемые ими данные для разных штатов по показателям value added (output) Y = (добавленная стоимость, выпуск), K = capital (капитал), L = labor (труд) и N = число сотрудников в транспортной отрасли приведены в табл. F7.2 приложения. ln(Y /N ) = β + β ln(K /N ) + β ln(L /N ) + ε i i 1 2 i i 3 i i i Рис. 7.5. Стандартизированные остатки для производственной функции Таблица 7.4. LS- и LAD-оценки производственной функции Метод наименьших квадратов LAD Бутстрэп Ядерная плотность Коэф- Оценка Станд. Оценка Станд. Станд. tt- статиошиб- стати- ошиб- статиент ка стика Конс- 2,293 0,107 21,396 2,275 0,202 11,246 0,183 12,374 танта β 0,279 0,081 3,458 0,261 0,124 2,099 0,138 1,881 k 0,927 0,098 9,431 0,927 0,121 7,637 0,169 5,498 β l 2 0,7814 0,7984 Σe Σ|e| 3,3652 3,2541 7.3. Медианная и квантильная регрессии 249 Для этого случая были получены оценки производственной функции Кобба–Дугласа с помощью метода наименьших квадратов и LAD. Основываясь на графике стандартизированных остатков метода наименьших квадратов, приведенном на рис. 7.5, можно предположить, пользуясь стандартным подходом, что два наблюдения (Флорида (FL) и Кентукки (KY)) являются выбросами. Вектор коэффициентов, полученный методом наименьших квадратов с учетом и без учета этих двух наблюдений, есть (2,293; 0,279; 0,927) и (2,205; 0,261; 0,879) соответственно, откуда мы можем сделать вывод, что эти две точки оказывают сильное влияние. В табл. 7.4 представлены LAD-оценки тех же параметров со стандартными ошибками, построенными на 500 бутстрэповских повторениях. Оценки LAD с учетом и без учета этих двух наблюдений идентичны, поэтому представлены только первые. Если мы используем простое приближение, умножив соответствующую стандартную ошибку OLS на 1/2 то получим значение, удивительно близкое к оценкам (π/2) = 1, 2533, стандартных ошибок, полученных бутстрэпом: (0,102; 0,123) против (0,124; 0,121). Следующая группа оценок стандартных ошибок построена ˆ 2 2 на оценке, предложенной Коэнкером: 0, 25/ f (0) = 0, 25/1, 5467 = Окно и ядерная функция выбраны так, как было предложено = 0, 104502. ранее. Для столь малой выборки результаты поразительно устойчивы. 7.3.2. Модели квантильных регрессий Модель квантильной регрессии запишется как x такая, что ≤ x |x] Q[y|x, q] = β P rob[y β = q, 0 < q < 1. q q Эта спецификация является совершенно непараметрической. Никакие предположения не были сделаны ни про распределение величины ни про ее y|x, условную дисперсию. Из того, что может непрерывно меняться (строго) q между нулем и единицей, следует, что существует бесконечное число «векторов параметров». Кажется разумным смотреть на коэффициенты, которые мы можем записать как не как на фиксированные «параметры», β(q), как мы делали в модели линейной регрессии, а, скорее, как на особенность распределения Так, например, кажется неправильным рассматривать y|x. β(0,49) совершенно отличающейся от β(0,50) или точно вычислять разности вроде − С другой стороны, качественная разница или, напроβ(0, 5) β(0,3). тив, ее отсутствие между и как покажет пример ниже, может β(0,3) β(0,5), быть интересным свойством данных. Оценка b вектора коэффициентов β для конкретного квантиля вычисq путем минимизации функции n n |y, − | − − | F (β X) = q|y x β + (1 q)|y x β n q i q i q i i ≥x i:y β i:y <x β i q i q i i n − |q) = g (y x β , i q i i=1 7.3. Медианная и квантильная регрессии 251 три переменные были выбраны только для этого примера. 13 444 наблюдения были получены на основании заявлений на получение кредитных карт. Из всей выборки 10 499 заявлений были подтверждены, и для 14 них проводились наблюдения по тратам и невыплатам по кредитам . Расходы рассчитываются как среднемесячные в течение 12 месяцев после открытия счета. Среднемесячный доход и число иждивенцев есть среди демографических данных, указанных в заявлении. В табл. 7.5 представлены оценки коэффициентов функции условного среднего ме15 наименьших квадратов и результаты для нескольких квантилей . Стандартные ошибки приводятся для результатов по методу наименьших квадратов и медианы (q Для остальных квантилей результаты = 0, 5). в целом те же. Оценка методом наименьших квадратов, равная 1,08344, немного больше единицы, а оцененная стандартная ошибка равна 0,03212, соответственно t-статистика равна (1, 08344 − 1)/0, 03212 = 2, 60. Такое поведение потребителя вполне ожидаемо. Однако большой разброс по различным квантилям несколько неожиданный. Мы можем объяснить это тем, что при высоком уровне расходов независимо от дохода существует (сравнительное) насыщение в реакции расходов на изменение дохода. Таблица 7.5. Оцененные модели квантильных регрессий Оцененные параметры Квантиль Константа ln Income Age Dependents 1 2 3 4 5 0,1 −6,73560 1,40306 −0,03081 −0,04297 0,2 −4,31504 1,16919 −0,02460 −0,04630 0,3 −3,62455 1,12240 −0,02133 −0,04788 0,4 −2,98830 1,07109 −0,01859 −0,04731 (Медиана) 0,5 −2,80376 1,07493 −0,01699 −0,04995 Станд. ошибка (0,24564) (0,03223) (0,00157) (0,01080) −11,41 33,35 −10,79 −4,63 t Метод −3,05581 1,08344 −0,01736 −0,04461 наименьших квадратов Станд. ошибка (0,23970) (0,03212) (0,00135) (0,01092) t −12,75 33,73 −12,88 −4,08 0,6 −2,05467 1,00302 −0,01478 −0,04609 0,7 −1,63875 0,97101 −0,01190 −0,03803 0,8 −0,94031 0,91377 −0,01126 −0,02245 −0,05218 −0,00891 −0,02009 0,9 0,83936 На рис. 7.6 изображены оценки эластичности расходов по доходу для ряда квантилей — от 0,1 до 0,9 и оценка методом наименьших квадратов, относящаяся к фиксированному для всех указанных квантилей значению. Доверительный интервал, показанный на рисунке, основан 252 Глава 7. Модели регрессии на асимптотической нормальности. Он вычислен как оцененный доход плюс-минус 1,96, умноженное на оцененную стандартную ошибку. Рис. 7.6. Оценки эластичности расходов по доходу Рис. 7.7. Квантильные регрессии для логарифма расходов (Ln Spending) Рисунок 7.7 показывает соответствующие квантильные регрессии для значений q = 0, 1; 0, 3; 0, 5; 0, 7 и 0, 9. Относительно большой рост — от 7.4. Частично линейная регрессия 253 0,1 квантиля до 0,3 — заставляет предположить некоторую скошенность в распределении расходов. В широком смысле результаты, по-видимому, согласуются с полученными ранее, гласящими, что квантили в значительной степени различаются ввиду сдвигов в постоянном члене, несмотря на кажущиеся принципиальными различия в коэффициенте при ln Income в таблице результатов. 7.4. Частично линейная регрессия Выбор точной функциональной формы — важный момент при спецификации линейной регрессии. Это было внимательно разобрано нами в главе 6. Некоторые подходы, в том числе использование дамми-переменных, логарифмов, квадратов и т.д., являются способами учета нелинейности. В частности, транслогарифмическая модель (пример 2.4) является хорошо известным способом приближения неизвестной нелинейной функции. Однако, даже используя такие подходы, исследователь может быть все еще заинтересован в ослаблении условия на функциональную форму модели. Частично линейная модель, [детально рассмотренная в работах (Yatchew (1998, 2000)) и (H¨ a rdle, Liang, Gao (2000))], может стать альтернативным подходом. Рассмотрим регрессионную модель, в которой одна из переменных, x, представляет особый интерес, но вид функциональной формы по отношению к x неясен. Запишем модель в виде y = f (x ) + z β + ε , i i i i где данные предполагаются доброкачественными и с точностью до функциональной формы все предположения классической модели выполнены. Функция остается неспецифицированной. Как уже было сказано, нельf (x ) i зя получить оценки методом наименьших квадратов, пока не будет f (x ) i специфицирована. Предположим, данные таковы, что состоят из пар наблюдений (y , y ), j = 1, . . . , n/2, для которых x = x для каждой пары. j1 j2 j1 j2 В этом случае оценка может быть получена при помощи простой преобβ модели − − − y y = (z z ) β + (ε ε ), j = 1, . . . , n/2. j2 j1 j2 j1 j2 j1 14 Данные по расходам были взяты из базы по кредитным картам, а доход и демографические показатели были взяты из заявлений на получение карт. Может показаться, что стоит использовать цензурированную квантильную регрессию (как, например, сделано в работе (Powell (1986a,b)), чтобы учесть большое количество нулей зависимой переменной. Однако такой подход будет неверно специфицировать модель: нули относятся к несуществующим наблюдениям, а не к пропущенным. Более аккуратный подход, использованный в исследовании 1992 г., — это моделировать по расходам существование или отсутствие наблюдения, а затем моделировать расходы условно по тому факту, что заявление было принято. Мы вернемся к этому моменту в главе 19 при обсуждении модели выборочной селективности (sample selection model). Данные по доходу ограничены, 100 000 и 220 точек имеют в графе «расходы» 1 долл. или менее. Мы не чистили данные, чтобы убрать подобные наблюдения. Все 10499 наблюдений, которые присутствовали в исходных данных, были использованы. 15 Заметим, что если модель формулируется в виде (7-33), то отсюда не вытекает, что функция условного среднего является линейной регрессией. Это должно предполагаться отдельно. 254 Глава 7. Модели регрессии Поскольку наблюдения независимы, построенные шоки все еще имеют v i 2 нулевое среднее, новую дисперсию и остаются попарно некоррелиро2σ В этом случае применима классическая модель и метод наименьших квадратов является оптимальным. В самом деле, имея оценку величиˆ скажем , зашумленная оценка может быть получена как −z β, β f (x ) y β d i i i 16 (в оценке содержится как ошибка оценивания, так и ) . ε i Проблема, разумеется, заключается в том, что основное предположение малореалистично. Данные не будут вести себя таким образом, кроме случая, когда они были получены искусственно. Тем не менее общая логика оценивания частично линейной регрессии остается прежней. Предположим, что наблюдения переставлены таким образом, что · · · . Предпоx < x < < x 1 2 n ложим также, что эта переменная является доброкачественной в том смысле, что при увеличении размера выборки вектор сортированных данных равномерно плотно заполняет пространство, в котором может меняться . Тоx интуитивно разность почти равна нулю и уменьшается с ростом выборки. [В работах (Yatchew (1997, 1998)) соответствующая теория рассмотрена более аккуратно.] Также разработана теория деления на группы, состоящие из двух и более наблюдений. Преобразованные наблюдения в этом случае M M M 2 выглядят как , где и (Данные y = d y d = 0 d = 1. d,i m i−m m m=0 m=0 m=0 m не разделены на непересекающиеся группы для такого преобразования — мы лишь используем этот способ для описания техники.) Пара весов для √ очевидна: берется ± т.е. всего-навсего масштабированный векM = 1 0, 5, тор −1 (обычная разность). В работе Ятчева [(Yatchew [1998, p. 697)] затабу1, оптимальные веса для дифференцирования при Для M = 1, . . . , 10. M = 2 значения составляют (0, 8090; −0, 500; −0, 3090), а для M = 3 (0, 8582; −0, −0, −0, Показывается, что эта оценка является состоя3832; 2809; 1942). тельной, асимптотически нормально распределена и имеет 17 асимптотическую ковариационную матрицу 2 1 σ ˆ v | Asy. Var[t β ] = 1+ E [Var[z x]]. d x 2M n Матрица может быть оценена с помощью суммы квадратов и попарных произведений преобразованных данных. Дисперсия остатков вычисляется подобным обычному образом: n ˆ 2 (y − z β ) d,i d d,i i=M +1 2 σ ˆ = . v − n M ˆ Ятчев предлагает сгладить частичные остатки − с помощью ядерy z β d,i d d,i ной оценки плотности, чтобы получить улучшенную оценку В рабоf (x ). i те (Manzan, Zeron (2010)) эта модель применяется для исследования рынка топлива в США. 16 См. работу (Estes, Honor´ e (1995)), в которой был предложен этот подход (простое взятие попарной разности в данных). 17 В работе (Yatchew (2000, p. 191)) ковариационная матрица определяется как E [Cov[z | x]]. 7.5. Непараметрическая регрессия 257 Проблема с этой взвешивающей функцией, которую мы здесь не хотим затрагивать, заключается в том, что она позволяет каждому x быть в окрестi , но не уменьшает вес x при удалении от . Был предложен ряд x x i сглаживающих функций, которые дают более качественные регрессионные функции. [См. Cleveland (1979) и Schimek (2000).] Рассмотрим две из них. Локально взвешенная сглаженная оценка регрессии (иногда называемая loess или lowess) основывается на явном определении окрестности точек, ∗ h. близких к x . Для этого требуется выбрать ширину окна Окрестность — ∗ это тот набор точек, для которого величина |x − | достаточно мала. Наx точки, которые попадают в интервал x* ± h/2, могут образовывать окрестность. Выбор окна существен и, как мы увидим в следующем примере, сложен. Простого, всегда пригодного правила не существует. Исследователи часто пользуются эмпирическим правилом Сильвермана (1986) 0, 9[min(s, IQR)] h = , Silverman 0,.2 1, 349 n IQR где s — это выборочное стандартное отклонение и — межквантильный размах (0,75 квантиля минус 0,25 квантиля). Кроме этого требуется выбрать подходящие веса. В работе Кливлэнда (Cleveland (1979)) рекомендуются трикубические (tricube) веса 3 3 ∗ |x − | x i ∗ |x, − T (x h) = 1 . i h Таким образом, вес для этой оценки равен ∗ ∗ |x, лежит в окрестности) × |x, w (x h) = 1(x T (x h). i i i Выбор ширины окна принципиально влияет на результаты. Более широкое окно приведет к более гладкой функции, однако приближение данных будет хуже. Другой возможностью, похожей на подход метода наименьших квадратов, является рассмотрение окрестности, включающей все точки, но с выбором взвешивающей функции, плавно убывающей при увеличении расстояния между x* и любым . Для этой цели используется ряд ядерных x i функций. Частым выбором являются логистическое ядро ∗ ∗ |x − гдеΛ(v − K(x , h) = Λ(v )[1 Λ(v )], ) = exp(v )/[1 + exp(v )], v = (x x )/h i i i i i i i i и ядро Епанечникова √ ∗ 2 |x − если|v | ≤ и если иначе. K(x , h) = 0, 75(1 0, 2 v )/ 5, 5, 0, i i i Это приводит к ядерной взвешенной оценке регрессии, ∗ n x −x 1 K y i i i=1 h h ∗ |x, µ ˆ (x h) = , n −x ∗ 1 x K i i=1 h h которая стала стандартным инструментом в непараметрическом анализе. 258 Глава 7. Модели регрессии Пример 7.12. Непараметрическая функция средних издержек В примере 7.11 мы применяли частично линейную регрессию для нахождения соотношения между средними издержками и выпуском на рынке электричества. Рисунки 7.8 и 7.9 показывают менее претенциозные непараметрические регрессии средних издержек на выпуск. Общая картина та же, что и в предыдущем примере. Ядерная функция в обоих случаях является логистической плотностью. Рис. 7.8. Непараметрическая функция издержек Рис. 7.9. Непараметрическая функция издержек 262 Глава 7. Модели регрессии Y X 10,07 77,6 14,73 114,9 17,94 141,1 23,93 190,8 29,61 239,9 35,18 289,0 40,02 332,8 44,82 378,4 50,76 434,8 55,05 477,3 61,01 536,8 66,40 593,1 75,47 689,1 81,78 760,0 Для каждой задачи NIST также предоставляет «официальное решение» (т.е. правильный ответ). Для задачи Misralc решение следующее: Оценка Оцененная стандартная ошибка 6,3642725809E 02 4,6638326572E 00 β + + 1 2,0813627256E − 04 1,7728423155E − 06 β 2 e e 4,0966836971E − 02 2 − 5,8428615257E − 02 s = e e/(n K) Наконец, NIST предлагает два набора начальных значений для итерационного процесса: один далекий от решения, а другой близкий к нему. Для 1 этой задачи предложенные начальные значения — это и β = (500 0, 0001) 2 Ваша задача повторить результаты NIST с помощью ваβ = (600 0, 0002). шего программного пакета. [Подробный анализ основных моментов оценивания NIST нелинейным методом наименьших квадратов см. в (McCullough (1999)).] 4. В примере 7.1 функция CES используется для моделирования выпуска, ν −ρ −ρ − − (7-36) lny = lnγ ln δK + (1 δ)L + ε. ρ В примере 6.8 предложен косвенный метод оценки параметров этой модели. Функция линеаризируется около точки ρ = 0, что приводит, по сути, к линейной аппроксимации функции 2 − lny = β + β lnK + β lnL + β [1/2(lnK LnL) ] + ε, 1 2 3 4 где и Эта аппроксимация может β = ln γ, β = νδ, β = ν(1−δ) β = ρνδ(1−δ). 1 2 3 4 быть оценена линейным методом наименьших квадратов. Оценки структурных параметров находятся решением четырех предыдущих уравнений. Оценка асимптотической ковариационной матрицы может быть получена с помощью дельта-метода. Параметры в (7-36) также могут быть оценены непосредственно с помощью нелинейного метода наименьших квадратов и результатов этой главы. 7.6. Заключение и выводы 263 Данные Кристенсена и Грина (Christensen, Greene (1976)) по производству электроэнергии в США приведены в табл. F4.4 приложения. Данные содержат 158 наблюдений. Задействуя первые 123 из них, оцените CES — производственную функцию, используя капитал и топливо как факторы производства вместо капитала и труда. Сравните результаты, полученные при двух подходах, и прокомментируйте имеющиеся различия (которые являются существенными). Для следующих заданий потребуется специальное программное обеспечение. Соответствующие процедуры есть в ряде программ, которые могут быть использованы, например SAS, Stata или LIMDEP. Задания предлагаются как отправные точки для исследований, которые можно проводить, используя некоторые рассмотренные в этой главе процедуры оценивания. 5. Используя данные по рынку бензина из табл. F2.2 приложения, с помощью метода частичной линейной регрессии, рассмотренного в разделе 7.4, оцените уравнение вида ln(G/Pop) = β ln(Income) + β lnP + β lnP + g(lnP ) + ε. 1 2 new cars 3 used cars gasoline 6. В продолжение задачи 5 рассмотрите непараметрическую регрессию G/Pop на цену (price). Применяя метод непараметрического оценивания, предложенный в разделе 7.5, получите непараметрическую оценку, используя различную ширину окна, чтобы изучить влияние этого параметра на оценку. ГЛАВА 8 Эндогенность и метод инструментальных переменных 8.1. Введение До сих пор предположение о том, что в модели линейной регрессии (8-1) y = x + ε β i i i x и не коррелированы, являлось определяющим. Однако часто встречаε i ются ситуации, в которых это предположение оказывается неправдоподобным. В частности, это относится к моделям эффекта воздействия, как, например, в примере 6.5; к моделям, включающим переменные, измеренные с ошибкой; к динамическим моделям, включающим ожидания, а также к большому количеству различных ситуаций, в которых часть переменных ненаблюдаема или по каким-то причинам пропущена. Без предположения о некоррелированности шоков и регрессоров все утверждения о состоятельности или несмещенности оценки методом наименьших квадратов, рассмотренные в главе 4, становятся несправедливыми, а сама оценка соответственно теряет все свои достоинства. В данной главе описывается метод оценивания, пригодный в подобных ситуациях. Удобно разделить вектор переменных x в (8-1) на два подвектора x и x , 1 2 предполагая, что переменные в x не коррелированы с а переменные в ε, 1 x коррелированы или могут быть коррелированы (т.е. это требует эмпири2 проверки). Мы предполагаем, что вектор x является экзогенным в 1 модели (см. предположение A.3 в условиях линейной регрессионной модели в разделе 2.3). Таким образом, по этому определению вектор x являет2 эндогенным в модели. Откуда берется эндогенность? Некоторые часто встречающиеся случаи рассматриваются ниже, в примере 8.1. Модели с эндогенными переменными в правой части Пример 8.1. Следующие модели и ситуации будут встречаться в дальнейшем еще не раз. Пропущенные переменные (omitted variables). В примере 4.2 мы изучали уравнение спроса на бензин вида ln G = β + β ln Price + β ln Income + ε. 1 2 3 Если доход (Income) некорректно исключен из (любого) уравнения спроса, то оцениваемая «модель» приобретает вид 268 Глава 8. Эндогенность и метод инструментальных переменных величинами. В рассматриваемом примере, в частности, шоки слишком велики по сравнению с генеральной совокупностью в целом. Сами по себе слишком высокие шоки не считаются проблемой, пока не оказывается, что они являются объяснением неслучайности хотя бы части рассматриваемых переменных. Подобная неслучайность выборки объясняется смещением из-за отбора наблюдений (sample selection bias). Истощение выборки (attrition). Возможны два близко связанных между собой важных случая неслучайной выборки. В исследованиях производительности фирм по панельным данным фирмы, оставшиеся в выборке к концу периода наблюдений, обычно представляют собой подвыборку тех, которые были вначале, — некоторые терпящие крах фирмы так или иначе выпадают из выборки. Оставшиеся фирмы не совсем обычны в том же смысле, что и в предыдущем примере об участниках программы JTPA. В подобных случаях оценки методом наименьших квадратов регрессии показателя производительности на регрессоры (какие бы то ни было) подвержены разновидности смещения из-за отбора наблюдений, называемой смещением выживших (survivorship bias). В этом случае распределение зависимой переменной, показателя производительности фирм, для оставшихся систематически выше, чем по выборке фирм в целом. Этот феномен также известен как смещение из-за усечения выборки (truncation bias). В клинических испытаниях и других статистических исследованиях по изучению влияния препаратов на здоровье пациентов исследуемые могут выпадать из выборки в связи с самим влиянием препарата — так, при исследовании жизненно важных препаратов, таких как лекарства от рака, пациент может выбыть как по причине выздоровления и нежелания принимать далее участие в исследовании, так и по причине смерти или потери дееспособности. В статистическом анализе часто говорят о смещении из-за истощения выборки (attrition bias). Те же соображения могут влиять и на анализ других исследований, связанных со здравоохранением. Так, например, в работе (Contoyannis, Jones, Rice (2004)) изучались самооценки здоровья по протяженному набору панельных данных из обследования домохозяйств Великобритании (British Household Panel Data). Каждый год существенное число наблюдений пропадает и в результате выборка истощается к концу периода наблюдений. Во всех перечисленных в примере 8.1 случаях термин «смещение» обозначает тот факт, что оценка методом наименьших квадратов (или какой- нибудь его модификацией) является несостоятельной (постоянно смещенной) оценкой коэффициентов интересующей нас модели. Несмотря на то что причина этого меняется от задачи к задаче, в конечном счете все сводится к эндогенности ряда переменных в правой части, что, в свою очередь, означает корреляцию между регрессорами и шоками. В широком смысле мы можем выделить следующие эффекты: • пропущенные переменные, как наблюдаемые, так и ненаблюдаемые, • эффекты отдачи, • динамические эффекты, 8.2. Предположения расширенной модели 269 • эффекты, вызванные эндогенностью выборки, и т.д. Можно выделить два общих решения для построения состоятельной оценки. В некоторых случаях можно построить более аккуратную, «структурную» спецификацию модели. Обычно для этого требуется привлечение дополнительных уравнений, объясняющих корреляцию между x и , после чего ε i i становится возможным оценить все интересующие нас параметры. Некоторые такие модели мы рассмотрим в следующих главах, включая, например, модель Хекмана, учитывающую проблему отбора наблюдений (см. Heckman (1979)), в главе 19. Другим подходом, становящимся все более популярным в современных исследованиях, является метод инструментальных переОн основывается на следующих соображениях. Предположим, что менных. K модели (8-1) переменных из вектора x могут быть коррелированы с ε . i i Предположим также, что существуют L переменных z такие, что z корреi с x , но не коррелируют с . Пользуясь привычным нам методом ε i i наименьших квадратов, мы не сможем получить состоятельную оценку параметра β. Однако из сделанных предположений о z , x и ε можно вывести i i i ряд соотношений, которые позволят нам построить состоятельную оценку нашего параметра. В этой главе мы подойдем к методу инструментальных переменных как к обобщению моделей и оценок, рассматривавшихся ранее, в главах 2–7. В разделе 8.2 мы строго сформулируем модель, которая будет оцениваться в дальнейшем. В разделе 8.3 изучим метод инструментальных переменных (instrumental variables, IV) и двухшаговый метод наименьших квадратов (two-stage least squares, 2SLS). В разделе 8.4 рассматриваются два теста на спецификацию модели. В разделе 8.5 мы в деталях изучим пример, в котором оценивание происходит при ошибке измерения. В разделе 8.6 рассмотрим нелинейные модели и начнем изучение обобщенного метода моментов (generalized method of moments, GMM). IV-оценивание — это мощный инструмент, который очень часто используется в современных эмпирических исследованиях. В разделе 8.7 рассмотрен недостаток этого метода — проблема слабых инструментов (problem of weak instruments). Наконец, раздел 8.8 посвящен некоторым замечаниям об инструментальных переменных и рассмотрению вопроса о наличии причинных эффектов. В этой главе рассматриваются фундаментальные результаты IV-оценивания. Использование этого метода в различных задачах будет встречаться нам много раз в дальнейшем, в том числе в главе 10, посвященной системам уравнений, в главе 11, посвященной панельным данным, и в главе 13, посвященной обобщенному методу моментов. 8.2. Предположения расширенной модели Предположения линейной регрессионной модели, введенные в главах 2 и 4, заключались в следующем. A.1. Линейность. · · · y = x β + x β + + x β + ε . i i1 1 i2 2 iK K i A.2. Полный ранг. данных X имеет полный ранг по столбn×K-матрица 270 Глава 8. Эндогенность и метод инструментальных переменных A.3. Экзогенность независимых переменных. |x E[ε , x , . . . , x ] = i j1 j2 jk Независимые переменные не коррелированы с шоками. = 0, i, j = 1, . . . , n. A.4. Гомоскедастичность и отсутствие автокорреляции. Каждый шок 2 имеет одинаковую конечную дисперсию и не коррелирован с любым ε σ i другим шоком условно относительно X. ε j A.5. Случайные и неслучайные данные. (x , x , . . . , x ), i = 1, . . . , n. i1 i2 iK A.6. Нормальное распределение. Шоки распределены нормально. Мы также продолжаем считать выполненным важный результат, что plim . Тем не менее мы несколько изменим основные предполо(X X/n) = Q xx жения модели. Во-первых, предположение A.3 (отсутствие автокорреляции между x и теперь формулируется как ε) | A.I3. E[ε x ] = η . i i i Это предположение надо понимать в том смысле, что регрессоры теперь содержат некоторую информацию об ожидаемых шоках. Важным следствием A.I3 является наличие корреляции между регрессорами и шоками. Из предположения A.I3 следует, что (8-2) E[x ε ] = γ i i для некоторого ненулевого Если данные являются доброкачественными, γ. то мы можем применить теорему D.5 (теорему Хинчина) и получить, что (8-3) plim (1/n)X ε = γ. Заметим, что исходной модели соответствует случай Следствием (8η = 0. i 3) является то, что регрессоры X более не экзогенны. Теперь предположим, что мы располагаем дополнительным набором переменных Z, обладающих следующими двумя свойствами: 1) экзогенностью: они не коррелированы с шоками; 2) релевантностью: они коррелированы с независимыми переменными X. Более подробно эти предположения будут сформулированы по ходу изложения. В условиях представленной модели любые переменные, обладающие этими двумя свойствами, являются инструментальными. Предположим следующее: A.I7. являются i.i.d (н.о.р.) последовательностью [x , z , ε ], i = 1, . . . , n, i i i случайных величин. 2 A.I8a. ∞, конечная постоянная для E[x ] = Q < k = 1, . . . , K. xx,kk ik 2 A.I8b. ∞, конечная постоянная для E[z ] = Q < l = 1, . . . , L. zz,ll il ∞, A.I8c. E[z x ] = Q < конечная постоянная для l = 1, . . . , L, il ik zx,lk k = 1, . . . , K. A.I9. | E[ε z ] = 0. i i В дальнейшем при рассмотрении моделей временных рядов нам потребуется ослабить предположение A.I7. Конечность средних для z следует из l предположения A.I8b. Аналогично разделу 4.4 мы можем получить конечную положительно определенную матрицу plim (1/n)Z Z = Q , zz (доброкачественность данных), 8.2. Предположения расширенной модели 271 конечную × ранга (релевантность), plim (1/n)Z X = Q , L K-матрицу K zx (экзогенность). plim (1/n)Z ε = 0 До сих пор при формулировании модели регрессии мы рассматривали частный случай η = 0, откуда следовало, что γ = 0. Здесь нет необходиi отказываться от предположения A.I7 (оно может продолжать выполняться), однако в этом частном случае оно становится несущественным. На данный момент мы предположим, что т.е. количество инструменL = K, тальных переменных совпадает с количеством переменных в правой части уравнения. Напомним, что во введении и в примере 8.1 мы разделяли вектор переменных x в правой части уравнения (8.1) на два подвектора: x из 1 K экзогенных переменных и x из K эндогенных переменных. На практике 1 2 2 почти всегда «проблема эндогенности» возникает для одной или нескольких переменных из x. В работе Крюгер и Дэйла (Kreuger, Dale (1999)), посвященной изучению эндогенных эффектов воздействия (см. пример 8.1), возникала единственная эндогенная переменная в уравнении — дамми-переменная воздействия T. При постановке задачи мы в таких случаях будем считать, K что переменных из x входят в набор инструментальных переменных Z, 1 1 а оставшиеся K переменных являются экзогенными, не совпадающими с 2 переменными из x . Обычная интерпретация в этом случае состоит в том, 2 что эти K переменных, z , являются «инструментами x », в то время как 2 2 2 x -переменные служат инструментами для самих себя. Продолжая рассмат1 пример, матрица Z для эндогенных эффектов воздействия в модели будет включать K столбцов матрицы X и дополнительную инструмен1 переменную z для дамми-переменной воздействия. В модели одновременных уравнений спроса и предложения эндогенной переменной в правой части уравнения является price (цена), а к экзогенным переменx = 2 ным относятся (1, Income) (доход). Можно предположить (и вполне справедливо), что для этой модели в качестве набора инструментальных переменIncome, InputPrice) ных можно рассмотреть z = (1, (цены факторов производства). Из соотношений между переменными в модели следует, что этот интуитивный выбор приведет к разумному результату. Тем не менее по причинам, которые станут ясны чуть позже, нам нужно статистически рассматривать Z как инструмент к полному набору переменных X. Есть еще один тонкий момент в использовании инструментальных переменных, который мы также рассмотрим чуть ниже. Условие релевантности должно представлять выражение в терминах условной корреляции. Вернемся к примеру с эффектами воздействия и предположим, что z является T. инструментальной переменной для дамми-переменной воздействия Из сформулированного условия релевантности следует, что корреляция между z и (x, T) является ненулевой. Формально для нас требуется, чтобы условная корреляция между z и T|x была ненулевой. На этот факт можно взглянуть z с точки зрения проекций: инструментальная переменная является релевантной, если коэффициент при z в регрессии T на (x, z) является ненулевым. На интуитивном уровне z должна давать информацию об изменении T, которая является новой к той информации, которую дают переменные x, уже присутствующие в модели. 8.3. Оценка 273 Таким образом, Z y Z X Z ε Z X plim = plim β + plim = plim β. (8-5) n n n n Мы предположили, что Z содержит столько же переменных, сколько X. Так, можно рассмотреть функцию потребления, для которой x = [1, Y ], t t а Мы предположили, что ранг матрицы равен поэтому z = [1, Y ]. Z X K, t t−1 является квадратной матрицей. Отсюда получаем, что Z X −1 Z X Z y plim plim = β, (8-6) n n что приводит нас к оценке методом инструментальных переменных (instrumental variable estimator) −1 b = (Z X) Z y. IV Мы уже доказали, что оценка состоятельна. Теперь мы заинтересованы b IV в выводе ее асимптотического распределения. Мы будем действовать так же, как в подразделе 4.4.2. Рассмотрим величину √ Z X 1 − −1 √ n(b β) = Z ε, IV n n √ −1 которая имеет то же предельное распределение, что и Q [(1/ n)Z ε]. Ве√ быть исследована так же, как в подраз(1/ n)Z ε (1/ n)X ε деле 4.4.3, откуда следует, что 1 d 2 √ Z ε −→ N 0, σ Q , zz n −1 Z X 1 d 2 −1 −1 √ и Z ε −→ N 0, σ Q Q Q . zz zx xz n n Этот шаг завершает доказательство следующей теоремы. Асимптотическое распределение оценки метода инструменТеорема 8.1. тальных переменных Если выполняются предположения A.1, A.2, A.I3, A.4, A.5, A.I7, A.I8a–c и A.I9 для где z является подходящим набором из [y , x , z , ε ], L = i i i i инструментальных переменных, то асимптотическое распределение K −1 оценки методом инструментальных переменных b = (Z X) Z y IV задается как 2 σ a −1 −1 ∼ (8-7) b N β, Q Q Q , IV zz zx xz n где и Q = plim(Z X/n) Q = plim(Z Z/n). zx zz Для оценки асимптотической ковариационной матрицы нам требуется 2 оценка параметра σ . Естественной оценкой будет 274 Глава 8. Эндогенность и метод инструментальных переменных n 1 2 2 − σ ˆ = (y x b ) . i IV i n i=1 Коррекция на число степеней свободы будет излишней, поскольку все ре2 здесь асимптотические и ни в каком случае нельзя считать несмеσ (Тем не менее в большинстве компьютерных пакетов делается коррекция на число степеней свободы.) Запишем вектор остатков как −1 − − y Xb = y X(Z X) Z y. IV Подставим y = Xβ + ε и перегруппируем члены, чтобы получить ε ˆ = [I− −1 −X(Z Тогда X) Z ]ε. −1 −1 ε ˆ ε ˆ ε ε ε Z X Z X X Z X Z ε 2 − σ ˆ = = + n n n n n n n −1 ε X Z X Z ε − 2 . n n n Ранее мы показали, что можно (после некоторых преобразований) применить результат о произведении пределов по вероятности для того, чтобы получить предел по вероятности подобного выражения. Опуская формальный 2 2 вывод, мы получаем, что σ ˆ является состоятельной оценкой параметра σ из-за первого слагаемого. Второе и третье слагаемые сходятся к нулю. Для завершения нашего вывода нам осталось оценить Asy. Var[b как ] IV −1 −1 1 ε ˆ ε ˆ Z X Z Z X Z Est. Asy. Var[b ] = = IV n n n n n (8-8) −1 −1 2 = σ ˆ (Z X) (Z Z)(X Z) . 8.3.3. Причины, приводящие к методу инструментальных переменных При получении IV-оценки мы искали решения уравнений в (8.5): plim(Z y/n) = plim(Z X/n)β или Q = Q β. Zy ZX K IV-оценка получалась как решение этой системы из моментных уравне−1 Поскольку здесь набор из K уравнений с K неизвестными, то если Q ZX существует, то существует ровно одно решение для задаваемое (8-6). Соβ, моментные уравнения, если использовать только матрицу X, приводят к plim(X y/n) = plim(X X/n)β + plim(X ε/n) = plim(X X/n)β + γ или Q = Q β + γ, Xy XX 278 Глава 8. Эндогенность и метод инструментальных переменных кривой спроса. Напомним, что рассматриваем функцию множественной регрессии и доход включен как условная переменная в уравнение. (2) Теперь мы сосредоточим наше внимание на одном из наборов данных по спросу (например, D2) и будем двигать кривую предложения. В этом случае точки равновесия будут образовывать функцию спроса. Таким образом, мы получили функцию от изменяющихся цен факторов производства (InputPrice), которая и будет инструментом для идентификации функции (или функций) спроса в нашем эксперименте. Цена Цена S 1 S 2 S 3 D 3 D 2 D 1 Количество Количество (a) (b) Цена Цена S 1 S 1 S 2 S 2 S 3 S 3 D 3 D D 3 2 D 2 D D 1 1 Количество Количество (c) (d) Рис. 8.1. Идентификация кривой спроса с помощью инструментальных переменных 8.3.4. Двухшаговый метод наименьших квадратов До сих пор мы предполагали, что число инструментальных переменных в Z то же, что и число переменных (экзогенных и эндогенных) в X. (Обычно исследователю необходима одна инструментальная переменная для единственной эндогенной переменной в его уравнении. Тем не менее иногда бывает, что данные содержат дополнительные инструменты.) Вернемся в рыночному равновесию, рассмотренному в примерах 8.1 и 8.4. Предположим, что это был рынок сельскохозяйственных товаров с двумя экзогенными факторами условий для предложения: ценами факторов производства InputPrice и количеством осадков Rainfall. Тогда уравнения модели имеют вид 8.3. Оценка 279 (спрос) Quantity = α + α P rice + α Income + ε , D 0 1 2 D (предложение) Quantity = β + β P rice + β InputP rice + β Rainf all + ε , S 0 1 2 3 S (равновесие) Quantity = Quantity . D S Ориентируясь на подход, предложенный в примере 8.4, кажется естественным выбрать одну из двух экзогенных переменных из уравнения предложения в качестве инструмента для идентификации уравнения спроса. (Мы вернемся к вопросу об идентификации уравнения предложения в подразделе 8.4.2.) Интуитивно ясно, что, ограничивая себя лишь частью множества всех доступных инструментов, мы теряем часть нужной информации. Таким образом, представляется совершенно ясным, что надо как-то использовать всю матрицу Z даже при L > K. Двухшаговый метод наименьших квадратов призван решить проблему использования всей информации, содержащейся в выборке, когда Z содержит более чем необходимое число переменных для построения IV-оценки. Если Z содержит больше переменных, чем X, то предыдущие рассуждения не получится использовать, поскольку матрица будет иметь размер Z X × с рангом и не будет обратима. Существенным из полученL K K < L ных результатов остается условие plim(Z Таким образом, кажε/n) = 0. дый столбец Z асимптотически не коррелирован с ε. Отсюда также следует, что любая линейная комбинация столбцов Z будет не коррелирована с ε, что приводит нас к новому подходу: составить линейных комбинаций из K столбцов Z. Однако какие именно комбинации выбрать? Одной из очевидных возможностей, минусы которой мы обсуждали выше, является простой выбор каких-нибудь K переменных из L, содержащихся в Z. Выкидывание информации, содержащейся в «дополнительных» − столбцах, оборачиL K вается неэффективностью оценки. Лучший способ представляет собой проекцию столбцов в пространство, порожденное столбцами X Z: ˆ −1 X = Z(Z Z) Z X. Чуть ниже мы обсудим плюсы такого выбора. При таком выборе инструменˆ переменных, вместо Z, получаем X ˆ −1 ˆ −1 −1 −1 b = ( X X) X y = [X Z(Z Z) Z X] X Z(Z Z) Z y. (8-9) IV 2 Оценкой асимптотической ковариационной матрицы будет σ ˆ , умноженная на матрицу в скобках в формуле (8-9). Доказательство состоятельности и асимптотической нормальности этой оценки проводится так же, как и раньше, так как это доказательство остается верным для любого набора допустиˆ инструментов, к каковым относятся X. Есть две причины для использования этой оценки: теоретическая и практическая. Если какой-то из столбцов матрицы X встречается и в матрице Z, ˆ то этот же столбец матрицы X возникает и в матрице Это несложно поX. Если в выражении для столбец матрицы X является одним из X k-й −1 столбцов матрицы Z (например, l-м), то k-й столбец матрицы (Z Z) Z X будет совпадать с столбцом × идентифицирующей матрицы. Таким l-м L L ˆ −1 образом, столбец матрицы будет столбцом матриk-й = Z(Z Z) Z X l-м цы Z, который является столбцом матрицы X. Это полезный и важный k-м результат. Рассмотрим типичный пример. Пусть регрессия насчитывает K 282 Глава 8. Эндогенность и метод инструментальных переменных Union = 1, если зарплата индивида назначена по профсоюзному (union) контракту, 0, если иначе, Ed число лет образования (education), = Fem 1 для женщин (female), 0, если иначе, = Blk = 1 для черных (black), 0, если иначе. Данные приведены в табл. F8.1 приложения. Наибольший интерес в исследовании, помимо сравнения различных методов оценивания, представляет коэффициент — отдача от образования. Это уравнение β 11 рассматривается в усеченной (редуцированной) форме (reduced form equation): оно включает все необходимые переменные, но не специфицирует структурные связи между ними. Напротив, модель, состоящая из трех уравнений, определенная в подразделе 8.3.4, носит название структурная система уравнений (structural equation system). Усеченная форма для этой модели будет состоять из отдельных регрессий Price (цены) и Quantity Income, InputPrice, Rainfall). (выпуска) на (1, Мы вернемся к методам усеченных форм при рассмотрении моделей одновременных уравнений в главе 10. На настоящий момент из предложенной модели следует, что уравнение равновесия рынка показывает взаимодействие между спросом и предложением на рынке труда. Возможно рассмотреть рынок с точки зрения предложения труда. Уравнение предложения труда со стороны домохозяйств может иметь следующий вид: W ks = γ + γ ln Wage + γ Ed + γ Union + γ F em + u . it 1 2 it 3 i 4 it 5 i it (В принципе можно рассмотреть и другой набор переменных в правой части уравнения.) Структурные уравнения более сложно специфицировать, чем их усеченные формы. Если количество отработанных недель и принятая заработная плата определяются совместно, то в этом уравнении lnWage и u коррелированы. Мы рассмотрим две оценки инструментальit it ных переменных, основанные на наборе переменных: Z = [1, Ind , Ed , Union , Fem ] 1 it i it i и Z = [1, Ind , Ed , Union , Fem , SMSA ]. 2 it i it i it На рис. 8.1 показаны три набора оценок. Оценка методом наименьших квадратов вычисляется при помощи стандартных методов, рассмотренных в главах 3 и 4. Одним из примечательных фактов является малость коэффициентов при переменной логарифма зарплаты. Второй набор оценок — это оценки методом инструментальных переменных, рассмотренным в подразделе 8.3.2. Заметим, что здесь мы используем единственный инструмент . Как и ожидалось, коэффициент при Ind it логарифме заработной платы существенно выше. Оставшиеся коэффициенты, однако, несколько противоречат нашим представлениям. В принципе все три коэффициента отличаются от ожидаемых. Третий набор коэффициентов получен с помощью двухшагового метода наименьших квадратов, основанного на более широком наборе инструментальных переменных. В этом случае используются оба инструмента, SMSA и Ind. 8.4. Два теста на спецификацию модели 283 Таблица 8.1. Оцененное уравнение спроса на труд OLS IV с IV с Z Z 1 2 Переменная Оценка Станд. Оценка Станд. Оценка Станд. ошибка ошибка ошибка Константа 4,7665 1,2153 8,8987 13,0590 0,7044 4,9997 ln Wage 0,7326 0,1972 5,1828 2,2454 3,1518 0,8572 Education −0,1532 0,03206 −0,4600 0,1578 −0,3200 0,06607 Union −1,9960 0,1701 −2,3602 0,2567 −2,1940 0,1860 −1,3498 −0,2378 Female 0,2642 0,6957 1,0650 0,4679 8.4. Два теста на спецификацию модели В нашей модели есть два момента, которые мы хотели бы скорее проверить, чем сразу постулировать их. Во-первых, как будет видно из вывода в подразделе 8.4.1, из двух рассмотренных оценок, методом наименьших квадратов и методом инструментальных переменных, оценка методом наименьших квадратов значительно более эффективна. IV-оценка, однако, является робастной: она состоятельна независимо от выполнения условия plim(X Тем не менее если условие выполняется, т.е. если ε/n) = 0. γ = 0, то оценка наименьших квадратов будет лучше, поскольку она имеет мень2 дисперсию . По этой причине, а к тому же желая проверить верность спецификации теоретической модели, мы заинтересованы в тесте, который бы давал некоторую информацию о смещении оценки наименьших квадратов. Во-вторых, при использовании оценки двухшаговым методом наименьших квадратов при L > K, т.е. с «дополнительными» инструментами, мы имеем − ограничений на соотношения между переменными L K в модели. Как может быть видно из нашего вывода, если X насчитывает K переменных, некоторые из которых могут быть эндогенными, то должно K насчитываться не менее переменных в Z, чтобы параметры модели могли быть идентифицированы, т.е. чтобы с помощью информации в модели получить состоятельные оценки параметров. Если же у нас наблюдается избыток инструментов, то мы накладываем дополнительные, в общем- то излишние ограничения на процесс порождения данных. Вернемся еще раз к примеру рынка сельскохозяйственной продукции, рассмотренному в конце подраздела 8.3.3. В этой постановке вопроса, конечно, совершенно безопасно предположить, что переменная Rainfall (количество осадков) является экзогенным событием, которое не коррелирует с шоками уравнения спроса. Однако вполне возможно предположить, что вызванное взаимодействие рынков может быть таково, что InputPrice (цены факторов производства) могут быть коррелированы с шоками в уравнении спроса. На рынке 2 Возможна, конечно, ситуация, что оценка наименьших квадратов, будучи несостоятельной, все равно будет более точной. Если LS лишь немного смещена, но имеет меньшую дисперсию, чем IV, то по критерию ожидаемого квадрата ошибки, дисперсия плюс квадрат смещения, оценка наименьших квадратов все равно предпочтительнее IV-оценки. 8.4. Два теста на спецификацию модели 285 − . В условиях нулевой гипотезы в то время как при d = b b plim d = 0, IV LS альтернативе Используя тот же подход, что и в нескольких местах plim d = 0. ранее, мы можем проверить эту гипотезу с помощью статистики Вальда: −1 H = d Est.Asy. V ar[d] d. Асимптотическая ковариационная матрица, требуемая для этого теста, равна − − Asy.Var[b b ] = Asy.Var[b ] + Asy.Var[b ] IV LS IV LS −Asy.Cov[b − , b ] Asy.Cov[b , b ]. IV LS LS IV Теперь тест можно было бы провести непосредственно, но ситуация усложняется тем, что у нас нет выражения для члена ковариации. Хаусманом был получен фундаментальный результат, который позволяет нам применить этот подход. Слегка видоизмененный, он звучит так: Ковариация между эффективной оценкой, , вектора параметров и разb между ней и неэффективной оценкой того же вектора параметров, b I − , равна нулю. b b E I Определение 8.1. В нашем случае — это , а — это . Согласно b b b b E LS I IV результату Хаусмана мы получаем Cov[b , b − b ] = Var[b ] − Cov[b , b ] = 0 E E I E E I или Cov[b , b ] = Var[b ], E I E поэтому − − Asy.Var[b b ] = Asy.Var[b ] Asy.Var[b ]. IV LS IV LS Подставляя этот полезный результат в наше выражение для статистики Вальда и возвращаясь к эмпирическим оценкам этих соотношений, мы получаем − − − − H = (b b ) Est.Asy.Var[b ] Est.Asy.Var[b ] 1(b b ). IV LS IV LS IV LS В условиях нулевой гипотезы у нас есть две разные, но состоятельные 2 2 оценки параметра . Если мы будем использовать как более общеσ оценку, статистика превратится в −1 −1 −1 ˆ ˆ d X X − (X X) d H = . 2 s 286 Глава 8. Эндогенность и метод инструментальных переменных Возникает желание применить теорему о квадратичной форме полного ранга и нормальном векторе и сказать, что асимптотическое распределение нашей статистики есть хи-квадрат с K степенями свободы. Однако здесь этот метод не годится, и, более того, если только X и Z не имеют общих переменных, ранг матрицы в этой статистике меньше K, и обычная обратная матрица не существует. В большинстве случаев какие-то из переменных X входят в Z. (Почти в любой ситуации X и Z содержат константу.) Таким образом, известно, что некоторые из переменных X не коррелированы с шоками. Например, часто бывает, что существует единственная переменная, являющаяся проблемной или измеренная с ошибкой. В этом случае наша гипотеза не затрагивает все K переменных, потому что plim(1/n)X ε = 0 известно, что часть элементов этого вектора (скажем, K ) равна нулю. Та0 образом, квадратичная форма в тесте Вальда тестирует лишь K = K− −K гипотез. Легко (и достаточно полезно) показать, что на самом деле H 0 ∗ −1 является квадратичной формой ранга . Поскольку матрица K Z(Z Z) Z ˆ ˆ ˆ является идемпотентной, то Используя это и расписывая d, ( X X) = X X. получаем ˆ ˆ −1 ˆ −1 − d = ( X X) X y (X X) X y ˆ ˆ −1 ˆ