Данные панели

Эта статья включает в себя список общих ссылок , но он остается в основном непроверенным, поскольку в нем отсутствуют соответствующие встроенные ссылки . Пожалуйста, помогите улучшить эту статью, добавив более точные цитаты. ( Июнь 2020 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

В статистике и эконометрике , панельных данных и продольных данных ^[1]^[2] являются многомерные данные , включающие измерения с течением времени. Панельные данные - это подмножество продольных данных, в которых каждый раз наблюдаются одни и те же объекты.

Временные ряды и данные поперечного сечения можно рассматривать как особые случаи панельных данных, которые находятся только в одном измерении (один член панели или отдельное лицо для первого, одна временная точка для последнего).

Исследование, в котором используются панельные данные, называется лонгитюдным исследованием или панельным исследованием.

Пример [ править ]

Сбалансированная панель MRPP
человек	год	доход	возраст	секс
1	2016 г.	1300	27	1
1	2017 г.	1600	28	1
1	2018 г.	2000 г.	29	1
2	2016 г.	2000 г.	38	2
2	2017 г.	2300	39	2
2	2018 г.	2400	40	2

Несбалансированная панель MRPP
человек	год	доход	возраст	секс
1	2016 г.	1600	23	1
1	2017 г.	1500	24	1
2	2016 г.	1900 г.	41 год	2
2	2017 г.	2000 г.	42	2
2	2018 г.	2100	43	2
3	2017 г.	3300	34	1

В приведенном выше примере процедуры перестановки множественных ответов ( MRPP ) показаны два набора данных с панельной структурой, и цель состоит в том, чтобы проверить, есть ли существенная разница между людьми в выборке данных. Индивидуальные характеристики (доход, возраст, пол) собираются для разных лиц и разных лет. В первом наборе данных два человека (1, 2) наблюдаются ежегодно в течение трех лет (2016, 2017, 2018). Во втором наборе данных три человека (1, 2, 3) наблюдаются два раза (человек 1), три раза (человек 2) и один раз (человек 3), соответственно, в течение трех лет (2016, 2017, 2018). ; в частности, лицо 1 не наблюдается в 2018 году, а лицо 3 не наблюдается в 2016 или 2018 году.

Сбалансированная панель (например, первый набор данных выше) представляет собой набор данных , в котором каждый наблюдается член группы (т.е. человек) каждый год. Следовательно, если сбалансированная панель содержит N членов панели и Т периоды, число наблюдений ( п ) в наборе данных обязательно $п = N \times T$ .

Несбалансированная панель (например, второй набор данные выше) представляет собой набор данных , в котором по меньшей мере один член группы не наблюдается каждый период. Поэтому, если несбалансированная панель содержит N членов панели и Т периоды, то следующее строгое неравенство имеет место для числа наблюдений ( п ) в наборе данных: $п < N \times T$ .

Оба набора данных выше структурированы в длинном формате , в котором одна строка содержит одно наблюдение за раз. Другой способ структурировать данные панели - это широкий формат, где одна строка представляет одну единицу наблюдения для всех моментов времени (например, широкий формат будет иметь только две (первый пример) или три (второй пример) строки данных с дополнительными столбцы для каждой переменной, меняющейся во времени (доход, возраст).

Анализ [ править ]

Панно имеет вид

{\ displaystyle X_ {it}, \ quad i = 1, \ dots, N, \ quad t = 1, \ dots, T,}

где - индивидуальное измерение, а - измерение времени. Общая регрессионная модель панельных данных записывается как Различные предположения могут быть сделаны относительно точной структуры этой общей модели. Два важная моделью является фиксированной моделью эффектов и модель случайных эффектов . ${\ displaystyle i}$ ${\ displaystyle t}$ ${\ displaystyle y_ {it} = \ alpha + \ beta 'X_ {it} + u_ {it}.}$

Рассмотрим типичную модель панельных данных:

{\ displaystyle y_ {it} = \ alpha + \ beta 'X_ {it} + u_ {it},}

{\ displaystyle u_ {it} = \ mu _ {i} + v_ {it}.}

${\ Displaystyle \ mu _ {я}}$ являются индивидуальными, не зависящими от времени эффектами (например, в группе стран это может включать географию, климат и т. д.), которые фиксируются во времени, тогда как это изменяющийся во времени случайный компонент. ${\ displaystyle v_ {it}}$

Если не наблюдается и коррелирует хотя бы с одной из независимых переменных, это вызовет смещение пропущенной переменной в стандартной регрессии OLS . Однако методы панельных данных, такие как оценщик фиксированных эффектов или, в качестве альтернативы, оценщик первой разности могут использоваться для его контроля. ${\ Displaystyle \ mu _ {я}}$

Если не коррелирует ни с одной из независимых переменных, можно использовать обычные методы линейной регрессии наименьших квадратов для получения несмещенных и согласованных оценок параметров регрессии. Однако, поскольку фиксируется с течением времени, это вызовет последовательную корреляцию в члене ошибки регрессии. Это означает, что доступны более эффективные методы оценки. Случайные эффекты - один из таких методов: это частный случай возможных обобщенных наименьших квадратов, который контролирует структуру последовательной корреляции, вызванной . ${\ Displaystyle \ mu _ {я}}$ ${\ Displaystyle \ mu _ {я}}$ ${\ Displaystyle \ mu _ {я}}$

Данные динамической панели [ править ]

Данные динамической панели описывают случай, когда в качестве регрессора используется запаздывание зависимой переменной:

{\ displaystyle y_ {it} = \ alpha + \ beta 'X_ {it} + \ gamma y_ {it-1} + u_ {it},}

Наличие запаздывающей зависимой переменной нарушает строгую экзогенность , то есть может иметь место эндогенность . Оценка фиксированного эффекта и первая оценка разностей основываются на предположении о строгой экзогенности. Следовательно, если предполагается, что она коррелирует с одной из независимых переменных, необходимо использовать альтернативный метод оценки. В этой ситуации обычно используются инструментальные переменные или методы GMM, такие как оценка Ареллано – Бонда . ${\ displaystyle u_ {i}}$

Наборы данных с панельным дизайном [ править ]

Мониторинг состояния здоровья в России (RLMS)
Немецкая социально-экономическая группа (SOEP)
Обследование домохозяйств, доходов и динамики труда в Австралии (HILDA)
Британское панельное обследование домохозяйств (BHPS)
Исследование доходов и занятости семьи (SoFIE)
Обзор доходов и участия в программах (SIPP)
База данных о рынке труда на протяжении всей жизни (LLMDB)
Лонгитюдные интернет-исследования для социальных наук (LISS )
Панельное исследование динамики доходов (PSID)
Корейское панельное исследование труда и доходов (KLIPS)
Китайские семейные панельные исследования (CFPS)
Немецкая семейная панель (pairfam)
Национальные лонгитюдные исследования (NLSY)
Обследование рабочей силы (ОРС)
Корейская молодежная группа (YP)
Корейское лонгитюдное исследование старения (KLoSA)

Наборы данных с многомерной панелью [ править ]

Примечания [ править ]

^ Диггл, Питер Дж .; Хигерти, Патрик; Лян, Кунг-Йи; Зегер, Скотт Л. (2002). Анализ продольных данных (2-е изд.). Издательство Оксфордского университета. п. 2 . ISBN 0-19-852484-6.
^ Фитцморис, Гаррет М .; Laird, Nan M .; Уэр, Джеймс Х. (2004). Прикладной лонгитюдный анализ . Хобокен: Джон Уайли и сыновья. п. 2. ISBN 0-471-21487-6.

Ссылки [ править ]

Балтаги, Бади Х. (2008). Эконометрический анализ панельных данных (Четвертое изд.). Чичестер: Джон Уайли и сыновья. ISBN 978-0-470-51886-1.
Дэвис, А .; Лахири, К. (1995). «Новая структура для проверки рациональности и измерения совокупных шоков с использованием панельных данных». Журнал эконометрики . 68 (1): 205–227. DOI : 10.1016 / 0304-4076 (94) 01649-K .
Дэвис, А .; Лахири, К. (2000). «Пересмотр гипотезы рациональных ожиданий с использованием панельных данных по многопериодным прогнозам». Анализ панелей и моделей с ограниченными зависимыми переменными . Кембридж: Издательство Кембриджского университета. С. 226–254. ISBN 0-521-63169-6.
Фрис, Э. (2004). Лонгитюдные и панельные данные: анализ и применение в социальных науках . Нью-Йорк: Издательство Кембриджского университета. ISBN 0-521-82828-7.
Сяо, Ченг (2003). Анализ панельных данных (второе изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 0-521-52271-4.

Внешние ссылки [ править ]

PSID
KLIPS
пара
Исследование занятости в Корее

[1] Диггл, Питер Дж .; Хигерти, Патрик; Лян, Кунг-Йи; Зегер, Скотт Л. (2002). Анализ продольных данных (2-е изд.). Издательство Оксфордского университета. п. 2 . ISBN 0-19-852484-6.

[2] Фитцморис, Гаррет М .; Laird, Nan M .; Уэр, Джеймс Х. (2004). Прикладной лонгитюдный анализ . Хобокен: Джон Уайли и сыновья. п. 2. ISBN 0-471-21487-6.

[1]