uzluga.ru
добавить свой файл


Фиктивные Переменные


Фиктивная переменная (ФП) – это переменная, которая принимает два различных значения.

  • Фиктивная переменная (ФП) – это переменная, которая принимает два различных значения.

  • Эти различные значения могут быть любыми числами, но в целях удобства интерпретации это всегда

  • 0 и 1.



ФП используются для ввода в модель регрессии качественных и категориальных факторов.



ФП для качественного фактора, принимающего два значения. Модель без взаимодействия.



  • На фактор Y, кроме количественных факторов X2, X3, …, Xk, воздействует качественный фактор, который принимает два значения (имеет две категории):

  • А и Б,

  • или

  • А и не А.



Чтобы учесть влияние этого фактора, в модель вводят фиктивный фактор D.

  • Чтобы учесть влияние этого фактора, в модель вводят фиктивный фактор D.

  • для объектов, на

  • которых качественный

  • фактор принимает

  • значение А

  • для объектов, на

  • которых качественный

  • фактор принимает

  • значение не А



  • Или можно наоборот:

  • для …не А

  • для … А



Модель тогда имеет вид:

  • Модель тогда имеет вид:

  • Y = β1+ β2*X2 + … + βk*Xk + *D + u



Y = β1+ β2*X2 + … + βk*Xk + *D + u

  • Интерпретация коэффициента δ:

  • при любых фиксированных значениях факторов X2, X3, …, Xk значения фактора Y различаются в среднем на δ для объектов, на которых качественный признак D принимает и не принимает значение А.



Y = β1+ β2*X2 + … + βk*Xk + *D + u

  • Проверяя по t-тесту значимость δ, мы тем самым проверяем значимость или незначимость различия значений Y для объектов имеющих и не имеющих качество А.



ПРИМЕР 1.

  • ПРИМЕР 1.

  • Y – среднемесячное потребление семьи, в рублях.

  • X – среднемесячный доход семьи, в рублях.

  • Предполагается, что потребление зависит также от того, проживает ли семья в городе или в сельской местности.



Вводим ФП D. Пусть D=1 для семей из сельской местности и D=0 для городских семей.

  • Вводим ФП D. Пусть D=1 для семей из сельской местности и D=0 для городских семей.

  • Модель:

  • Y = β1 + β2*X + *D + u.

  • Модель оценивается по выборке n=30.



Ŷ = 3750 + 0,57*Х - 1230*D

  • Ŷ = 3750 + 0,57*Х - 1230*D

  • (1119) (0.22) (349)

  • Проверяем гипотезу:

  • H0: δ = 0

  • HA: δ  0

  • Гипотеза H0 отвергается при у.з. 1%.

  • Вывод: существует значимое различие в затратах на потребления для городских и сельских семей, имеющих одинаковый доход.



Сельские семьи тратят на потребление в среднем на 1230 рублей меньше, чем городские семьи, имеющие такой же доход.

  • Сельские семьи тратят на потребление в среднем на 1230 рублей меньше, чем городские семьи, имеющие такой же доход.



Замечание: в теоретической модели предполагается, что на изменение дохода городские и сельские семьи реагируют одинаково.

  • Замечание: в теоретической модели предполагается, что на изменение дохода городские и сельские семьи реагируют одинаково.

  • При каждом увеличении дохода на 1 руб. потребление обоих типов семей увеличивается в среднем на 0,57 рубля.



Ŷ = 3750 + 0,57*Х - 1230*D

  • Можно получить уравнения отдельно для сельских и городских семей.

  • Для городских D=0:

  • Ŷ = 3750 + 0,57*Х

  • Для сельских D=1:

  • Ŷ = 3750 + 0,57*Х - 1230 =

  • = 2520 + 0,57*Х.



Ŷ = 3750 + 0,57*Х - 1230*D



ПРИМЕР 2. Моделирование динамики импорта РФ в I кв. 1994 – III кв. 2000 г.

  • ПРИМЕР 2. Моделирование динамики импорта РФ в I кв. 1994 – III кв. 2000 г.

  • Если моделировать эту динамику без учета дефолта в III кв. 1998 г., то надо рассматривать модель:

  • Y = β1 + β2*t + u.

  • Оценка этой модели:

  • Ŷ = 16282,923 – 139,37*t

  • (1163.9) (63.44)



Оценка этой модели:

  • Оценка этой модели:

  • Ŷ = 16282,923 – 139,37*t

  • (1163.9) (63.44)

  • Интерпретация: в указанный период импорт в РФ сокращался в среднем на 139,37 млрд. долл. в квартал.





Однако реальная динамика совсем другая.

  • Однако реальная динамика совсем другая.

  • До дефолта импорт в основном рос, затем произошло его падение, но, начиная с точки падения, импорт опять изменялся по восходящей.

  • Причем темпы роста импорта до и после дефолта были примерно одинаковые.





Вводим ФП D:

  • Вводим ФП D:

  • D = 0 для периода I кв. 1994 – III кв. 1998

  • D = 1 для периода IV кв. 1998 – III кв. 2000.

  • Модель:

  • Y = β1 + β2*t + *D + u





Оценка модели:

  • Оценка модели:

  • Ŷ = 1284,0 + 314,9*t – 9881,2*D

  • (756,2) (64,5) (1184,2)

  • Т. е. за исключением одномоментного падения, импорт РФ рос в течение всего периода.



Уравнение для I кв. 1994 – III кв. 1998:

  • Уравнение для I кв. 1994 – III кв. 1998:

  • D = 0

  • Ŷ = 1284,0 + 314,9*t

  • Уравнение для IV кв. 1998 – III кв. 2000:

  • D = 1

  • Ŷ = 1284,0 + 314,9+t – 9881,2*1 =

  • = 2959,2 + 314,9*t





II. ФП для качественного фактора, принимающего более 2-х значений. Модель без взаимодействия.



Качественный фактор принимает p значений (имеет p категорий), и

  • Качественный фактор принимает p значений (имеет p категорий), и

  • p > 2.



Можно было бы ввести одну ФП, принимающую p различных значений.

  • Можно было бы ввести одну ФП, принимающую p различных значений.

  • Но в этом случае трудно интерпретировать коэффициенты при ФП.



Вводят p ФП, D1, D2, … , Dp, каждая из которых принимает два значения:

  • Вводят p ФП, D1, D2, … , Dp, каждая из которых принимает два значения:

  • 0 и 1.

  • Каждая такая ФП является индикатором объектов, на которых качественный фактор принимает одно из своих значений.



Одна из ФП объявляется эталонной и в модель не включается.

  • Одна из ФП объявляется эталонной и в модель не включается.

  • Т. е. в модель включаются не все p, а только p-1 фиктивных переменных.

  • Эталонной делают ФП – индикатор такой категории (значения качественного признака), с которой хотят сравнивать все остальные p-1 категорию.



Если, например, эталонной выбрали ФП D1, то модель имеет вид:

  • Если, например, эталонной выбрали ФП D1, то модель имеет вид:

  • Y = β1+ β2*X2 + … + βk*Xk + 2*D2 + … + p*Dp + u

  • Если в модель включить все p ФП D1, D2, … , Dp, то для любого объекта выборки будет выполняться:

  • D1 + D2 + … + Dp = 1

  • и будет иметь место совершенная МК D1, D2, … , Dp и свободного члена модели.



Пример 3.

  • Пример 3.

  • Y – з/п работника в р.

  • X – стаж работника в годах.

  • На з/п влияет также качественный фактор «уровень образования».

  • «Уровень образования» имеет 4 категории (4 значения): начальное, среднее, среднее специальное, высшее.



Вводим 4-е ФП: D1, D2, D3, D4.

  • Вводим 4-е ФП: D1, D2, D3, D4.

  • D1 = 1 для работников с начальным образованием,

  • D1 = 0 для остальных работников.

  • D2 = 1 для работников со средним образованием,

  • D2 = 0 для остальных.



D3 = 1 для работников со средним специальным образованием,

  • D3 = 1 для работников со средним специальным образованием,

  • D3 = 0 для остальных.

  • D4 = 1 для работников с высшим образованием,

  • D4 = 0 для остальных.



Выберем эталонной D2 – индикатор работников со средним образованием.

  • Выберем эталонной D2 – индикатор работников со средним образованием.

  • Модель:

  • Y = β1+ β2*X + 1*D1 + 3*D3 + 4*D4 + u.

  • Оценка по выборке n = 35 работников одной фирмы.



Ŷ = 2700 + 250*X – 1100*D1 + 900*D3 +1550*D4

  • Ŷ = 2700 + 250*X – 1100*D1 + 900*D3 +1550*D4

  • (99) (430) (1020) (610)

  • Интерпретация коэффициентов при ФП:

  • При одном и том же опыте работы (X) работники с начальным образованием получают в среднем на 1100 р. меньше, чем работники со средним образованием.



Ŷ = 2700 + 250*X – 1100*D1 + 900*D3 +1550*D4

  • Ŷ = 2700 + 250*X – 1100*D1 + 900*D3 +1550*D4

  • (99) (430) (1020) (610)

  • Различие в з/п работников со средним и средним спец. Образованием и одним и тем же стажем (Х) незначимо.

  • При одном и том же стаже работы (Х) работники с высшим образованием получают в среднем на 1550 р. больше, чем работники со средним образованием.



Ŷ = 2700 + 250*X – 1100*D1 + 900*D3 +1550*D4

  • Ŷ = 2700 + 250*X – 1100*D1 + 900*D3 +1550*D4

  • (99) (430) (1020) (610)

  • Уравнения для работников каждой из 4-х категорий.

  • Начальное образование: D1 = 1, D2=D3=D4 = 0:

  • Ŷ = 2700 + 250*X – 1100*1 = 1600 + 250*X.

  • Среднее образование: D2 = 1, D1=D3=D4 = 0:

  • Ŷ = 2700 + 250*X



Ŷ = 2700 + 250*X – 1100*D1 + 900*D3 +1550*D4

  • Ŷ = 2700 + 250*X – 1100*D1 + 900*D3 +1550*D4

  • (99) (430) (1020) (610)

  • Среднее спец.образование, D3=1,D1=D2=D4= 0:

  • Ŷ = 2700 + 250*X + 900*1 = 3600 + 250*Х.

  • Высшее образование, D4 = 1, D1=D2=D3 = 0:

  • Ŷ = 2700 + 250*X +1550*1 = 4250 + 250*Х.



Пример 4. Сезонные колебания.

  • Пример 4. Сезонные колебания.

  • Очень часто погодовым данным предпочитают помесячные или поквартальные, так как в этом случае размер выборки увеличивается в 12 или в 4 раза, а это хорошо для повышения точности оценок.



Но при использовании помесячных или поквартальных временных рядов на зависимость Y от Х (или от Х2, X3, … , Xk) начинает оказывать влияние фактор сезонности.

  • Но при использовании помесячных или поквартальных временных рядов на зависимость Y от Х (или от Х2, X3, … , Xk) начинает оказывать влияние фактор сезонности.

  • Пусть Yt зависит от Xt, значения Yt и Xt даны поквартально, и в изменениях Yt есть сезонные колебания.





Модель

  • Модель

  • Yt = β1+ β2*Xt + u

  • моделирует только тренд в зависимости Yt от Xt.

  • Для более точного моделирования изменений Yt надо использовать сезонные ФП: D1, D2, D3, D4, по одной для индикации каждого квартала.



Di = 1 для i-го квартала,

  • Di = 1 для i-го квартала,

  • Di = 0 для остальных трех кварталов.

  • i = 1, 2, 3, 4.

  • Далее надо выбрать эталонную ФП. Если это будет, например, D1, то модель будет иметь вид:

  • Y = β1 + β2*t + 2*D2 + 3*D3 + 4*D4 + ε,

  • а ее оценка по выборке:



Ŷt= b1 + b2*t + d2*D2 + d3*D3 +d4*D4 (*)

  • Ŷt= b1 + b2*t + d2*D2 + d3*D3 +d4*D4 (*)

  • Каждый di (i=1,2,3,4) из (*) оценивает, насколько при фиксированном Xt значение Yt в квартале i отличается от значения Yt в 1-м эталонном квартале.

  • Проверка значимости i (i=1,2,3,4) проверяет, значимо ли это отличие.



F-тест для гипотезы:

  • F-тест для гипотезы:

  • H0: 2 = 3 = 4=0

  • HA: не H0

  • определяет, значимы ли сезонные изменения Yt.



Из основного уравнения могут быть получены уравнения для каждого квартала.

  • Из основного уравнения могут быть получены уравнения для каждого квартала.

  • I кв. D1 = 1, D2 = D3 = D4 = 0

  • Ŷt= a + b*Xt

  • II кв. D2 = 1, D1 = D3 = D4 = 0

  • Ŷt= a + d2 + b*Xt

  • III кв. D3 = 1, D1 = D2 = D4 = 0

  • Ŷt= a + d3 + b*Xt

  • IV кв. D4 = 1, D1 = D2 = D3 = 0

  • Ŷt= a + d4 + b*Xt



III. ФП для нескольких качественных факторов. Модель без взаимодействия.



На Y влияют несколько качественных факторов.

  • На Y влияют несколько качественных факторов.

  • Тогда в модель вводят соответствующее количество фиктивных переменных.



ПРИМЕР 5.

  • ПРИМЕР 5.

  • Y – з/п работника

  • Х – стаж работника

  • З\п зависит также от уровня образования сотрудника (4 категории, как и выше) и от его пола.



Для уровня образования, как и выше, вводят 4-е ФП D1, D2, D3, D4.

  • Для уровня образования, как и выше, вводят 4-е ФП D1, D2, D3, D4.

  • Пусть, например, эталонной будет D3.

  • Для фактора «пол» вводим ФП П. Пусть, например,

  • П=0 для мужчин

  • П=1 для женщин



Модель:

  • Модель:

  • Y = β1+ β2*X + 1*D1 + 2*D2 + 4*D4 + *П + u.



IV. Модель со взаимодействием. ФП для коэффициентов наклона.



Для простоты будем рассматривать качественный фактор с 2-я категориями (значениями).

  • Для простоты будем рассматривать качественный фактор с 2-я категориями (значениями).



В модели без взаимодействия

  • В модели без взаимодействия

  • Y = β1+ β2*X + *D + u

  • ФП D влияет только на значение свободного члена и НЕ влияет на значение коэффициента наклона при Х.



Т. е. считается, что качественный фактор:

  • Т. е. считается, что качественный фактор:

  • (а) влияет на значение Y для разных категорий объектов, у которых X один и тот же;

  • (б) при изменении фактора Х фактор Y изменяется ОДИНАКОВО для обеих категорий объектов.



В модели со взаимодействием предположение (б) снимается.

  • В модели со взаимодействием предположение (б) снимается.

  • Допускается, что Y может по-разному реагировать на изменения Х для разных категорий объектов.



Модель со взаимодействием:

  • Модель со взаимодействием:

  • Y = β1 + β2* X + *D + *D*X + u.

  • Ее можно переписать так:

  • Y = (β1 + *D) + (β2 + *D)*X + u.



ПРИМЕР 6.

  • ПРИМЕР 6.

  • Y – среднемесячное потребление семьи в рублях,

  • Х – среднемесячный доход семьи, в рублях.

  • Влияет ли доход на потребление по-разному для городских и сельских семей?



ФП D:

  • ФП D:

  • D=1 для сельских семей,

  • D=0 для городских семей.

  • Модель:

  • Y = β1+ β2* X + *D + *D*X + u.

  • Ее оценка по выборке размера n=40:

  • Ŷ = 3240 + 0,61*Х –1040*D –0,07*D*Х

  • (983) (0,24) (330) (0,02)



Ŷ = 3240 + 0,61*Х –1040*D –0,07*D*Х

  • Ŷ = 3240 + 0,61*Х –1040*D –0,07*D*Х

  • (983) (0,24) (330) (0,02)

  • Коэффициенты при D и D*X значимые, т. е. различие в зависимости потребления от зарплаты для городских и сельских семей значимое.



Ŷ = 3240 + 0,61*Х –1040*D –0,07*D*Х

  • Ŷ = 3240 + 0,61*Х –1040*D –0,07*D*Х

  • (983) (0,24) (330) (0,02)

  • Перепишем модель так:

  • Ŷ = (3240 –1040*D) + (0,61 –0,07*D)*X.

  • Выводы:

  • Сельские семьи ежемесячно потребляют в среднем на 1040 р. меньше, чем городские с таким же доходом.



Ŷ = (3240 –1040*D) + (0,61 –0,07*D)*X

  • Ŷ = (3240 –1040*D) + (0,61 –0,07*D)*X

  • С каждого дополнительного рубля дохода на потребление у сельских семей отчисляется в среднем на 7 копеек меньше, чем у городских.



Ŷ = (3240 –1040*D) + (0,61 –0,07*D)*X

  • Ŷ = (3240 –1040*D) + (0,61 –0,07*D)*X

  • Уравнения:

  • для городских семей, D = 0:

  • Ŷ = 3240 + 0,61 *X

  • для сельских семей, D = 1:

  • Ŷ = (3240 –1040) + (0,61 –0,07)*X =

  • = 2200 + 0,54*Х.



ПРИМЕР 7. Кусочно-линейная модель для изучения структурных изменений в динамике показателя.

  • ПРИМЕР 7. Кусочно-линейная модель для изучения структурных изменений в динамике показателя.

  • Yt – какой-то экономический показатель, в млрд. р.,

  • t – кварталы (t= 1, 2, …, 31).

  • В некий момент времени (t=19) в изменениях Yt произошел перелом.





Оценка модели динамики показателя без учета двух периодов в этой динамике:

  • Оценка модели динамики показателя без учета двух периодов в этой динамике:

  • Ŷ = 15676,4 + 4,36*t

  • (926,6) (50,5)

  • Без учета структурного изменения в динамике Yt получается, что за весь период значения показателя в среднем не менялись.





Введем ФП D:

  • Введем ФП D:

  • D = 0 для t = 1, …, 18

  • D = 1 для t = 19, …, 31.

  • Модель:

  • Y = β1 + β2* t + *D + *D*t + u.





Оценка модели:

  • Оценка модели:

  • Ŷ = 13038,5 + 295*t +17637*D – 896,6*D*t

  • (72) (3788) (160,7)

  • R2 = 0,57

  • Коэффициент при D*t значим, т.е. структурное изменение в середине периода произошло.

  • По-другому модель записывается как:

  • Ŷ = (13038,5 +17637*D) + (295 – 896,6*D)*t.



Ŷ = (13038,5 +17637*D) + (295 – 896,6*D)*t





V. Модель со взаимодействием. Взаимодействие между ФП



ПРИМЕР 8.

  • ПРИМЕР 8.

  • Y – з/п сотрудника в рублях,

  • Х – стаж сотрудника, в годах.

  • На з/п влияют также качественные факторы:

    • пол,
    • наличие высшего образования.


Вводим ФП П – «пол»:

  • Вводим ФП П – «пол»:

  • П = 0 для женщин,

  • П = 1 для мужчин.

  • Вводим ФП Е – «наличие высшего образования»:

  • Е = 0, если в/о нет,

  • Е = 1, если в/о есть.



Модель:

  • Модель:

  • Y = α + β*X + *П + γ*E + λ*П*Е + u.

  • Перепишем эту модель в виде:

  • Y = α + β*X + ( + *E)*П + γ*Е + u.

  • Эта модель предполагает, что при постоянном стаже (Х) влияние на з/п признака пол (П) различное для групп сотрудников, имеющих и не имеющих высшего образования.



Y = α + β*X + ( + *E)*П + γ*Е + u.

  • Y = α + β*X + ( + *E)*П + γ*Е + u.

  • Т. е. при одинаковом стаже разница в з/п у мужчин (П=1), имеющих в/о (Е=1) и не имеющих в/о (Е=0) составляет ( + ) рублей.

  • При одинаковом стаже разница в з/п у женщин (П=0), имеющих (Е=1) и не имеющих в/о (Е=0) составляет  рублей.



Модель:

  • Модель:

  • Y = α + β*X + *П + γ*E + λ*П*Е + u.

  • Эту модель можно переписать по-другому:

  • Y = α + β*X + *П + (γ + λ*П)*Е + u.

  • Эта модель предполагает, что при постоянном стаже (Х) влияние на з/п наличия или отсутствия в/о различно для мужчин и женщин.



Y = α + β*X + *П + (γ + λ*П)*Е + u.

  • Y = α + β*X + *П + (γ + λ*П)*Е + u.

  • Т.е. при одинаковом стаже (Х) разница в з/п у мужчин (П=1) и женщин (П=0) с в/о (Е=1) составляет ( + λ) рублей.

  • При одинаковом стаже (Х) разница в з/п у мужчин (П=1) и женщин (П=0) без в/о (Е=0) составляет рублей.



Y = α + β*X + *П + γ*E + λ*П*Е + u.

  • Y = α + β*X + *П + γ*E + λ*П*Е + u.

  • Примечание. Значимость коэффициента λ безотносительно к значимости или незначимости остальных коэффициентов при ФП, означает, что имеется значимое различие в з/п категории П = 1, Е = 1 (у нас это мужчины с в/о) над з/п других трех категорий сотрудников при одинаковом стаже.