On the journey of

Introductory Econometrics: A Modern Approach CH.3 (1) 본문

Experiences & Study/Quant & Finance

Introductory Econometrics: A Modern Approach CH.3 (1)

dlrpskdi 2023. 8. 7. 09:52

3.1 Motivation for Multiple Regression

두 개의 독립 변수가 있는 모형

일반적으로 우리는 두 개의 독립적인 변수를 가진 모델을 다음과 같이 쓸 수 있다.

B0 : 절편

B1 : 다른 요인을 고정한 상태에서 독립변수 x1 에 대한 y의 변화를 측정

B2 : 다른 요인을 고정한 상태에서 독립변수 x2 에 대한 y의 변화를 측정

u : 오차

K개의 독립 변수가 있는 모형

B0 : 절편

B1~Bk: 독립변수 xn 와 연관된 매개변수(기울기라고 언급하기도 함)

 

* 다중 회귀분석을 위한 용어

Y : 종속변수, 설명변수, 반응변수, 예측 변수

X : 독립변수, 설명변수, 제어변수, 예측 변수

- 다중회귀분석은 복수의 요인이 상호 연관되어 있는 경우에도 인과 관계를 추론할수있고 변수 간의 함수 관계를 일반화 하는데도 유용함.

- 관측되지않은 오차항의 모든 요인이 설명변수와 상관관계가 없어야한다. ( 설명 변수와 설명변수 사이의 함수 관계를 올바르게 설명해야함)

3.2 Mechanics and Interpretation of Ordinary Least Squares

Obtaining the OLS Estimates(OLS 추정치 획득)

OLS란?

OLS는 최소제곱법을 사용하여 잔차 제곱합을 최소화하는 회귀계수를 추정하는 방법

두 개의 독립변수 모델

OLS방정식은 단순회귀분사례와 유사한 형태로 작성됨

이러한 추정치를 어떻게 얻는가?

: 일반 최소제곱법은 잔차 제곱의 합을 최소화 하는 추정치를 선택.

 : 즉 y,x1,x2에 대한 n개의 관측치가 주어 졌을때, 추정치 b0~b2를 동시에 선택하여 잔차 제곱의 합을 최소화하기 위한 추정치를 산출한다. 

k개의 독립변수가 있는 경우

OLS 회귀분석에서는 주어진 독립 변수들과 종속 변수를 이용하여 최적의 예측 직선을 찾음. 이 때, 최적의 예측 직선은 오차 제곱합을 최소화하는 방식으로 결정되며 이러한 과정에서 구한 계수들은 각 독립 변수들이 종속 변수에 미치는 영향력을 나타냄

다중 회귀 분석에서 ‘다른 요인을 고정한다’는 의미

다중 회귀분석의 장점은 ceteris paribus 해석을 제공한다는 것이다.

  • ceteris paribus란
    • 서로 다른 X와 Y를 어떤 특정한 기준으로 비교하는 경우에 있어서, 이 특정한 기준에 적용되어 비교되어야만 하는 해당 사항만을 제외하고 모든 다른 사항들을 동일하게 가정해야만 할 때 주로 사용되는 문장

만약 여성과 남성 간 임금 차이를 보고자 할때, 단순히 성별 임금평균을 비교하는 방법 보다 다중회귀 분석을 활용하면 교육연수, 경력 등의 관련 변수들의 영향을 통제 한 채로 오직 성별의 영향력만을 분리해서 파악 할 수 있음

우리는 다중회귀분석을 통해 다른 모든 요인들로부터 한 요인의 영향을 분리 할 수 있음

 

단순 회귀분석과 다중 회귀분석

단순 회귀분석과 다중 회귀분석 중 y를 x1에 대해 단순 회귀분석할 경우, x1에 대한 OLS 추정값이 y를 x1과 x2에 대해 다중 회귀분석한 경우와 같은 값을 가지는 경우가 있음

단순 회귀분석에서 x1에 대한 회귀계수: ˜b1

다중 회귀분석에서 x1과 x2에 대한 회귀계수를 각각 bˆ1, bˆ2라고 하면,

일반적으로 ˜b1과 bˆ1이 같지 않다.

그러나 x1과 x2의 상관관계나 x2의 y에 대한 부분효과가 0일 때에는 ˜b1과 bˆ1이 같을 수 있다.

이러한 관계식을 이용하면, 단순 회귀분석과 다중 회귀분석 추정값이 어떻게 서로 다르거나 유사한지를 비교할 수 있다.

예를 들어, bˆ2가 작은 경우에는 단순 회귀분석과 다중 회귀분석의 추정값이 유사할 것으로 예상할 수 있다.

 

높은신뢰도를 보장하기 위한 전제 조건

첫 번째 가정은 완전 선형성을 가정하며, 이는 독립변수와 종속변수 간에 선형적인 관계가 존재한다는 것을 의미

두 번째 가정은 독립변수 간에 완벽한 다중공선성(multicollinearity)이 없다는 것

마지막 가정은 오차항(ε)의 분산이 일정하다는 것. 이는 모든 독립변수들이 모집단에서 상수항(constant)을 포함하도록 보장하는 것과 관련이 있다.

 

3.3 The Expected Value of the OLS Estimator

Assumption MLR.1 : Linear in Parameters

  • $\beta_0, \beta_1,,,\beta_k$ : unknown parameters or constants
  • u : unobserved random error

위 모형을 population model, true model이라고 한다.

 

Assumption MLR.2 : Random Sampling

i는 관측치 개수, k는 변수 개수

식 3.31이 적용하기에 가장 쉬운 모델, 잡음이 최대한 적은 모델, 관심 있는 추정치의 관계를 강조하기에 좋지만 MLR1, MLR2 만으로는 주어진 sample에 잘 정의된다는 조건이 없다.

 

Assumption MLR.3 : No Perfect Collinearity

립 변수가 다른 독립 변수와 선형 관계일 때 perfect collinearity라고 한다.

⇒ parameter를 OLS로 추정할 수 없다.

⇒ econometric analysis에 제한적이다.

⇒ Perfect Collinearity는 어떻게 판단할까?

1) 두 변수가 상수 배 관계일 때

expend와 avginc은 연관되어 있다고 예측할 수 있다. (가장 쉬운 방법은 두 변수가 선형 관계일 경우) 이는 불필요한 변수가 있다고 해석할 수 있다.

: inc^2(제곱항)을 사용하는 것이 유용하다. 

2) 한 설명 변수가 다른 설명 변수들의 선형식으로 표현될 때

X_3 = X_1 + X_2 으로 나타낼 수 있다.

$\beta_1$은 $expendB$ 와 $totexpend$ 가 고정되어있을 때, $expendA$ 가 1단위 증가할 때 $voteA$에 미치는 영향이라고 해석할 수 있는데 $expendA$가 증가하면 $totexpend$가 고정되어있을 수 없다.

3개의 변수 중 1개를 drop : totexpend drop

 

3) parameter 개수에 비해 sample size가 너무 작은경우

: 최소 K+1개의 관측치가 있어야 한다. 

 

Assumption MLR.4 : Zero Conditional Mean

<MLR 4. 실패 요인>

  1. 설명 변수와 종속 변수가 잘못 지정됐을 때. ex) inc^2누락
  2. 다른 종속 변수와 연관 있는 중요한 변수 누락 ex) 데이터를 구할 수 없는 불가피한 상황

MLR 4를 만족하는 변수를 exogenous explanatory variables (외생설명변수) 라고 하고

만족하지 않는 변수 (u와 corr) endogenous explanatory variables (내생설명변수) 라고 한다.

 

위 가정을 모두 만족할 경우 OLS estimator는 unbiased estimator다.

 

Including Irrelevant Variables in a Regression Model

모델과 관련 없는 변수가 포함된 경우 “inclustion of an irrelevant variable”, “overspecifying the model”이라고 한다.

 

위 모델에서 x_3이 필요 없는 변수라면 \beta_3 = 0이라는 의미.

그러나 이것은 \hat{\beta_1}, \hat{\beta_2}의 unbiasedness에는 영향이 없다. (분산에는 영향 있음)


누락변수편향 (Simple case)

“excluding a relevant variable”, “underspecifying the model”이라고 한다.

<참모형>

 

<누락변수모형>

식 3.23에 의하여…

이때 3.46의 결과물을 omitted variable bias라고 한다. 

 

<tilde/Beta_1이 unbisaed 되는 두 가지 경우>

* tilde/Beta_1 는 아래 이미지처럼 beta_1 위에 ~(물결표시) 있는 거 말하는 것!

  1. $\beta_2 = 0$이라서 참모형에 나타나지 않는 경우
  2. $\tilde{\delta_1}=0$ 이면 $\beta_2$가 0 이 아니더라도 $\tilde{\beta_1}$이 unbiased ($x_1, x_2$가 uncorr)

$x_1, x_2$가 corr되어있는경우 

(Positive bias = over estimate, Negative bias = under estimate)