On the journey of

[Financial Data Analysis] P value significance & 해석 본문

Experiences & Study/Quant & Finance

[Financial Data Analysis] P value significance & 해석

dlrpskdi 2023. 8. 7. 09:23

P values and the search for significance

1. p-value와 유의성 검사

실험 결과의 유의성은 p-value와 효과크기(effective size)의 추정에 의해 평가됨.

해석이 선택편향에 의해 무효화 되는 경우

  • 다중가설검정(testing multiple hypotheses)
  • 다중모델적합(fitting multiple models)
  • 데이터 관찰 후 흥미로워 보이는 결과를 비공식적으로 선택함

통계적으로 유의한 결과가 생물학적으로 유의미한 결과로 해석되지 않을 때

  • 표본 크기가 클 때
  • 분산이 작을 때
  • 아주 작은 효과들

✨ 100명을 대상으로 10개의 생리학적 변수를 측정해 수축기혈압(SBP)을 예측할 수 있는 변수가 무엇인지 확인하는 연구 ; 모집단에서 실제로 예측할 수 있는 변수가 없고, 모두 독립적이라고 가정함. y축 변화에 주의.

  1. 단순선형회귀직선을 사용해 변수 중 하나만 예측 변수로 둘 때 : p<0.05 해당하는 샘플은 5%

파란 색으로 표시된 부분이 5%에 해당함

2. 예측변수들로 검정할 때 : p<0.05에 해당하는 샘플은 40%

파란 색으로 표시된 부분이 40%에 해당함

 

+. 신뢰구간을 95%로 설정하는 것 만으로는 선택편향이 해결되지 않는다.

n = 100, mean = 0, s.d = 1 (유의성 높은 순서대로 정렬됨)
a에서 수행된 것 중 가장 유의한 10개의 단일 표본 검정

n = 100, mean = 0, s.d = 1 (유의성 높은 순서대로 정렬됨)

a에서 수행된 것 중 가장 유의한 10개의 단일 표본 검정


2.

(Fig. 1b)

가장 유의한 p value를 분석할 때 최소 10개의 랜덤 균일 분포를 고려한다.

이 분포는 k개의 독립적인 검정에 대해 아래의 밀도를 갖는다.

k = 10을 사용하면 P < 0.05의 관측 확률은 1 – (1 – 0.05)10 = 0.40 (그림 1b)이다.

만약 이것을 수행된 유일한 시험으로 여기다면 선택편향으로 이어지니 주의해야함

사전에 지정된 가설에 기반한 결과를 선택해야함

다양한 선택편향과 보정법

Multiplicity Adjustment

다중검정시 p-value를 보정해야한다.

  • 다중검정보정이란 P-value를 보정하는 과정(선택 편향을 바로잡는 방법)이다.
  • 1대1 대응으로 검정하는 것이 아닌 더 많은 대상들 간의 유의성을 검정하는 것이 다중검정. 다중검정은 단일검정과 동일한 기준을 적용할 수 없다. 따라서 다중검정을 위한 P-value 보정법이 존재한다.
  1. FWER(family-wise error rate)

전체 가설 set에서 하나라도 잘못 기각시킬 확률

쉽게말하자면 한 연구에서 적어도 한 개의 잘못된 결론이 나올 수 있는 확률에 주목하는 방법이다.

  1. FDR (False Discovery Rate)

유의하게 판정한 검정결과 중에서 잘못된 검정 비율을 조정하는 방법

쉽게 말하자면 내가 귀무가설을 기각한 검정 중 틀린 것의 비율을 줄이는 것에 초점을 맞춘 방식이다.

  • 제 1종 오류란?
  • 실제로 참인 귀무가설을 기각하는 오류(false positive)

위 두가지 방법을 통해 수정된 P-value를 활용하면 다중검정 시에도 과도한 해석을 방지할 수 있다.

만약 데이터 탐색 후 흥미로워보이는 효과를 비공식적으로 선택하는 경우-p-value 조정이 다중검정시보다 불명확하다.

예를 들어, 10개의 예측 변수 각각에 대해 SBP를 표시하고, 1개의 예측 변수가 SBP와 2차 관계를 가질 수 있다고 생각하는 경우를 가정하자.

1개의 예측변수와 SBP의 2차 관계에 대한 10개의 비교(10개의 그림), 20개의 비교(선형 또는 2차 효과) 또는 그 이상(비선형 또는 2차 효과)에 대해 검정시 모두 조정해야할까?

⇒ 더 많은 모델을 고려할수록 데이터를 과적합과 제 1종 오류를 생성할 위험이 더 커진다.

신뢰구간이 선택편향 방지에 도움이 될까?

그림 2는 그림 1의 시험 시나리오에 해당하는 신뢰 구간을 보여준다.

그림 2 | 95% 신뢰 구간에만 초점을 맞추었을때 선택 편향이 해결되지 않는 예시

(a) 크기가 n = 100, 평균=0, 표준편차(s.d.)= 1.인 100개의 단일 표본 t-검정에 대한 95% 신뢰 구간

구간은 통계적 유의성이 증가하는 순서로 수직으로 정렬

(b) a에서 수행된 유형의 10개 단일 표본  t-검정 세트의 가장 중요한 결과에 해당하는 95% 신뢰 구간의 100개 구간

귀무 가설이 참일 때 )

(그림 2a) 100개의 단일 가설 검정을 수행할 때 신뢰 구간 중 5%만이 0을 포함하지 않음

(그림 2b) 10개의 검정 중에서 가장 유의한 신뢰 구간만 고려하면 (그림 2a)와 크게 다른 모습 확인 가능함. 평균적으로 신뢰 구간의 40%는 0을 포함하지 않는다.

The selection of a prediction model for multiple regression or classification

P-value 해석에서 오류가 쉽게 발생할 수 있는 또 다른 일반적인 분석 방법: 다중 회귀 분석 또는 분류에 대한 예측 모형을 선택

발생 과정 전개)

SBP의 무작위하고 독립적인(random and independent) 생리학적 변수(10개)에 대한 시뮬레이션(1,000개) 수행


3.

그림 3 | 모델 구축 중 변수 선택은 통계적 유의성을 크게 증가시킨다

(a) 1,000회의 시물레이션에서 0개에서 6개의 예측 변수를 설명적으로 선택

(b) 잘못된 수의 예측변수(k>0)가 선택된 828개 사례의 대한 F-검정의 R2 및 P값 분포

통계적으로 예측된 SBP

전진선택법(forward selection)

기존 모형에 가장 설명력이 좋은 변수를 하나씩 추가하는 방법

(더 이상 변수가 모델의 설명력에 추가되지 않을때까지 반복)

먼저, 10개의 변수를 모두 동시에 피팅하고 P ≤ 0.05에서 테스트하면, 예측 변수와 SBP 사이의 연관성이 없다는 귀무 가설을 예상대로 5%만 기각. 그러나 전진선택법을 사용하여 0 변수를 다음과 같이 올바르게 식별한다.

1,000개의 시뮬레이션 중 172개에서만 0개의 변수를 예측 변수로 올바르게 식별(그림 3a).

귀무 가설 :82.8%를 기각하고 설득력있는 P값을 관찰한다.(3b)

예측변수가 10개 밖에 없는 관측치가 100개나 있음에도 FDR가 높다.

  • FDR : 다중검정비교에서 'False positives / Total positives'의 비율1종 오류는 귀무가설이 실제로 참이지만, 이에 불구하고 귀무가설을 기각하는 오류 (실제 음성인 것을 양성으로 판정)
  • 1종 오류 = False positives

⇒모델에 변수가 없는 상태에서 시작하여 가장 중요한 개선을 제공하는 변수를 추가. 그러나 얻은 결과는 100개의 관측치와 10개의 예측 변수를 사용하더라도 높은 거짓 발견률을 보인다.

모델 선택 후 적합도를 검증하고 평가하기 위해 보편적으로 허용되는 유일한 방법은 독립적인 테스트 샘플을 사용하는 것. 또한 예측 변수 간의 의존성이 결과를 복잡하게 만들고 잘못된 결론으로 이어질 수 있다

예측 변수가 종속적일 때 유의성을 찾는 복잡성

예측 변수 간의 상관 관계는 다른 예측 변수를 유의하게 보이게 하여 잘못된 결과를 초래할 수 있음

통계적 유의성을 생물학적 유의성으로 과도하게 해석하는 것도 또 다른 문제이다.

→ 예를 들어, 큰 표본 크기에서 발견되는 SBP의 작은 감소는 통계적으로 유의하지만 생물학적으로는 관련이 없을 수 있음. 생물학적 관련성을 이해하려면 신뢰 구간과 같은 효과 크기의 추정치가 필요. 현저한 감소가 발견되었다고 단순히 언급하는 것은 그 결과가 생물학적으로 관련이 없을 수 있다는 사실을 모호하게 만들 수 있다.

요약

여러 변수를 기반으로 수축기 혈압(SBP)을 예측하는 맥락에서 예측 모델링에서 통계적 방법을 사용할 때의 문제와 한계에 대해 설명

⇒단계별 회귀 방법의 한계와 독립적인 테스트 샘플을 사용하여 모델을 검증하고 모델 선택 후 적합도를 평가하는 것이 중요하다

⇒ 또한 통계적 유의성과 생물학적 관련성을 구별하고 데이터의 과적합, 교란 및 오용을 피하기 위해 결과를 해석할 때 주의해야 할 필요성을 강조함. 저자는 통계 분석에서 데이터의 확인적 사용과 탐색적 사용을 신중하게 구분할 것을 요구하고 필요한 경우 여러 테스트에 대한 P 값과 신뢰 구간을 조정하도록 조언함

 


Interpreting P values

P-value

#관측된 표본이 가설에 부합하는 지를 측정하기 위한 measure.

⇒ 주어진 가설 하에서 해당 표본이 관측될 확률!

  • P-value를 해석하는 과정에서 이를 잘못된 방향 및 방법으로 해석하기 쉬움.💡 P-value에 대한 다른 부가적인 정보를 보충함으로써 misinterpretation을 예방.
    • The American Statistical Association : P-value의 misuse를 완화하기 위한 3 main ideas 제시
  • Q. 어떻게 올바르게 해석해야 할까?

💡 P-value에 대한 다른 부가적인 정보를 보충함으로써 misinterpretation을 예방.

  • The American Statistical Association : P-value의 misuse를 완화하기 위한 3 main ideas 제시
  1. 더욱 엄격한 P-value cutoff 사용하기 (Bayesian Analysis)
  2. FDR을 추정하여 P-value를 사용하기
  3. P-value와 effect size를 조합하여 신뢰 구간 만들기

그러나 위의 방법들을 사용하더라도, 다중 검정 및 모델에서 가장 significant한 P-value를 취사선택항 검정을 진행한다면 결과가 편향될 수 있으므로 주의.

 

1. Bayesian analysis

#귀무가설이 참 또는 거짓이라는 것에 대한 증거의 강도를 평가하기 위해 사용.

Bayes Factor

 

Bayes Factor, B를 통해 검정의 통계적 유의성을 결정.

→ 두 가설 하에서의 average likelihood의 비율로써 정의.

내가 확인하고자 하는 가설($H_1$)이 귀무가설($H_0$)보다 주어진 데이터를 얼마나 잘 예측하는지를 수치로 나타낸 값이 Bayes Factor.

그러나 Bayesian anlaysis에서는 두 가설에 따른 모델 파라미터에 대한 사전 분포를 지정해 주어야하므로 주관이 개입될 수 있음. ⇒ Benjamin-Berger

 

B는 Basyes facter의 upper bound(upper bar인데....티스토리는 어떻게 쓸지 모르겠어서 일단 underbar...)

  • B는 사전의 설명이 필요하지 않고, 사전의 타당한 선택들을 유지함.
  • B = 10 은 H_1이 H_0보다 참일 가능성이 최대 10배 높다는 것을 의미함.
  • B는 H_1이 참일 가능성의 정도를 정량화 한 것이기 때문에 중요한 실험에 사용할 수 있음.
  • B >=20이면 H_1이 참일 것이라고 강경하게 생각할 수 있음.
  • P < alpha = 0.05 로 H_0을 기각할 때 H_1이 최대 2.5배 (B<=2.5) 참일 수 있음. (b 참고)
  • B는 귀무가설에 대한 매우 약하거나 존재하지 않는 증거로 간주됨.
  •  

<Biomarker example>

P=0.025 라고 결론 내렸고 이는 H_1이 H_0보다 참일 가능성이 최대 3.9배 높다는 것을 의미함. (B <=3.9) 그러나 결과가 통계적 유의하다고 하려면 $P < \alpha = 0.005 ( \overset{-}B >14 )$ 검정을 해야함.

이때 같은 effect size인 1.32를 사용하고, $H_0$을 $\alpha < 0.005 (\overset {-}B > 14)$에서 기각하면 power는 43%이다.

(power, 검정력 : 대립가설이 사실일 때, 이를 사실로서 결정할 확률)

power가 80%가 되기 위해서는 sample size를 18로 해야한다.


Section 3

귀무 가설에 유리한 이전 증거와 시험의 검정력을 모두 설명하기 위해 플러그인 값을 사용하여 FDR 추정치로 P 값을 보완

높은 처리량 다중 검정

FDR: 잘못된 기각으로 구성된 기각된 귀무 가설의 예상 비율

  • 검정의 일부 비율 pi_0이 실제로 null이고 $P < \alpha$ 에서 기각한다면, 검정의 alpha \pi_0이 거짓 기각일 것으로 예상
  • 1-\pi_0이 not null 일 때 검정력 beta를 사용하여 이러한 검정 중 beta(1 – \pi_0)를 기각

FDR의 합리적인 추정치:

예상되는 모든 기각에 대한 예상 거짓 기각의 비율

 

낮은 처리량 검정

\pi_0이 귀무 가설이 이전 증거에 기초한 것처럼 참일 확률이라는 휴리스틱 사용

(그림 2a)

 

 

저자의 제안

  • 연구 제안서의 1차 가설 또는 2차 가설에는 각각 $\pi_0$ = 0.5 또는 0.75를 사용
  • 데이터 탐색 후 공식화된 가설에는 $\pi_0$ = 0.95를 사용

높은 처리량 시나리오: pi_0을 추정할 수 있음

낮은 처리량의 실험: pi_0가 조사자가 귀무 가설의 진실에 기꺼이 놓일 이전 확률에 기초해야 한다는 베이지안 주장 사용 → \alpha를 관측된 P 값으로, beta를 연구의 계획된 검정력으로 바꿈

ex.

P = 0.025 및 80% 검정력을 사용하면 1차, 2차 및 임시 시험에 대해 각각 eFDR = 0.03, 0.09, 0.38 제공

  • 연구의 1차 가설의 경우 이 P 수준에서 null을 거부하는 검정의 3%만이 실제로 거짓 발견이라고 추정하지만, 데이터를 탐색한 후에만 테스트를 했다면 38%의 발견이 거짓일 것으로 예상

pi_0에 대한 저자의 ‘rule-of-thumb' 값은 임의이므로 이를 피하는 간단한 방법은 주어진 eFDR을 달성하는 데 필요한 pi_0의 값을 결정

ex) 80% 검정력을 가진 예제에서 eFDR = 0.05를 달성하려면 pi_0 ≤ 0.62가 필요

  • Biomarker example: 다른 실험실의 연구나 생물학적 주장에서 이 바이오마커가 질병 상태와 관련이 있다고 제안하는 경우에는 합리적일 수 있지만, 여러 모델이 적합하거나 생물학적 지침이 거의 없이 테스트된 여러 바이오마커 중 가장 중요한 모델인 경우에는 비합리적임

대부분 P 값을 신뢰 구간으로 보완하는 것을 지지하며, 이는 관측치와 호환되는 효과 크기의 범위를 제공함

참고문헌 2) 가설 범위에 대해 P 값을 고려할 것을 제안

관찰된 것과 비교하여 바이오마커의 다른 수준의 P 값을 보여주는 Fig. 2b에서 해당 접근 방식 시연

 

 

 

95% 신뢰 구간(이 예제의 경우 0.17, 2.23)은 \alpha = 0.05에서 관측된 수준 1.2에서 유의하게 다르지 않은 수준의 범위

P값이 랜덤 변수라는 것을 강조 = random draws of data는 P값에 대한 분포 산출

  • 데이터가 연속형이고 귀무 가설이 참이면 P값은 (0,1)에 균일하게 분포하며 평균은 0.5이고 표준편차는 $1/\sqrt{12} \approx 0.29 (참고문헌 1)
    • $P$ 값은 표본마다 매우 다양하며, 이 변동성은 표본 크기나 연구 검정력의 함수가 아님
  • 대립 가설이 참이면 검정력이 증가함에 따라 변동성이 감소하지만 $P$ 값은 여전히 랜덤

 

 

 

각 평균 바이오마커 수준에 대해 100,000개의 샘플 쌍 시뮬레이션

P값은 실험에서 관측된 데이터가 귀무 가설과 호환되는지 여부 평가 가능

P값을 적절하게 사용하려면

  • 샘플링 설계에 대한 적절한 주의를 기울여) 적절하게 계산해야함
  • 분석 파이프라인이 사전에 지정된 분석에 대해서만 보고되어야함
  • 존재하는 경우 다중 테스트에 대해 적절하게 조정되어야함

P 값을 보다 직관적인 양으로 변환하는 Bayes 인자 또는 FDR에 기반한 것과 같은 부수적 휴리스틱에 의해 P 값의 해석이 크게 도움이 될 수 있음