Home Covariance, Pearson Correlation Coefficient, Decorrelation
Post
Cancel

Covariance, Pearson Correlation Coefficient, Decorrelation

비상관화 (Decorrelation)

정의

비상관화(Decorrelation)는 두 개 이상의 변수 간의 상관성을 제거하여 독립적으로 만드는 과정을 말합니다.

이는 신호 처리, 데이터 분석, 통계 및 기계 학습에서 필요한 개념입니다.

목적

비상관화는 데이터의 차원을 줄이거나, 신호 간의 간섭을 줄이며, 데이터 분석의 정확성을 높이기 위해 사용됩니다.

수학적 접근

비상관화는 주로 주성분 분석(PCA: Principal Component Analysis)와 같은 기법을 통해 이루어집니다.

PCA는 데이터의 주성분을 찾아 원래 변수들의 선형 변환을 통해 새로운 독립된 변수 집합을 생성합니다.

활용 사례

  • 신호 처리: 노이즈 제거 및 신호 간섭 감소
  • 이미지 처리: 이미지 압축 및 노이즈 제거
  • 기계 학습: 데이터의 차원 축소 및 특성 선택

공분산 (Covariance)

정의

공분산(Covariance)은 두 변수 간의 변동을 측정하는 통계적 지표입니다. 두 변수가 함께 어떻게 변하는지를 나타내며,
양의 공분산은 두 변수가 같은 방향으로 움직이는 경향이 있음을, 음의 공분산은 반대 방향으로 움직이는 경향이 있음을 나타냅니다. (간단하게는 양의 공분산은 기울기가 1인 것, 음의 공분산은 -1인 것을 생각하면 됩니다)

공분산 값은 두 변수의 평균값에서 각 변수의 관측값의 편차 곱의 평균으로 계산됩니다.
이에 따라 1을 초과하는 값이 나타날 수 있습니다.

수학적 공식

두 변수 XXYY 의 공분산은 다음과 같이 계산됩니다: Cov(X,Y)=1ni=1n(XiX)(YiY)\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X})(Y_i - \overline{Y})

여기서: XiX_iYiY_i 는 각각 XXYY 의 관측값 X\overline{X}Y\overline{Y} 는 각각 XXYY 의 평균값 nn 은 데이터 점의 수

공분산을 샘플 데이터로 계산할 때는 분모에 n-1을 사용합니다.

특성

  1. 단위 의존성: 공분산 값은 변수의 단위에 의존합니다. 따라서 공분산 값을 해석할 때는 변수의 단위와 크기를 고려해야 합니다.
  2. 대칭성 Cov(X,Y)=Cov(Y,X)\text{Cov}(X, Y) = \text{Cov}(Y, X)
  3. 선형 변환의 영향 a와 b가 상수일 때, Cov(aX+b,Y)=aCov(X,Y)\text{Cov}(aX + b, Y) = a \cdot \text{Cov}(X, Y)

활용 사례

  • 금융: 자산 간의 관계 분석 및 포트폴리오 이론
  • 통계학: 변수 간의 관계 파악
  • 데이터 분석: 다변량 데이터의 상호작용 분석

피어슨 상관계수 (Pearson Correlation Coefficient)

정의

피어슨 상관계수(Pearson Correlation Coefficient)는 두 변수 간의 선형 상관관계를 측정하는 통계적 지표입니다.

공분산을 정량화한 버전이라고 보면 됩니다.

-1에서 1 사이의 값을 가지며, 1은 완벽한 양의 선형 상관관계, 0은 상관관계 없음, -1은 완벽한 음의 선형 상관관계를 나타냅니다.

수학적 공식

피어슨 상관계수 rr 는 다음과 같이 계산됩니다: r=Cov(X,Y)σXσYr = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}

여기서:

  • Cov(X,Y)\text{Cov}(X, Y)XXYY 의 공분산
  • σX\sigma_XσY\sigma_Y 는 각각 XXYY 의 표준편차

다른 형태로는: r=i=1n(XiX)(YiY)i=1n(XiX)2i=1n(YiY)2r = \frac{\sum_{i=1}^{n} (X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum_{i=1}^{n} (X_i - \overline{X})^2 \sum_{i=1}^{n} (Y_i - \overline{Y})^2}}

활용 사례

  • 통계 및 데이터 분석: 변수 간의 선형 관계 파악
  • 경제학: 경제 지표 간의 상관관계 분석
  • 심리학 및 사회과학: 설문조사 결과 및 행동 연구
  • 생물학 및 의학: 유전자 데이터 및 생리적 변수 간의 상관관계 분석
This post is licensed under CC BY 4.0 by the author.
Contents