비상관화 (Decorrelation)
정의
비상관화(Decorrelation)는 두 개 이상의 변수 간의 상관성을 제거하여 독립적으로 만드는 과정을 말합니다.
이는 신호 처리, 데이터 분석, 통계 및 기계 학습에서 필요한 개념입니다.
목적
비상관화는 데이터의 차원을 줄이거나, 신호 간의 간섭을 줄이며, 데이터 분석의 정확성을 높이기 위해 사용됩니다.
수학적 접근
비상관화는 주로 주성분 분석(PCA: Principal Component Analysis)와 같은 기법을 통해 이루어집니다.
PCA는 데이터의 주성분을 찾아 원래 변수들의 선형 변환을 통해 새로운 독립된 변수 집합을 생성합니다.
활용 사례
- 신호 처리: 노이즈 제거 및 신호 간섭 감소
- 이미지 처리: 이미지 압축 및 노이즈 제거
- 기계 학습: 데이터의 차원 축소 및 특성 선택
공분산 (Covariance)
정의
공분산(Covariance)은 두 변수 간의 변동을 측정하는 통계적 지표입니다. 두 변수가 함께 어떻게 변하는지를 나타내며,
양의 공분산은 두 변수가 같은 방향으로 움직이는 경향이 있음을, 음의 공분산은 반대 방향으로 움직이는 경향이 있음을 나타냅니다. (간단하게는 양의 공분산은 기울기가 1인 것, 음의 공분산은 -1인 것을 생각하면 됩니다)
공분산 값은 두 변수의 평균값에서 각 변수의 관측값의 편차 곱의 평균으로 계산됩니다.
이에 따라 1을 초과하는 값이 나타날 수 있습니다.
수학적 공식
두 변수 와 의 공분산은 다음과 같이 계산됩니다:
여기서: 와 는 각각 와 의 관측값 와 는 각각 와 의 평균값 은 데이터 점의 수
공분산을 샘플 데이터로 계산할 때는 분모에 n-1을 사용합니다.
특성
- 단위 의존성: 공분산 값은 변수의 단위에 의존합니다. 따라서 공분산 값을 해석할 때는 변수의 단위와 크기를 고려해야 합니다.
- 대칭성
- 선형 변환의 영향 a와 b가 상수일 때,
활용 사례
- 금융: 자산 간의 관계 분석 및 포트폴리오 이론
- 통계학: 변수 간의 관계 파악
- 데이터 분석: 다변량 데이터의 상호작용 분석
피어슨 상관계수 (Pearson Correlation Coefficient)
정의
피어슨 상관계수(Pearson Correlation Coefficient)는 두 변수 간의 선형 상관관계를 측정하는 통계적 지표입니다.
공분산을 정량화한 버전이라고 보면 됩니다.
-1에서 1 사이의 값을 가지며, 1은 완벽한 양의 선형 상관관계, 0은 상관관계 없음, -1은 완벽한 음의 선형 상관관계를 나타냅니다.
수학적 공식
피어슨 상관계수 는 다음과 같이 계산됩니다:
여기서:
- 는 와 의 공분산
- 와 는 각각 와 의 표준편차
다른 형태로는:
활용 사례
- 통계 및 데이터 분석: 변수 간의 선형 관계 파악
- 경제학: 경제 지표 간의 상관관계 분석
- 심리학 및 사회과학: 설문조사 결과 및 행동 연구
- 생물학 및 의학: 유전자 데이터 및 생리적 변수 간의 상관관계 분석