-
CH 01. 탐색적 데이터 분석_추정데이터 분석/통계 2024. 6. 8. 22:49
위치 추정
- 데이터의 특징을 요약
평균
절사평균
: 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균
- 절사평균은 극단값의 영향을 제거
- scipy.stats에 있는 trim_mean 함수로 구할 수 있다.
가중평균
: 각 데이터 값에 사용자가 지정한 가중치를 곱한 값들의 총합을 다시 가중치의 총합으로 나눈 값
- 어떤 값들이 본래 다른 값들에 비해 큰 변화량을 가질 때, 이러한 관측값에 대해 더 작은 가중치를 줄 수 있다.
- 데이터가 부족한 소수 그룹에 대해 더 높은 가중치를 적용하여 비율을 보정
- np.average를 이용해 가중평균을 구할 수 있다.
중간값과 로버스트 추정
가중 중간값
: 가중 중간값은 단순히 가운데 위치한 값이 아닌, 어떤 위치를 기준으로 상위 절반의 가중치의 합이 하위 절반의 가중치의 합과 동일한 위치의 값이 된다.
- 중간값과 마찬가지로 특잇값에 로버스트하다.
- wquantiles.median을 이용해 가중 중간값을 구할 수 있다.
특잇값
: 어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값들을 말한다.
- 특잇값은 가끔 유익한 정보를 제공하기도 하고, 때로는 골칫거리가 되기도 한다.
- 하지만 이상 검출에서는 대부분의 정상적인 데이터보다는 예외적으로 측정된 특잇값이 주된 관심의 대상이 된다.
np.mean과 np.average의 차이
- np.mean: 단술 산술 평균을 계산, 가중치 사용 x
- np.average: 기본적으로 단순 산술 평균을 계산하지만, 'weights' 매개변수를 사용해 가중 평균 계산 가능
import numpy as np numbers = [1, 2, 3, 4, 5] # numpy 배열로 변환 array = np.array(numbers) # 산술 평균 mean_value = np.mean(array) # 가중치 없는 가중 평균 average_value = np.average(array) # 가중치를 부여 weights = [1, 2, 3, 4, 5] weighted_average = np.average(array, weights=weights) print("np.mean:", mean_value) print("np.average without weights:", average_value) print("np.average with weights:", weighted_average)
변이 추정
- 데이터 값이 얼마나 밀집해 있는지 혹은 퍼져 있는지를 나타내는 산포도를 나타낸다.
표준편차와 관련 추정값들
평균절대편차
: 관측 데이터와 위치 추정값 사이의 절댓값의 평균을 구하는 것
분산
: 제곱편차의 평균
표준편차
: 분산의 제곱근
자유도 n 아니면 n-1?
만약 분산 수식에 n을 분모로 사용한다면, 모집단의 분산과 표준편차의 참값을 과소평가하게 된다. 이를 편향 추정이라고 부른다. 하지만 만약 n 대신 n-1로 나눈다면, 이 분산은 비편향 추정이 된다.
분산, 표준편차, 평균절대편차 모두 특잇값과 극단값에 로버스트하지 않다(분산과 표준편차는 제곱편차를 사용하기 때문에 특히 특잇값에 민감하다).
로버스트한 변이 추정값으로는 중간값의 중위절대편차(MAD)가 있다.
중위절대편차의 계산 방법
1. 데이터의 중위수를 구한다.
2. 각 데이터 값에서 중위수를 뺀 후 절대값을 취한다.
3. 위 절대 편차들의 중위수를 구한다.
import numpy as np def calculate_mad(data): median = np.median(data) absolute_deviations = np.abs(data - median) mad = np.median(absolute_deviations) return mad # 데이터 세트 data = np.array([2, 3, 6, 8, 11]) # MAD 계산 mad_value = calculate_mad(data) print("Median Absolute Deviation (MAD):", mad_value)
백분위수에 기초한 추정
순서통계량
: 정렬(순위) 데이터를 나타내는 통계량
범위
: 가장 큰 값과 작은 값의 차이
백분위수
: 데이터에서 P번째 백분위수는 P퍼센트의 값이 그 값 혹은 그보다 작은 값을 갖고 (100-P)퍼센트의 값이 그 값 혹은 그보다 큰 값을 갖는 어떤 값을 의미
분위수
: 백분위수를 분수 형태로 나타낸 것으로 0.8분위수는 80번째 백분위수와 같다.
사분위범위(IQR)
: 25번째 백분위수와 75번째 백분위수 차이를 보는 것
- Q1: 데이터의 하위 25% 지점
- Q3: 데이터의 상위 25% 지점
- IQR = Q3 - Q1: 중간 50% 데이터 범위
'데이터 분석 > 통계' 카테고리의 다른 글
CH 04. 회귀와 예측 (1) 2024.06.20 CH 03. 통계적 실험과 유의성검정_2 (0) 2024.06.11 CH 03. 통계적 실험과 유의성검정_1 (0) 2024.06.10 CH 02. 데이터와 표본분포 (1) 2024.06.09 CH 01. 데이터 탐색적 분석_시각화 (0) 2024.06.09