데이터 분석/통계
-
CH 07. 비지도 학습데이터 분석/통계 2024. 7. 4. 17:35
주성분분석(PCA; Principal Components Analysis)- 흔히 변수들은 함께 변하기 때문에(공변), 어느 한 변수에서의 일부 변화는 실제로 다른 변수에서의 변화에 의해 중복되기도 한다(예를 들어 식당의 음식 값과 팁). 주성분분석은 수치형 변수가 어떤 식으로 공변하는지 알아내는 기법이다.- 전체 변수들의 변동성을 거의 대부분 설명할 수 있는 적은 수의 변수들의 집합을 주성분이라고 하며, 이를 이용해 데이터의 차원을 줄일 수 있다. 주성분을 만드는 데 사용되는 가중치는 결국 새로운 주성분을 만드는 데 기존의 변수들이 어느 정도 기여하는지를 보여준다. 주성분 계산- 주성분은 예측변수(수치형)들의 선형결합으로, 수치형 변수에 적용되며 범주형 변수에는 적용할 수 없다. 주성분 해석- 주성분들..
-
CH 06. 통계적 머신러닝데이터 분석/통계 2024. 7. 3. 12:50
k-최근접 이웃(KNN; K-Nearest Neighbors) 특징들이 가장 유사한(예측변수들이 유사한) k개의 레코드를 찾는다.분류: 이 유사한 레코드들 중에 다수가 속한 클래스가 무엇인지 찾은 후에 새로운 레코드를 그 클래스에 할당한다.예측(KNN 회귀라고도 함): 유사한 레코드들의 평균을 찾아서 새로운 레코드에 대한 예측값으로 사용한다. KNN 예제loan200 = pd.read_csv(LOAN200_CSV) predictors = ['payment_inc_ratio', 'dti']outcome = 'outcome'newloan = loan200.loc[0:0, predictors]X = loan200.loc[1:, predictors]y = loan200.loc[1:, outcome]knn = K..
-
CH 05. 분류데이터 분석/통계 2024. 6. 25. 14:14
나이브 베이즈 - 예측변수가 주어졌을 때, 결과 Y=i를 관찰할 확률 - 나이브 베이즈는 통계의 방법으로 간주되지 않는다.- 나이브 베이즈는 상대적으로 통계 지식이 거의 필요 없는 데이터 중심의 경험적 방법이다.- 나이브 베이즈는 예측변수와 결과변수 모두 범주형(요인)이어야 한다. 각 출력 카테고리 안에서, 어떤 예측변수의 카테고리가 가장 가능성이 높은가? 답하고자 하는 질문이다. 그리고 이 정보는 주어진 예측변수 값에 대해, 결과 카테고리의 확률을 추정하는 것으로 바뀐다. 수치형 예측변수- 베이즈 분류기는 예측변수들이 범주형인 경우에 적합하다.- 수치형 변수에 나이브 베이즈 방법을 적용하기 위해서는, 두 가지 접근법 중 하나를 따라야 한다.수치형 예측변수를 비닝하여 범주형으로 변환한 뒤, 알고리즘을 적..
-
CH 04. 회귀와 예측데이터 분석/통계 2024. 6. 20. 09:59
단순선형회귀회귀식Y = b_0 + b_1X- b_0은 절편(상수), b_1은 X의 기울기이다. 보통은 b_1을 주로 계수(coefficient)라고 한다.- 변수 Y는 X에 따라 달라지기 때문에 응답변수 혹은 종속변수라고 불린다.- 변수 X는 독립변수 혹은 예측변수라고 한다.- 머신러닝 분야에서 Y는 목표벡터, X는 피처벡터라고 달리 부른다. 적합값과 잔차- 회귀분석에서 중요한 개념은 적합값(예측값)과 잔차(예측 오차)이다.- 보통 모든 데이터가 정확히 한 직선 안에 들어오지는 않는다. 따라서 회귀식은 명시적으로 오차항 e_i를 포함한다. 최소제곱 (OLS; Ordinary Least Squares) 최소제곱회귀(=최소자승법): 잔차제곱합을 최소화하는 방법- 역사적으로 최소제곱이 회귀에서 널리 쓰이게 된..
-
CH 03. 통계적 실험과 유의성검정_2데이터 분석/통계 2024. 6. 11. 09:57
통계적 유의성과 p 값통계적 유의성: 실험의 결과가 우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법 p 값: 확률모형이 관측된 결과보다 더 극단적인 결과를 생성하는 빈도 p 값에 대한 논란p 값을 통해 전달하고자 하는 의미 → 결과가 우연에서 비롯될 확률실제 p 값의 의미 → 랜덤 모델이 주어졌을 때, 그 결과가 관찰된 결과보다 더 극단적일 확률 - p 값이 유의미하다고 해서 그것이 기대처럼 바로 '증거'가 되는 것은 아니다.- p 값의 진짜 의미를 이해하면 '통계적으로 유의미하다'라는 결론에 대한 논리적 뒷받침이 다소 약하다는 것을 알게 된다.더보기미국통계협회 성명서는 연구자들과 저널 편집자들에게 아래 6가지 원칙을 강조했다.p 값은 이 데이터가 특정 통계 모멜과 얼..
-
CH 03. 통계적 실험과 유의성검정_1데이터 분석/통계 2024. 6. 10. 21:16
전형적인 통계 추론 과정가설을 세운다.실험을 설계한다.데이터를 수집한다.추론 및 결론을 도출한다.A/B검정- 두 가지 처리 방법, 제품, 절차 중 어느 쪽이 다른 쪽보다 더 우월하다는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험- 종종 두 가지 처리 방법 중 하나는 기준이 되는 기존 방법이거나 아예 아무런 처리도 적용하지 않는 방법이 된다. 이를 대조군이라고 한다. 새로운 처리 방법을 적용하는 것보다 대조군이 더 낫다는 것이 일반적인 가설이 된다.- 제대로 된 A/B 검정에는 둘 중 어느 한쪽의 처리를 할당할 수 있는 대상이 주어진다. 대상은 사람이 될 수도 있고, 웹 방문자가 될 수도 있다. 핵심은 피험자가 어떤 특정 처리에 노출된다는 것이다. 이상적으로, 피험자는 무작위로 어느 처리..
-
CH 02. 데이터와 표본분포데이터 분석/통계 2024. 6. 9. 15:38
임의표본추출과 표본편향표본: 더 큰 데이터 집합으로부터 얻은 데이터의 부분집합 모집단: 어떤 데이터 집합을 구성하는 전체 대상 혹은 전체 집합 임의표본추출(임의표집, 랜덤표본추출): 무작위로 표본을 추출하는 것 층화표본추출(층화표집): 모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 것 계층: 공통된 특징을 가진 모집단의 동종 하위 그룹 단순임의표본(단순랜덤표본): 모집단 층화 없이 임의표본추출로 얻은 표본 편향: 계통상의 오류 표본편향: 모집단을 잘못 대표하는 표본 선택편향- 데이터를 의식적이든 무의식적이든 선택적으로 고르는 관행을 의미한다. 결국 오해의 소지가 있거나 던편적인 결론을 얻게 된다.선택편향: 관측 데이터를 선택하는 방식 때문에 생기는 편향 데이터 스누핑: 뭔가 흥미로운 것을..
-
CH 01. 데이터 탐색적 분석_시각화데이터 분석/통계 2024. 6. 9. 14:57
데이터 분포 탐색백분위수와 상자그림(box plot)- 백분위수는 데이터의 흩어진 정도를 측정하고, 전체 분포를 알아보는 데에도 유용하다.- pandas의 quantile을 이용해 구할 수 있다.- 상자그림은 백분위수를 이용해 데이터의 분산을 손쉽게 시각화하는 방법이다.ax = (state['Population']/1_000_000).plot.box(figsize=(3, 4))ax.set_ylabel('Population (millions)')plt.tight_layout()plt.show() - 인구의 중간값이 약 500만이고, 절반이 약 200만에서 약 700만 사이이며, 인구수가 높은 이상치가 있음을 알 수 있다. - 상자 부분의 위쪽과 아래쪽은 각각 75%와 , 25% 백분위수를 나타낸다.- 중..