데이터 과학

캐글에서의 가설검정 본문

Kaggle 데이터 분석, 딥러닝

캐글에서의 가설검정

티에스윤 2023. 5. 23. 14:45

 

kaggle에서의 가설검정(hypothesis test)은 SPSS에서의 ANOVA표에서 나오는 방법과는 좀 다른 부분이 있습니다. 

 

검색을 해 보면 여러 가지 파이썬으로 프로그래밍 한 결과들이 나오는데 이전에 SPSS에서 공부했던 내용과는 좀 더 간단하고 간편한 내용이 나타납니다. 

 

카이스퀘어 내용도 나오고, F 분포에 대한 내용도 나오지만 SPSS에서의 분석가능했던 내용보다는 많은 부분이 생략된 느낌입니다. 

 

그래도 기본적인 데이터분석을 할 수 있고, 표현하는 방법들이 있으니 한번 살펴봅시다. 

아래 예제는 데이터 분석의 기초라고 할 수 있는 예제입니다. 

 

 

https://www.kaggle.com/code/kanncaa1/statistical-learning-tutorial-for-beginners

 

Statistical Learning Tutorial for Beginners

Explore and run machine learning code with Kaggle Notebooks | Using data from Breast Cancer Wisconsin (Diagnostic) Data Set

www.kaggle.com

 

 

또 다른 예제 하나는 가설검정의 기본적인 내용을 전부 포함하는 예제입니다. 좋은 예제이니 가설검정을 캐글에서 공부할 때 한번 찾아봐서 공부할 예제입니다. 

 

 

아래 예제는 포켓몬에서의 HP를 가설검정한 내용입니다. 

 

가설검정에서 귀무가설을 설정을 하는데

 

귀무가설은 HP와 Defense의 관계가 같다라고 하고,

대립가설은 같지 않다라고 정의합니다. 

 

 

이에 대한 p-value 값을 구해보니

p-value:  0.0002512305750711713

 

이 값이 나옵니다. 결과적으로는 0.05 이하값이 되기에 기각(reject)입니다. 

 

 

A statistical measurement used to validate a hypothesis against observed data.

Reject H0:

If p value > 0.10 → “Not Significant”
If p value ≤ 0.10 → “Marginally Significant”
If p value ≤ 0.05 → “Significant”
If p value ≤ 0.01 → “Highly Significant.”

 

 

 

 

 

https://www.kaggle.com/code/hilalmleykeyuksel/statistical-learning-tutorial

 

Statistical Learning Tutorial

Explore and run machine learning code with Kaggle Notebooks | Using data from Pokemon- Weedle's Cave

www.kaggle.com

 

 

그리고, 샤피로 윌키 검정이라고 정규성에 대한 검정방법이 있습니다. 

 

분포가 정규분포인지 아닌지 확인하는 방법인데 이에 대한 명령어가 있습니다. 

 

H0: Population is normally distributed.
H1: Population is not normally distributed.

 

 

print("T Test Statistics: ",shapiro(data.HP)[0])
print("P Value : ",shapiro(data.HP)[1])

 

이렇게 shapiro 함수를 사용해서 명령어를 입력하면 결과값이 나오는데 위 예제에서는 그 값이 0.05보다 작기에 기각합니다. 

 

T Test Statistics:  0.9158304333686829
P Value :  1.1518300198312678e-20

 

 

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=jo_hyun&logNo=221309397108 

 

[통계; statistics] 정규성 검정(normality test); shapiro-wilk test

 내가 갖고있는 데이터가 정규성을 보이냐 보이지 않느냐에 따라서 통계검정의 방법이 나뉘게 됨. 때...

blog.naver.com

 

등분산 검정도 사용하는데 가설검정을 아래와 같이 지정하고, 

 

H0: Variances are homogeneous
H1: Variances are not homogeneous

 

stats.levene(data["Speed"],data["Attack"])

 

명령어를 입력하면 등분산 검정 결과를 알려줍니다. 

 

 

https://blog.naver.com/PostView.nhn?blogId=ecolab210&logNo=222306105001&parentCategoryNo=&categoryNo=77&viewDate=&isShowPopularPosts=true&from=search 

 

[SPSS] 등분산성 검정(Levene의 등분산성 검정)

#SPSS #등분산성 #검정 #Levene 지난 시간에는 독립된 집단의 표본 평균의 차이를 알아보는 "독...

blog.naver.com

 

 

이외에 두 표본 검정과 카이스퀘어 검정에 대한 내용도 나와 있습니다. 

 

가설검정을 실습할 때 좋은 예제이니 반드시 실행하고 학습해 봅시다.