| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- 바이오인포매틱스
- 시그모이드
- 딥러닝
- 인공신경망
- SVM
- bioinformatics
- 생명정보학
- 이항분포
- CNN
- 인공지능 수학
- 결정트리
- ncbi
- 파이썬
- RNN
- 생물정보학
- 블록체인
- AP
- 캐글
- COVID
- Java
- 오류역전파
- 서열정렬
- BLaST
- 바이오파이썬
- 자바
- HMM
- MERS
- AP Computer Science A
- 인공지능
- Kaggle
- Today
- Total
데이터 과학
캐글에서의 가설검정 본문
kaggle에서의 가설검정(hypothesis test)은 SPSS에서의 ANOVA표에서 나오는 방법과는 좀 다른 부분이 있습니다.
검색을 해 보면 여러 가지 파이썬으로 프로그래밍 한 결과들이 나오는데 이전에 SPSS에서 공부했던 내용과는 좀 더 간단하고 간편한 내용이 나타납니다.
카이스퀘어 내용도 나오고, F 분포에 대한 내용도 나오지만 SPSS에서의 분석가능했던 내용보다는 많은 부분이 생략된 느낌입니다.
그래도 기본적인 데이터분석을 할 수 있고, 표현하는 방법들이 있으니 한번 살펴봅시다.
아래 예제는 데이터 분석의 기초라고 할 수 있는 예제입니다.
https://www.kaggle.com/code/kanncaa1/statistical-learning-tutorial-for-beginners
Statistical Learning Tutorial for Beginners
Explore and run machine learning code with Kaggle Notebooks | Using data from Breast Cancer Wisconsin (Diagnostic) Data Set
www.kaggle.com
또 다른 예제 하나는 가설검정의 기본적인 내용을 전부 포함하는 예제입니다. 좋은 예제이니 가설검정을 캐글에서 공부할 때 한번 찾아봐서 공부할 예제입니다.
아래 예제는 포켓몬에서의 HP를 가설검정한 내용입니다.
가설검정에서 귀무가설을 설정을 하는데
귀무가설은 HP와 Defense의 관계가 같다라고 하고,
대립가설은 같지 않다라고 정의합니다.
이에 대한 p-value 값을 구해보니
p-value: 0.0002512305750711713
이 값이 나옵니다. 결과적으로는 0.05 이하값이 되기에 기각(reject)입니다.
A statistical measurement used to validate a hypothesis against observed data.
Reject H0:
If p value > 0.10 → “Not Significant”
If p value ≤ 0.10 → “Marginally Significant”
If p value ≤ 0.05 → “Significant”
If p value ≤ 0.01 → “Highly Significant.”
https://www.kaggle.com/code/hilalmleykeyuksel/statistical-learning-tutorial
Statistical Learning Tutorial
Explore and run machine learning code with Kaggle Notebooks | Using data from Pokemon- Weedle's Cave
www.kaggle.com
그리고, 샤피로 윌키 검정이라고 정규성에 대한 검정방법이 있습니다.
분포가 정규분포인지 아닌지 확인하는 방법인데 이에 대한 명령어가 있습니다.
H0: Population is normally distributed.
H1: Population is not normally distributed.
print("T Test Statistics: ",shapiro(data.HP)[0])
print("P Value : ",shapiro(data.HP)[1])
이렇게 shapiro 함수를 사용해서 명령어를 입력하면 결과값이 나오는데 위 예제에서는 그 값이 0.05보다 작기에 기각합니다.
T Test Statistics: 0.9158304333686829
P Value : 1.1518300198312678e-20
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=jo_hyun&logNo=221309397108
[통계; statistics] 정규성 검정(normality test); shapiro-wilk test
내가 갖고있는 데이터가 정규성을 보이냐 보이지 않느냐에 따라서 통계검정의 방법이 나뉘게 됨. 때...
blog.naver.com
등분산 검정도 사용하는데 가설검정을 아래와 같이 지정하고,
H0: Variances are homogeneous
H1: Variances are not homogeneous
stats.levene(data["Speed"],data["Attack"])
명령어를 입력하면 등분산 검정 결과를 알려줍니다.
[SPSS] 등분산성 검정(Levene의 등분산성 검정)
#SPSS #등분산성 #검정 #Levene 지난 시간에는 독립된 집단의 표본 평균의 차이를 알아보는 "독...
blog.naver.com
이외에 두 표본 검정과 카이스퀘어 검정에 대한 내용도 나와 있습니다.
가설검정을 실습할 때 좋은 예제이니 반드시 실행하고 학습해 봅시다.
'Kaggle 데이터 분석, 딥러닝' 카테고리의 다른 글
| 캐글에서 Chi square 데이터 분석 (1) | 2023.06.08 |
|---|---|
| 캐글에서의 회귀분석 (0) | 2023.05.25 |
| 판다스로 분석하는 포켓몬 (1) | 2023.05.16 |
| 디렉토리 관련 명령어 (0) | 2023.03.30 |
| 판다스 - 데이터프레임 (0) | 2023.03.23 |