일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 서열정렬
- CNN
- MERS
- 알파폴드
- 인공신경망
- COVID
- SVM
- 블록체인
- ncbi
- 딥러닝
- 결정트리
- Kaggle
- AP
- 인공지능 수학
- 이항분포
- 캐글
- 시그모이드
- 행렬
- 오류역전파
- 자바
- 바이오파이썬
- 바이오인포매틱스
- 인공지능
- bioinformatics
- 생물정보학
- 파이썬
- Java
- 생명정보학
- AP Computer Science A
- BLaST
- Today
- Total
목록Kaggle 데이터 분석, 딥러닝 (16)
데이터 과학

비모수 통계 분석을 할 때는 카이 스퀘어(Chi square)를 사용합니다. 이번 내용의 카이 스퀘어는 사회조사방법론의 카이스퀘어 방법으로 사용하는 이유는 카테고리 데이터를 분석할 때 사용을 하는데, 여론조사나 TV 시청률 조사를 할 때 많이 사용하는 방법입니다. 카이 스퀘어 공식은 간단합니다. 기댓값과 과 관찰값에 대한 비례 수식입니다. 카이 스퀘어에서 스퀘어가 붙는 이유는 공식에 있습니다. 다음은 챗GPT에서 설명하는 카이스퀘어에 대한 내용을 한번 읽어 봅시다. ------------- 카이 제곱(χ²) 검정은 사회과학 및 통계학에서 널리 사용되는 통계적인 방법 중 하나입니다. 이 방법은 두 범주형 변수 간의 관련성을 검증하거나 관찰된 빈도가 기대되는 빈도와 일치하는지를 판단하는 데 사용됩니다. 이를..
회귀분석은 두 데이터 간의 자료의 관계성을 나타나는 분야입니다. 회귀 분석은 종속 변수와 한 개 이상의 독립 변수 간의 관계를 분석하는 통계적 기법입니다. 이를 통해 독립 변수의 값을 기반으로 종속 변수의 값을 예측하거나, 독립 변수와 종속 변수 사이의 관계를 이해할 수 있습니다. 아래는 회귀 분석의 사례 중 하나를 설명해 드리겠습니다. - 가정: 한 회사에서 제품의 판매량을 예측하고자 합니다. 회사는 광고 비용과 판매량 사이의 관계를 알아보기 위해 데이터를 수집했습니다. 광고 비용은 독립 변수로, 판매량은 종속 변수로 설정합니다. - 접근 방법: 데이터 수집: 회사는 여러 지역에서 광고 비용과 해당 지역에서의 판매량을 기록했습니다. 이 데이터를 사용하여 회귀 분석을 수행할 수 있습니다. 데이터 전처리:..
kaggle에서의 가설검정(hypothesis test)은 SPSS에서의 ANOVA표에서 나오는 방법과는 좀 다른 부분이 있습니다. 검색을 해 보면 여러 가지 파이썬으로 프로그래밍 한 결과들이 나오는데 이전에 SPSS에서 공부했던 내용과는 좀 더 간단하고 간편한 내용이 나타납니다. 카이스퀘어 내용도 나오고, F 분포에 대한 내용도 나오지만 SPSS에서의 분석가능했던 내용보다는 많은 부분이 생략된 느낌입니다. 그래도 기본적인 데이터분석을 할 수 있고, 표현하는 방법들이 있으니 한번 살펴봅시다. 아래 예제는 데이터 분석의 기초라고 할 수 있는 예제입니다. https://www.kaggle.com/code/kanncaa1/statistical-learning-tutorial-for-beginners Stati..

캐글에서 판다스 소스를 보다가 포멧몬들의 능력치를 분석하는 자료들이 있어서 링크를 걸어 봅니다. 내용이 재미있고, 판다스를 처음 배우는 사람들에게 도움이 될 것 같습니다. 챗GPT는 포켓몬 분석을 아래와 같이 설명하고 있습니다. # chatGPT에서의 판다스를 활용하는 포켓몬 데이터 분석 import pandas as pd # CSV 파일을 읽어서 데이터프레임 생성 df = pd.read_csv('pokemon.csv') # 데이터프레임의 처음 5개 행 출력 print(df.head()) # 데이터프레임의 기본 정보 출력 print(df.info()) # 특정 열(컬럼) 선택하기 selected_columns = ['Name', 'Type 1', 'Type 2', 'HP'] subset = df[sele..