데이터 과학

Kaggle에서의 데이터 분석 본문

Kaggle 데이터 분석, 딥러닝

Kaggle에서의 데이터 분석

티에스윤 2022. 1. 2. 18:05

데이터 분석 하는 사이트인 Kaggle은 파이썬과 데이터 분석을 학습하기에는 아주 좋은 사이트입니다. 

 

 



https://www.kaggle.com


 

Kaggle Competitions

 

www.kaggle.com

 

competitions, Datasets, Code, Discussions  메뉴들이 있는데 메뉴와 데이터 셋을 잘 활용하면 실력도 늘릴 수 있습니다.


competitions 메뉴를 들어가 보면 최근에 올라오는 데이터셋과 개발자들이 올린 코딩들을 볼 수 있는데 학습하는데 많은 도움이 될 것입니다.

모방이 창조의 어머니이니, 프로그래밍 연습도 타인이 만들어 놓은 프로그래밍을 학습하면 많은 실력이 늘어나겠죠. 

https://www.kaggle.com/competitions

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

 

캐글에서 인기 있는 빅데이터 분석 소스 중 일부는 다음과 같습니다.

1. Titanic: Machine Learning from Disaster


https://www.kaggle.com/c/titanic

 

타이타닉 호 침몰 사건 데이터를 활용해 생존자 예측 문제를 해결하는 경진대회입니다.

 

 

2. House Prices: Advanced Regression Techniques


https://www.kaggle.com/c/house-prices-advanced-regression-techniques

 

집값 데이터를 활용해 집값 예측 문제를 해결하는 경진대회입니다.

 

 

3. San Francisco Crime Classification


https://www.kaggle.com/c/sf-crime

 

샌프란시스코에서 발생한 범죄 데이터를 활용해 범죄 유형 예측 문제를 해결하는 경진대회입니다.

 


4. New York City Taxi Trip Duration


https://www.kaggle.com/c/nyc-taxi-trip-duration

 

뉴욕시 택시 운행 데이터를 활용해 택시 운행 시간 예측 문제를 해결하는 경진대회입니다.

 

 

5. Porto Seguro’s Safe Driver Prediction


https://www.kaggle.com/c/porto-seguro-safe-driver-prediction

 

자동차 보험료를 계산하기 위한 데이터를 활용해 안전 운전자 예측 문제를 해결하는 경진대회입니다.
위 경진대회들은 대회 기간이 지나도 여전히 데이터셋과 소스코드가 공개되어 있습니다. 

 

 

 

지금 한번 Kaggle에 들어가서 Titanic에 대한 예제를 실행해 봅시다. 

 

Titanic: Machine Learning from Disaster는 캐글(kaggle)에서 진행된 대표적인 머신 러닝 경진대회 중 하나입니다. 이 경진대회에서는 타이타닉 호 침몰 사건 데이터를 활용해 생존자 예측 문제를 해결하는 것이 목표였습니다.

아래는 Python을 사용한 예시 코드입니다. 이 코드는 타이타닉 호 침몰 사건 데이터를 분석하고, 머신 러닝 알고리즘을 적용하여 생존자를 예측합니다. 이 코드는 캐글의 예제 코드 중 하나로, 타이타닉 경진대회에서 상위 성적을 거둔 코드 중 하나입니다.


# 필요한 라이브러리 불러오기
import pandas as pd
from sklearn.ensemble import RandomForestClassifier

# 데이터 불러오기
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

# 데이터 전처리
train = train.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)
test = test.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)
train['Age'] = train['Age'].fillna(train['Age'].mean())
train['Embarked'] = train['Embarked'].fillna('S')
train = pd.get_dummies(train)
test['Age'] = test['Age'].fillna(test['Age'].mean())
test['Fare'] = test['Fare'].fillna(test['Fare'].mean())
test = pd.get_dummies(test)

# 머신 러닝 모델 학습 및 예측
X_train = train.drop('Survived', axis=1)
y_train = train['Survived']
X_test = test
rf = RandomForestClassifier(n_estimators=100)
rf.fit(X_train, y_train)
y_pred = rf.predict(X_test)

# 결과 저장
result = pd.DataFrame({'PassengerId': test_passenger_ids, 'Survived': y_pred})
result.to_csv('submission.csv', index=False)



이 코드는 랜덤 포레스트(Random Forest) 알고리즘을 사용하여 생존자를 예측합니다. 코드의 전반적인 흐름은 다음과 같습니다.

1. 필요한 라이브러리를 불러온다.
2. 타이타닉 호 침몰 사건 데이터를 불러온다.
3. 데이터를 전처리한다.
4. 머신 러닝 모델을 학습시킨다.
5. 학습된 모델을 사용하여 테스트 데이터에서 생존자를 예측한다.
6. 결과를 저장한다.


이 코드에서는 랜덤 포레스트 알고리즘을 사용했지만, 다른 머신 러닝 알고리즘을 사용하여 생존자를 예측할 수도 있습니다. 이 코드를 참고하여 머신 러닝 알고리즘을 학습하고 응용하면 됩니다. 

 

 

https://www.kaggle.com/c/titanic

 

Titanic - Machine Learning from Disaster | Kaggle

 

www.kaggle.com

 

https://tsyoon.tistory.com/40

 

타이타닉 생존자 분석

https://www.kaggle.com/advaitchavan/titanic-survival-analysis Titanic survival analysis Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com 캐글 competitions에서 타이

tsyoon.tistory.com

 

'Kaggle 데이터 분석, 딥러닝' 카테고리의 다른 글

시각화 seaborn  (0) 2022.05.31
신용카드 채무 불이행 예측 모델  (0) 2022.05.30
캐글, 상태 추출 예제  (0) 2022.05.10
PANDAS 시리즈와 데이터프레임  (0) 2022.05.03
타이타닉 생존자 분석  (0) 2022.01.21