일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- bioinformatics
- 시그모이드
- 바이오파이썬
- 바이오인포매틱스
- 자바
- 알파폴드
- 서열정렬
- AP Computer Science A
- Kaggle
- AP
- 생물정보학
- Java
- 행렬
- 인공지능
- COVID
- MERS
- CNN
- 인공신경망
- 생명정보학
- 오류역전파
- 파이썬
- 인공지능 수학
- 캐글
- 딥러닝
- 결정트리
- 이항분포
- 블록체인
- SVM
- BLaST
- ncbi
- Today
- Total
데이터 과학
판다스(PANDAS) 안내 본문
Pandas는 파이썬에서 사용되는 데이터 처리 및 분석을 위한 라이브러리입니다. Pandas는 구조화된 데이터를 다루기 위한 데이터프레임(DataFrame)과 시리즈(Series)라는 자료구조를 제공합니다.
데이터프레임은 행과 열로 이루어진 2차원 배열로, 열마다 데이터 타입이 다를 수 있습니다. 데이터프레임은 CSV, Excel, SQL 데이터베이스 등 다양한 데이터 소스에서 데이터를 읽어오거나, 내보내는 등의 작업을 할 수 있습니다.
시리즈는 데이터프레임의 한 열(column)을 나타내며, 단일 열 데이터를 다룰 때 사용됩니다.
Pandas는 데이터의 선택, 조작, 병합, 그룹화, 결측값 처리, 시계열 데이터 분석 등의 다양한 작업을 지원합니다.
또한, NumPy와 함께 사용되어 데이터 분석 및 머신러닝 등의 영역에서 널리 활용되고 있습니다.
다음은 Pandas를 이용한 간단한 데이터프레임 생성 예시입니다.
import pandas as pd
# 데이터프레임 생성
df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'gender': ['F', 'M', 'M']})
# 데이터프레임 출력
print(df)
# CSV 파일을 이용한 데이터프레임 생성
df2 = pd.read_csv('data.csv')
# 엑셀 파일을 이용한 데이터프레임 생성
df3 = pd.read_excel('data.xlsx')
위의 코드에서는 세 명의 사람에 대한 정보를 가지고 있는 데이터프레임을 생성하고, 출력합니다. 이와 같이 Pandas를 이용하여 데이터를 구조화하고, 다양한 작업을 수행할 수 있습니다.
데이터프레임
데이터프레임에서는 다음과 같은 작업을 수행할 수 있습니다.
- 데이터 선택: 특정 열(column)이나 행(row)을 선택하거나, 특정 조건을 만족하는 데이터를 선택합니다.
- 데이터 조작: 데이터를 정렬하거나, 중복을 제거하거나, 결측값을 처리합니다.
- 데이터 그룹화: 데이터를 특정 조건에 따라 그룹화하거나, 그룹별로 통계치를 계산합니다.
- 데이터 병합: 두 개 이상의 데이터프레임을 병합하여 새로운 데이터프레임을 생성합니다.
- 데이터 입출력: CSV, Excel, SQL 데이터베이스 등 다양한 데이터 소스에서 데이터를 읽어오거나, 내보내는 등의 작업을 수행합니다.
시리즈
판다스(Pandas)는 파이썬에서 데이터를 처리하는 라이브러리로, 시리즈(Series)는 판다스에서 제공하는 1차원 배열과 비슷한 자료구조입니다. 시리즈는 값(value)과 인덱스(index)로 이루어져 있으며, 인덱스는 각 값에 대한 고유한 이름을 지정할 수 있습니다. 시리즈를 이용하면 간단하게 데이터를 처리하고 분석할 수 있습니다.
시리즈 생성
import pandas as pd
# 시리즈 생성 (인덱스 지정)
s = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(s)
# 출력
# a 10
# b 20
# c 30
# d 40
# e 50
# dtype: int64
시리즈 연산
시리즈는 다른 시리즈나 스칼라(Scalar)와의 연산이 가능합니다. 예를 들어, 다음과 같이 시리즈와 스칼라의 덧셈 연산을 수행할 수 있습니다.
import pandas as pd
# 시리즈 생성
s = pd.Series([10, 20, 30, 40, 50])
# 시리즈와 스칼라의 덧셈 연산
s = s + 5
print(s)
# 출력
# 0 15
# 1 25
# 2 35
# 3 45
# 4 55
# dtype: int64
시리즈 간의 연산도 가능합니다. 이 경우에는 인덱스가 일치하는 요소끼리 연산이 수행됩니다.
import pandas as pd
# 시리즈 생성
s1 = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
s2 = pd.Series([5, 10, 15, 20, 25], index=['a', 'b', 'c', 'd', 'e'])
# 시리즈 간의 덧셈 연산
s3 = s1 + s2
print(s3)
# 출력
# a 15
# b 30
# c 45
# d 60
# e 75
# dtype: int64
시리즈 인덱싱
시리즈는 인덱스를 이용하여 값을 참조할 수 있습니다. 인덱스는 다음과 같은 방법으로 지정할 수 있습니다.
Series 인덱싱은 다음과 같은 방법으로 할 수 있습니다.
1. 정수형 인덱스를 사용한 인덱싱
Series 객체의 인덱스를 이용하여 정수형 인덱싱을 할 수 있습니다. 예를 들어, s[0]은 Series 객체 s의 첫 번째 요소를 반환합니다.
import pandas as pd
s = pd.Series([1, 2, 3, 4, 5])
print(s[0]) # 1 출력
2. 라벨을 사용한 인덱싱
Series 객체의 인덱스를 이용하여 라벨(label)을 사용한 인덱싱을 할 수 있습니다. 예를 들어, s['a']는 Series 객체 s에서 인덱스 라벨이 'a'인 요소를 반환합니다.
import pandas as pd
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s['a']) # 1 출력
3. 슬라이싱
Series 객체에서 슬라이싱을 이용하여 범위를 지정하여 인덱싱할 수 있습니다. 예를 들어, s[1:3]은 Series 객체 s에서 1번째부터 3번째 요소까지를 반환합니다.
import pandas as pd
s = pd.Series([1, 2, 3, 4, 5])
print(s[1:3]) # 2, 3 출력
4. 조건을 사용한 인덱싱
Series 객체에서 조건을 이용하여 특정 조건에 맞는 데이터를 인덱싱할 수 있습니다. 예를 들어, s[s > 3]은 Series 객체 s에서 3보다 큰 요소들을 반환합니다.
import pandas as pd
s = pd.Series([1, 2, 3, 4, 5])
print(s[s > 3]) # 4, 5 출력
https://dandyrilla.github.io/2017-08-12/pandas-10min/
파이썬 공부하기
https://www.kaggle.com/mysarahmadbhat/python-from-zero-to
PYTHON FROM ZERO TO 🦸♂️🦸♀️🔥
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
www.kaggle.com
Pandas 교재
https://wikidocs.net/book/3488
http://www.yes24.com/Product/Goods/74258258
파이썬 머신러닝 판다스 데이터 분석 - YES24
데이터 과학자가 되기 위한 첫걸음!파이썬 초급자나 중급자가 데이터 분석과 머신러닝을 배우고자 마음먹었다면 이 책을 선택해야 한다. 필수 라이브러리를 소개하고 설치부터 예제 코드를 따
www.yes24.com
https://bjpublic.tistory.com/417
파이썬으로 캐글 뽀개기
파이썬으로 캐글 뽀개기 부제 파이썬으로 시작해서 포트폴리오로 취업까지 저자 Evan, 조대연, 김보경, 정필원, 최준영 출간/배본가능일 2021년 8월 27일 정가 31,000원 페이지 572 판형 크라운판 (
bjpublic.tistory.com
'Kaggle 데이터 분석, 딥러닝' 카테고리의 다른 글
디렉토리 관련 명령어 (0) | 2023.03.30 |
---|---|
판다스 - 데이터프레임 (0) | 2023.03.23 |
Kaggle에서 MNIST (0) | 2022.09.18 |
Kaggle에서 딥러닝 시작 (0) | 2022.08.28 |
PANDAS 연습 - 데이터 경시대회에서 우승하는 예제 (0) | 2022.06.07 |