데이터 과학

판다스(PANDAS) 안내 본문

Kaggle 데이터 분석, 딥러닝

판다스(PANDAS) 안내

티에스윤 2023. 3. 22. 14:36

Pandas는 파이썬에서 사용되는 데이터 처리 및 분석을 위한 라이브러리입니다. Pandas는 구조화된 데이터를 다루기 위한 데이터프레임(DataFrame)과 시리즈(Series)라는 자료구조를 제공합니다.

데이터프레임은 행과 열로 이루어진 2차원 배열로, 열마다 데이터 타입이 다를 수 있습니다. 데이터프레임은 CSV, Excel, SQL 데이터베이스 등 다양한 데이터 소스에서 데이터를 읽어오거나, 내보내는 등의 작업을 할 수 있습니다.

시리즈는 데이터프레임의 한 열(column)을 나타내며, 단일 열 데이터를 다룰 때 사용됩니다.

Pandas는 데이터의 선택, 조작, 병합, 그룹화, 결측값 처리, 시계열 데이터 분석 등의 다양한 작업을 지원합니다. 

또한, NumPy와 함께 사용되어 데이터 분석 및 머신러닝 등의 영역에서 널리 활용되고 있습니다.

다음은 Pandas를 이용한 간단한 데이터프레임 생성 예시입니다.


import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'gender': ['F', 'M', 'M']})

# 데이터프레임 출력
print(df)

# CSV 파일을 이용한 데이터프레임 생성
df2 = pd.read_csv('data.csv')

# 엑셀 파일을 이용한 데이터프레임 생성
df3 = pd.read_excel('data.xlsx')


위의 코드에서는 세 명의 사람에 대한 정보를 가지고 있는 데이터프레임을 생성하고, 출력합니다. 이와 같이 Pandas를 이용하여 데이터를 구조화하고, 다양한 작업을 수행할 수 있습니다.

 

 

데이터프레임


데이터프레임에서는 다음과 같은 작업을 수행할 수 있습니다.

- 데이터 선택: 특정 열(column)이나 행(row)을 선택하거나, 특정 조건을 만족하는 데이터를 선택합니다.

- 데이터 조작: 데이터를 정렬하거나, 중복을 제거하거나, 결측값을 처리합니다.
- 데이터 그룹화: 데이터를 특정 조건에 따라 그룹화하거나, 그룹별로 통계치를 계산합니다.
- 데이터 병합: 두 개 이상의 데이터프레임을 병합하여 새로운 데이터프레임을 생성합니다.
- 데이터 입출력: CSV, Excel, SQL 데이터베이스 등 다양한 데이터 소스에서 데이터를 읽어오거나, 내보내는 등의 작업을 수행합니다.

 

시리즈


판다스(Pandas)는 파이썬에서 데이터를 처리하는 라이브러리로, 시리즈(Series)는 판다스에서 제공하는 1차원 배열과 비슷한 자료구조입니다. 시리즈는 값(value)과 인덱스(index)로 이루어져 있으며, 인덱스는 각 값에 대한 고유한 이름을 지정할 수 있습니다. 시리즈를 이용하면 간단하게 데이터를 처리하고 분석할 수 있습니다.



시리즈 생성

import pandas as pd

# 시리즈 생성 (인덱스 지정)
s = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(s)

# 출력
# a    10
# b    20
# c    30
# d    40
# e    50
# dtype: int64


시리즈 연산


시리즈는 다른 시리즈나 스칼라(Scalar)와의 연산이 가능합니다. 예를 들어, 다음과 같이 시리즈와 스칼라의 덧셈 연산을 수행할 수 있습니다.

import pandas as pd

# 시리즈 생성
s = pd.Series([10, 20, 30, 40, 50])

# 시리즈와 스칼라의 덧셈 연산
s = s + 5
print(s)

# 출력
# 0    15
# 1    25
# 2    35
# 3    45
# 4    55
# dtype: int64


시리즈 간의 연산도 가능합니다. 이 경우에는 인덱스가 일치하는 요소끼리 연산이 수행됩니다.

import pandas as pd

# 시리즈 생성
s1 = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
s2 = pd.Series([5, 10, 15, 20, 25], index=['a', 'b', 'c', 'd', 'e'])

# 시리즈 간의 덧셈 연산
s3 = s1 + s2
print(s3)

# 출력
# a    15
# b    30
# c    45
# d    60
# e    75
# dtype: int64

 


시리즈 인덱싱


시리즈는 인덱스를 이용하여 값을 참조할 수 있습니다. 인덱스는 다음과 같은 방법으로 지정할 수 있습니다.

Series 인덱싱은 다음과 같은 방법으로 할 수 있습니다.

1. 정수형 인덱스를 사용한 인덱싱
Series 객체의 인덱스를 이용하여 정수형 인덱싱을 할 수 있습니다. 예를 들어, s[0]은 Series 객체 s의 첫 번째 요소를 반환합니다.

import pandas as pd

s = pd.Series([1, 2, 3, 4, 5])
print(s[0]) # 1 출력


2. 라벨을 사용한 인덱싱
Series 객체의 인덱스를 이용하여 라벨(label)을 사용한 인덱싱을 할 수 있습니다. 예를 들어, s['a']는 Series 객체 s에서 인덱스 라벨이 'a'인 요소를 반환합니다.

import pandas as pd

s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s['a']) # 1 출력


3. 슬라이싱
Series 객체에서 슬라이싱을 이용하여 범위를 지정하여 인덱싱할 수 있습니다. 예를 들어, s[1:3]은 Series 객체 s에서 1번째부터 3번째 요소까지를 반환합니다.

import pandas as pd

s = pd.Series([1, 2, 3, 4, 5])
print(s[1:3]) # 2, 3 출력


4. 조건을 사용한 인덱싱
Series 객체에서 조건을 이용하여 특정 조건에 맞는 데이터를 인덱싱할 수 있습니다. 예를 들어, s[s > 3]은 Series 객체 s에서 3보다 큰 요소들을 반환합니다.

import pandas as pd

s = pd.Series([1, 2, 3, 4, 5])
print(s[s > 3]) # 4, 5 출력



https://dandyrilla.github.io/2017-08-12/pandas-10min/


파이썬 공부하기

 

https://www.kaggle.com/mysarahmadbhat/python-from-zero-to


 

PYTHON FROM ZERO TO 🦸‍♂️🦸‍♀️🔥

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

 

Pandas 교재 

 

https://wikidocs.net/book/3488

 

http://www.yes24.com/Product/Goods/74258258

 

파이썬 머신러닝 판다스 데이터 분석 - YES24

데이터 과학자가 되기 위한 첫걸음!파이썬 초급자나 중급자가 데이터 분석과 머신러닝을 배우고자 마음먹었다면 이 책을 선택해야 한다. 필수 라이브러리를 소개하고 설치부터 예제 코드를 따

www.yes24.com

https://bjpublic.tistory.com/417

 

파이썬으로 캐글 뽀개기

파이썬으로 캐글 뽀개기 부제 파이썬으로 시작해서 포트폴리오로 취업까지 저자 Evan, 조대연, 김보경, 정필원, 최준영 출간/배본가능일 2021년 8월 27일 정가 31,000원 페이지 572 판형 크라운판 (

bjpublic.tistory.com