데이터 과학

판다스 - 데이터프레임 본문

Kaggle 데이터 분석, 딥러닝

판다스 - 데이터프레임

티에스윤 2023. 3. 23. 17:12

판다스(Pandas)는 파이썬에서 데이터를 처리하기 위한 라이브러리로, 데이터프레임(DataFrame)이라는 자료구조를 제공합니다. 데이터프레임은 엑셀과 같은 스프레드시트 형태로 구성되어 있으며, 행과 열로 이루어진 2차원 배열입니다.

판다스의 데이터프레임은 행과 열에 각각 인덱스(index)와 컬럼(column) 이름을 가지고 있습니다. 이를 통해 각 셀에 있는 데이터에 쉽게 접근할 수 있습니다.

데이터프레임은 일반적으로 CSV, Excel, SQL 데이터베이스 등 다양한 데이터 소스로부터 데이터를 읽어 들여서 생성할 수 있습니다. 데이터프레임을 생성하고 나면, 다양한 연산을 수행할 수 있습니다. 예를 들어, 데이터프레임에서 특정 조건에 맞는 행이나 열을 추출하거나, 행과 열을 추가/삭제하는 등의 작업이 가능합니다.

판다스의 데이터프레임은 다른 프로그래밍 언어에서도 사용 가능하며, 데이터 분석, 머신러닝, 인공지능 등 다양한 분야에서 활용됩니다.


다음은 간단한 예제를 통해 파이썬 판다스에서 데이터프레임을 어떻게 다루는지 알아보겠습니다.

import pandas as pd

# 데이터프레임 생성
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'],
    'age': [25, 30, 35, 40, 45],
    'country': ['USA', 'Canada', 'UK', 'Australia', 'USA']
}

df = pd.DataFrame(data)

# 데이터프레임 출력
print(df)


위 코드에서는 먼저 pandas 라이브러리를 pd라는 이름으로 import 합니다. 그리고 딕셔너리(Dictionary) 형태로 데이터를 정의하고, 이를 pd.DataFrame 함수를 이용해 데이터프레임으로 변환합니다.

df 변수에는 아래와 같이 데이터프레임이 할당됩니다.

       name  age    country
0     Alice   25        USA
1       Bob   30     Canada
2   Charlie   35         UK
3     David   40  Australia
4     Emily   45        USA


데이터프레임은 2차원 배열 형태로 데이터가 출력됩니다. 각 열(column)은 딕셔너리의 key를 기준으로 이름이 부여되며, 각 행(row)은 인덱스(index) 번호를 갖게 됩니다.

데이터프레임에서는 열(column) 이름을 이용하여 해당 열의 데이터에 쉽게 접근할 수 있습니다. 예를 들어, df['name']을 이용하면 'name' 열에 해당하는 모든 데이터를 추출할 수 있습니다.


0       Alice
1         Bob
2     Charlie
3       David
4       Emily
Name: name, dtype: object


데이터프레임에서는 인덱스(index)를 이용하여 해당 행(row)의 데이터에 쉽게 접근할 수 있습니다. 예를 들어, df.loc[2]을 이용하면 인덱스가 2인 행의 데이터를 추출할 수 있습니다.


name      Charlie
age            35
country        UK
Name: 2, dtype: object


데이터프레임에서는 다양한 연산을 수행할 수 있습니다. 예를 들어, df['age'].mean()을 이용하면 'age' 열에 해당하는 모든 데이터의 평균값을 계산할 수 있습니다.


35.0

이처럼 파이썬 판다스에서 데이터프레임은 다양한 연산을 수행할 수 있는 유연하고 편리한 자료구조입니다.



 

https://datascienceschool.net/01%20python/04.01%20%ED%8C%90%EB%8B%A4%EC%8A%A4%20%ED%8C%A8%ED%82%A4%EC%A7%80%EC%9D%98%20%EC%86%8C%EA%B0%9C.html

 

4.1 판다스 패키지의 소개 — 데이터 사이언스 스쿨

.ipynb .pdf to have style consistency -->

datascienceschool.net

 

'Kaggle 데이터 분석, 딥러닝' 카테고리의 다른 글

판다스로 분석하는 포켓몬  (1) 2023.05.16
디렉토리 관련 명령어  (0) 2023.03.30
판다스(PANDAS) 안내  (0) 2023.03.22
Kaggle에서 MNIST  (0) 2022.09.18
Kaggle에서 딥러닝 시작  (0) 2022.08.28