Pandas, DataFrame

데이터 분석에 사용되며 인공지능 모델 학습등의 코드에서 사용되는 내용입니다.

Pandas?

📚 데이터 처리와 분석을 위한 파이썬 라이브러리로, 대용량의 데이터들을 처리하는데 매우 편리한 특징을 가지고 있습니다

행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있습니다.

Pandas는 총 세가지 데이터 구조를 사용됩니다.

  • Series

  • DataFrame

  • Panel

이 중에서 가장 많이 사용되는 데이터 프레임을 보겠습니다.

DataFrame

  • 데이터 프레임은 2차원 리스트를 매개변수로 전달합니다. 2차원이므로 행방향 인덱스(index)와 열방향 인덱스(column)가 존재합니다. 즉 행과 열을 가지는 자료구조입니다.

values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)

print('데이터프레임 출력 :')

print(df)

데이터프레임 출력 :
A  B  C
one    1  2  3
two    4  5  6
three  7  8  9

외부 데이터를 가지고 데이터 프레임 생성하고 조회하기

"example.csv"의 모습 예시

df = pd.read_csv('example.csv')
print(df)

######################################

   student id      name  score
0        1000     Steve  90.72
1        1001     James  78.09
2        1002    Doyeon  98.43
3        1003      Jane  64.19
4        1004  Pilwoong  81.30
5        1005      Tony  99.14

# 위의 경우 인덱스가 자동으로 부여 됩니다.

print(df.index)

RangeIndex(start=0,stop=6,step=1)

### 데이터 프레임 조회 하기 ###

#앞 부분 2개까지 보기
print(df.head(2))

#########################
   student id      name  score
0        1000     Steve  90.72
1        1001     James  78.09
#########################

# 뒷 부분 4개 까지 보기
print(df.tail(4))

#########################
   student id      name  score
2        1002    Doyeon  98.43
3        1003      Jane  64.19
4        1004  Pilwoong  81.30
5        1005      Tony  99.14
#########################

# 'name'에 해당하는 열을 보기
print(df['name'])

#########################

0    Steve
1    James
2    Doyeon 
3    Jane
4    Pilwoong 
5    Tony 
Name: name, dtype: object
#########################

Last updated