📚 데이터 처리와 분석을 위한 파이썬 라이브러리로, 대용량의 데이터들을 처리하는데 매우 편리한 특징을 가지고 있습니다
행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있습니다.
Pandas는 총 세가지 데이터 구조를 사용됩니다.
Series
DataFrame
Panel
이 중에서 가장 많이 사용되는 데이터 프레임을 보겠습니다.
DataFrame
데이터 프레임은 2차원 리스트를 매개변수로 전달합니다. 2차원이므로 행방향 인덱스(index)와 열방향 인덱스(column)가 존재합니다. 즉 행과 열을 가지는 자료구조입니다.
values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']
df = pd.DataFrame(values, index=index, columns=columns)
print('데이터프레임 출력 :')
print(df)
데이터프레임 출력 :
A B C
one 1 2 3
two 4 5 6
three 7 8 9
외부 데이터를 가지고 데이터 프레임 생성하고 조회하기
"example.csv"의 모습 예시
df = pd.read_csv('example.csv')
print(df)
######################################
student id name score
0 1000 Steve 90.72
1 1001 James 78.09
2 1002 Doyeon 98.43
3 1003 Jane 64.19
4 1004 Pilwoong 81.30
5 1005 Tony 99.14
# 위의 경우 인덱스가 자동으로 부여 됩니다.
print(df.index)
RangeIndex(start=0,stop=6,step=1)
### 데이터 프레임 조회 하기 ###
#앞 부분 2개까지 보기
print(df.head(2))
#########################
student id name score
0 1000 Steve 90.72
1 1001 James 78.09
#########################
# 뒷 부분 4개 까지 보기
print(df.tail(4))
#########################
student id name score
2 1002 Doyeon 98.43
3 1003 Jane 64.19
4 1004 Pilwoong 81.30
5 1005 Tony 99.14
#########################
# 'name'에 해당하는 열을 보기
print(df['name'])
#########################
0 Steve
1 James
2 Doyeon
3 Jane
4 Pilwoong
5 Tony
Name: name, dtype: object
#########################