데이터 프레임 기본 정보
데이터프레임 변수에 담기
df = pd.read_csv("/content/drive/MyDrive/데이터분석/korean-idol (1).csv")
데이터프레임 출력
df
데이터프레임의 타입
type(df) # pandas.core.frame.DataFrame
info()
- 기본적인 행(row), 열(column)의 정보와 데이터 타입을 보여줌
- 처음 데이터를 받았을 때, 데이터 프레임 구조를 파악하기 용이함
- 데이터 분석 할 때, 자주 사용하는 중요한 메소드!!
df.info()
열(column) 다루기
컬럼명 가져오기
df.columns
통계정보 알아보기
describe()
- 통계 정보를 출력
- 처음 데이터를 분석 할 때, 사용하면 좋음
- 데이터 분석 할 때, 자주 사용하는 중요한 메소드!!
df.describe()
# count : 갯수
# mean : 평균
# std : 표준편차
# min : 최소값
# **% : * 4분위 수
# max : 최대값
describe(include=object)
- 객체 타입 열만을 포함하여 요약 통계를 생성
df.describe(include=object)
# conut : 갯수
# unique : 중복값 제거한 나머지
# top : 맨 위에 있는 값
# freq : 빈도 수
형태(shape) 알아보기
shape
df.shape
원하는 개수의 데이터 보기
- head() : 상위 5개의 row를 출력
- head(n) : 상위 n개의 row를 출력
- tail() : 하위 5개의 row를 출력
- tail(n) : 하위 n개의 rowd를 출력
head()
df.head()
df.head(7)
tail()
df.tail()
df.tail(3)
정렬하기
sort_index()
- index로 오름차순 정렬 : 기본값
df.sort_index()
sort_index(ascending=False)
- index로 내림차순 정렬
df.sort_index(ascending=False)
sort_values(by='컬럼명')
- 값에 따른 오름차순 정렬
- nan은 맨 밑에 깔림
# 몸무게를 기준으로 오름차순 정렬하기
df.sort_values(by="height")
sort_values(by='컬럼명', ascending=False)
- 값에 따른 내림차순 정렬
- nan은 맨 밑에 깔림
df.sort_values(by="height", ascending=False)
df.sort_values(by="height", na_position="first")
- na_position="first" : NaN을 가장 위로 올리기: na_position의 기본값은 last
1차 정렬: 키(내림차순), 2차 정렬: 브랜드(오름차순)
df.sort_values(by=["height", "brand"], ascending=[False, True], na_position="first")
'데이터 분석' 카테고리의 다른 글
2-4. 결측값(Null, NaN) (0) | 2023.06.08 |
---|---|
2-3. 데이터 다루기 (0) | 2023.06.08 |
2-1. CSV 파일 다루기 (0) | 2023.05.31 |
2. Pandas(판다스) (0) | 2023.05.29 |
1. 넘파이(Numpy) (0) | 2023.05.29 |