본문 바로가기

데이터 분석

2-2. 데이터 프레임의 기본 정보

데이터 프레임 기본 정보

 

데이터프레임 변수에 담기
df = pd.read_csv("/content/drive/MyDrive/데이터분석/korean-idol (1).csv")

 

데이터프레임 출력
df

 

데이터프레임의 타입
type(df) # pandas.core.frame.DataFrame

 

info()

  • 기본적인 행(row), 열(column)의 정보와 데이터 타입을 보여줌
  • 처음 데이터를 받았을 때, 데이터 프레임 구조를 파악하기 용이함
  • 데이터 분석 할 때, 자주 사용하는 중요한 메소드!!
df.info()


열(column) 다루기

 

 

컬럼명 가져오기
df.columns


통계정보 알아보기

describe()

  • 통계 정보를 출력
  • 처음 데이터를 분석 할 때, 사용하면 좋음
  • 데이터 분석 할 때, 자주 사용하는 중요한 메소드!!
df.describe()

# count : 갯수
# mean : 평균
# std : 표준편차
# min : 최소값
# **% : * 4분위 수
# max : 최대값

 

describe(include=object)

  • 객체 타입 열만을 포함하여 요약 통계를 생성
df.describe(include=object)

# conut : 갯수
# unique : 중복값 제거한 나머지
# top : 맨 위에 있는 값
# freq : 빈도 수


형태(shape) 알아보기

shape
df.shape


원하는 개수의 데이터 보기

  • head() : 상위 5개의 row를 출력
  • head(n) : 상위 n개의 row를 출력
  • tail() : 하위 5개의 row를 출력
  • tail(n) : 하위 n개의 rowd를 출력

 

head()
df.head()

 

df.head(7)

 

tail()
df.tail()

 

df.tail(3)


정렬하기

sort_index()
  • index로 오름차순 정렬 : 기본값
df.sort_index()

 

sort_index(ascending=False)
  • index로 내림차순 정렬
df.sort_index(ascending=False)

 

sort_values(by='컬럼명')
  • 값에 따른 오름차순 정렬
  • nan은 맨 밑에 깔림
# 몸무게를 기준으로 오름차순 정렬하기
df.sort_values(by="height")

 

sort_values(by='컬럼명', ascending=False)
  • 값에 따른 내림차순 정렬
  • nan은 맨 밑에 깔림
df.sort_values(by="height", ascending=False)

 

df.sort_values(by="height", na_position="first")
  • na_position="first" : NaN을 가장 위로 올리기: na_position의 기본값은 last

 

1차 정렬: 키(내림차순), 2차 정렬: 브랜드(오름차순)
df.sort_values(by=["height", "brand"], ascending=[False, True], na_position="first")

 

'데이터 분석' 카테고리의 다른 글

2-4. 결측값(Null, NaN)  (0) 2023.06.08
2-3. 데이터 다루기  (0) 2023.06.08
2-1. CSV 파일 다루기  (0) 2023.05.31
2. Pandas(판다스)  (0) 2023.05.29
1. 넘파이(Numpy)  (0) 2023.05.29