본문 바로가기
Study

[빅데이터분석기사 실기] 자주 사용되는 파이썬/pandas 함수 목록

by Juzero 2025. 7. 1.
반응형

 

빅분기 실기에서 자주 사용되는 함수 목록입니다.

 

 

 

  • pd.to_datetime(df[’column’])
  • 컬럼명 확인: df.iloc[:, 4].dtype
  • 테이블의 인덱스 구성: df.index
  • 특정 셀 조회: df.iloc[행-1, 열-1]
  • 특정 타입의 컬럼 출력: df.select_dtype(exclude=object).columns
  • 각 컬럼의 결측치 숫자 세기: df.isnull().sum()
  • 행의 개수: df.size()
  • 각 수치형 변수의 분포: df.describe()
  • 특정 컬럼의 유니크 값 개수: df[’컬럼’].unique()
  • 두 개의 컬럼으로 구성된 데이터프레임: df[[’col1’, ‘col2’]]
  • 짝수번 째 컬럼만 출력: df.iloc[:, ::2]
  • 조건의 반대는 ~ 를 붙인다. df[~df.columns.str.contains(’example’)]
  • 컬럼의 값이 배열의 목록에 있는지 df.column.isin(array)
  • 컬럼의 값별로 개수 확인 df.column.value_counts()
  • 데이터프레임으로 만들기: df.reset_index()
  • 컬럼명 정의하기: df.columns = [’column1’, ‘column2’]
  • 계산하기 .agg(['mean', 'var', 'max', 'min'])
  • 계층적 인덱스 없이 만들기: .unstack()
  • 컬럼값의 값을 비율로 만들기: .value_counts(normalize=True).unstack()
  • 스트링 안에 단어가 있는지 확인할 때:
    • if ‘word’ in string
    • columns.str.contains(’word’)
  • 날짜 뺴기
    • df.Yr_Mo_Dy = df.Yr_Mo_Dy.apply(lambda x: x.replace(year=x.year-100) if x.year >= 2061 else x)
  • 이전 행의 결측치로 채우기: ffill
  • 다음 행의 결측치로 채우기: bfill
  • 차분: .diff()
  • 이동평균: .rolling(5).mean()
  • 2개의 데이터프레임 합치기:
    • pd.concat([frame1, frame2])
    • pd.merge(df5, df6, on='Algeria', how='inner')
  • Seriese를 배열로 만들기: index.tolist()
  • 누적합: cumsum()
반응형

'Study' 카테고리의 다른 글

AI Collaboration among SKT-Samsung-Kakao  (0) 2020.12.24