[빅데이터분석기사 실기] 자주 사용되는 파이썬/pandas 함수 목록

빅분기 실기에서 자주 사용되는 함수 목록입니다.

pd.to_datetime(df[’column’])
컬럼명 확인: df.iloc[:, 4].dtype
테이블의 인덱스 구성: df.index
특정 셀 조회: df.iloc[행-1, 열-1]
특정 타입의 컬럼 출력: df.select_dtype(exclude=object).columns
각 컬럼의 결측치 숫자 세기: df.isnull().sum()
행의 개수: df.size()
각 수치형 변수의 분포: df.describe()
특정 컬럼의 유니크 값 개수: df[’컬럼’].unique()
두 개의 컬럼으로 구성된 데이터프레임: df[[’col1’, ‘col2’]]
짝수번 째 컬럼만 출력: df.iloc[:, ::2]
조건의 반대는 ~ 를 붙인다. df[~df.columns.str.contains(’example’)]
컬럼의 값이 배열의 목록에 있는지 df.column.isin(array)
컬럼의 값별로 개수 확인 df.column.value_counts()
데이터프레임으로 만들기: df.reset_index()
컬럼명 정의하기: df.columns = [’column1’, ‘column2’]
계산하기 .agg(['mean', 'var', 'max', 'min'])
계층적 인덱스 없이 만들기: .unstack()
컬럼값의 값을 비율로 만들기: .value_counts(normalize=True).unstack()
스트링 안에 단어가 있는지 확인할 때:
- if ‘word’ in string
- columns.str.contains(’word’)
날짜 뺴기
- df.Yr_Mo_Dy = df.Yr_Mo_Dy.apply(lambda x: x.replace(year=x.year-100) if x.year >= 2061 else x)
이전 행의 결측치로 채우기: ffill
다음 행의 결측치로 채우기: bfill
차분: .diff()
이동평균: .rolling(5).mean()
2개의 데이터프레임 합치기:
- pd.concat([frame1, frame2])
- pd.merge(df5, df6, on='Algeria', how='inner')
Seriese를 배열로 만들기: index.tolist()
누적합: cumsum()

'Study' 카테고리의 다른 글

AI Collaboration among SKT-Samsung-Kakao (0)	2020.12.24

JuzeroSpace

[빅데이터분석기사 실기] 자주 사용되는 파이썬/pandas 함수 목록

'Study' 카테고리의 다른 글

티스토리툴바

[빅데이터분석기사 실기] 자주 사용되는 파이썬/pandas 함수 목록

'Study' 카테고리의 다른 글

관련글

티스토리툴바