728x90
728x90

데이터 전처리 할 때 결측값 제거 방법

들어가며

  • 데이터를 전처리할 때 판다스(Pandas)를 이용하여 결측값을 제거하는 방법을 정리해본다.

 

 

방법

  • 보통 다음과 같이 @df.dropna()@를 이용할 수도 있으나, 데이터에 공백(@' '@)이 있을 경우 제거하지 못한다는 단점이 있다.
df['column'] = df['column'].dropna()

 

  • 그래서 다음과 같이 @pd.to_numeric()@을 먼저 써서 공백(@' '@), @NaN@ 등 결측값을 전부 @NaN@으로 바꿔준 후, @dropna()@를 적용시켜주면 모든 결측치들을 제거할 수 있다.
df['column'] = pd.to_numeric(df['column'])   # 공백, NaN 등 모든 결측치들을 NaN으로 바꾸기
df['column'] = df['column'].dropna()

 

pd.to_numeric() 외에도 pd.to_datetime(), pd.to_string() 등을 사용할 수 있다.
728x90
728x90