๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
-
๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ ์ค๊ธฐ ์ 1์ ํ ์ํ ์ค๋น
์ 1์ ํ ์ํ ์ค๋น๋ค์ด๊ฐ๋ฉฐ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ ์ค๊ธฐ ์ 1์ ํ ์ํ ์ค๋น๋ฅผ ์ํ ๋ด์ฉ์ ์ ๋ฆฌํด๋ณธ๋ค.์ 1์ ํ์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ๊ด๋ จ๋ ๋ด์ฉ์ด ํฌํจ๋๋ค.์ 2ํ ~ ์ 8ํ ๊ธฐ์ถ ๋ณํ ๋ฌธ์ ์ ํ์ด ๋ฐฉ๋ฒ์ ํจ๊ป ์ ๋ฆฌํ์๋ค. ๋ฌธ์ ๐ ๋ฌธ์ 1 (21๋ 2ํ)BostonHousing ๋ฐ์ดํฐcrim ํญ๋ชฉ์ ์์์์ 10๋ฒ์งธ ๊ฐ(์์ 10๊ฐ์ ๊ฐ ์ค์์ ๊ฐ์ฅ ์์ ๊ฐ)์ผ๋ก ์์ 10๊ฐ์ ๊ฐ์ ๋ณํํ๊ณ , age๊ฐ 80 ์ด์์ธ ๊ฐ์ ๋ํ์ฌ crim์ ํ๊ท ๊ตฌํ๊ธฐ์์์ ์ ์งธ ์๋ฆฌ์์ ๋ฐ์ฌ๋ฆผํด์ ์์์ ๋์งธ ์๋ฆฌ๋ก ์ถ๋ ฅํ๊ธฐimport numpy as npimport pandas as pddf = pd.read_csv('./datasets/data_q1.csv')# 'crim' ํญ๋ชฉ์ ์์ 10๋ฒ์งธ ๊ฐ ๋ฝ๊ธฐtop10_value..
0 2024.11.25 -
Python ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ํ ๋ ๊ฒฐ์ธก๊ฐ ์ ๊ฑฐ ๋ฐฉ๋ฒ (Pandas)
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ํ ๋ ๊ฒฐ์ธก๊ฐ ์ ๊ฑฐ ๋ฐฉ๋ฒ (Pandas)๋ค์ด๊ฐ๋ฉฐ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํ ๋ ํ๋ค์ค(Pandas)๋ฅผ ์ด์ฉํ์ฌ ๊ฒฐ์ธก๊ฐ์ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ์ ๋ฆฌํด๋ณธ๋ค. ๋ฐฉ๋ฒ๋ณดํต ๋ค์๊ณผ ๊ฐ์ด df.dropna()๋ฅผ ์ด์ฉํ ์๋ ์์ผ๋, ๋ฐ์ดํฐ์ ๊ณต๋ฐฑ(' ')์ด ์์ ๊ฒฝ์ฐ ์ ๊ฑฐํ์ง ๋ชปํ๋ค๋ ๋จ์ ์ด ์๋ค.df['column'] = df['column'].dropna() ๊ทธ๋์ ๋ค์๊ณผ ๊ฐ์ด pd.to_numeric()์ ๋จผ์ ์จ์ ๊ณต๋ฐฑ(' '), NaN ๋ฑ ๊ฒฐ์ธก๊ฐ์ ์ ๋ถ NaN์ผ๋ก ๋ฐ๊ฟ์ค ํ, dropna()๋ฅผ ์ ์ฉ์์ผ์ฃผ๋ฉด ๋ชจ๋ ๊ฒฐ์ธก์น๋ค์ ์ ๊ฑฐํ ์ ์๋ค.df['column'] = pd.to_numeric(df['column']) # ๊ณต๋ฐฑ, NaN ๋ฑ ๋ชจ๋ ๊ฒฐ์ธก์น๋ค์ NaN์ผ๋ก ๋ฐ๊พธ๊ธฐdf['colu..
1 2024.06.21