๋ฐ์ดํฐ
-
- [Python] ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ํ ๋ ๊ฒฐ์ธก๊ฐ ์ ๊ฑฐ ๋ฐฉ๋ฒ (Pandas)
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ํ ๋ ๊ฒฐ์ธก๊ฐ ์ ๊ฑฐ ๋ฐฉ๋ฒ (Pandas)๋ค์ด๊ฐ๋ฉฐ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํ ๋ ํ๋ค์ค(Pandas)๋ฅผ ์ด์ฉํ์ฌ ๊ฒฐ์ธก๊ฐ์ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ์ ๋ฆฌํด๋ณธ๋ค. ๋ฐฉ๋ฒ๋ณดํต ๋ค์๊ณผ ๊ฐ์ด @df.dropna()@๋ฅผ ์ด์ฉํ ์๋ ์์ผ๋, ๋ฐ์ดํฐ์ ๊ณต๋ฐฑ(@' '@)์ด ์์ ๊ฒฝ์ฐ ์ ๊ฑฐํ์ง ๋ชปํ๋ค๋ ๋จ์ ์ด ์๋ค.df['column'] = df['column'].dropna() ๊ทธ๋์ ๋ค์๊ณผ ๊ฐ์ด @pd.to_numeric()@์ ๋จผ์ ์จ์ ๊ณต๋ฐฑ(@' '@), @NaN@ ๋ฑ ๊ฒฐ์ธก๊ฐ์ ์ ๋ถ @NaN@์ผ๋ก ๋ฐ๊ฟ์ค ํ, @dropna()@๋ฅผ ์ ์ฉ์์ผ์ฃผ๋ฉด ๋ชจ๋ ๊ฒฐ์ธก์น๋ค์ ์ ๊ฑฐํ ์ ์๋ค.df['column'] = pd.to_numeric(df['column']) # ๊ณต๋ฐฑ, NaN ๋ฑ ๋ชจ๋ ๊ฒฐ์ธก์น๋ค์ NaN์ผ๋ก ๋ฐ๊พธ๊ธฐdf['colu..
1 2024.06.21 -
- [Data Science] ๋ฐ์ดํฐ ๋น์๋ณํ(Data De-Identification)
๋ฐ์ดํฐ ๋น์๋ณํ(Data De-Identification) ๊ฐ๋ ํน์ ๊ฐ์ธ์ ์๋ณํ ์ ์๋๋ก ๊ฐ์ธ์ ๋ณด์ ์ผ๋ถ ๋๋ ์ ๋ถ๋ฅผ ๋ณํํ๋ ์ผ๋ จ์ ๋ฐฉ๋ฒ ๋ฐ์ดํฐ๋ฅผ ์์ ํ๊ฒ ํ์ฉํ๊ธฐ ์ํด์๋ ์์ง๋ ๋ฐ์ดํฐ์ ๊ฐ์ธ์ ๋ณด ์ผ๋ถ ๋๋ ์ ๋ถ๋ฅผ ์ญ์ ํ๊ฑฐ๋ ๋ค๋ฅธ ์ ๋ณด๋ก ๋์ฒดํจ์ผ๋ก์จ ๋ค๋ฅธ ์ ๋ณด์ ๊ฒฐํฉํ์ฌ๋ ํน์ ๊ฐ์ธ์ ์๋ณํ๊ธฐ ์ด๋ ต๊ฒ ๋ฐ์ดํฐ ๋น์๋ณํ ์กฐ์น๋ฅผ ํด์ผ ํ๋ค. ๋ฐ์ดํฐ ๋น์๋ณํ ๊ธฐ๋ฒ โ ๊ฐ๋ช ์ฒ๋ฆฌ(Pseudony Misation) ๊ฐ์ธ ์๋ณ์ด ๊ฐ๋ฅํ ๋ฐ์ดํฐ์ ๋ํ์ฌ ์ง์ ์๋ณํ ์ ์๋ ๋ค๋ฅธ ๊ฐ์ผ๋ก ๋์ฒดํ๋ ๊ธฐ๋ฒ ๊ทธ ์์ฒด๋ก๋ ์์ ๋น์๋ณํ๊ฐ ๊ฐ๋ฅํ๋ฉฐ ๋ฐ์ดํฐ์ ๋ณํ, ๋ณ์ง ์์ค์ด ๋ฎ์. ์ผ๋ฐํ๋ ๋์ฒด ๊ฐ์ผ๋ก ๊ฐ๋ช ์ฒ๋ฆฌํจ์ผ๋ก์จ ์ฑ๋ช ์ ๊ธฐ์ค์ผ๋ก ํ๋ ๋ถ์์ ํ๊ณ๊ฐ ์กด์ฌํจ. ์ฒ๋ฆฌ ๋์ ์๋ณ ์ ๋ณด ์ฑ๋ช ๊ธฐํ ๊ณ ์ ํน์ง (์ถ์ ํ๊ต..
2023.07.29 -
- [Data Science] ๋ฐ์ดํฐ์ ์ ํ
๋ฐ์ดํฐ์ ์ ํ ์ ํ ๋ฐ์ดํฐ ํํ(๊ณ ์ ๋ ํ๋)๊ฐ ์์ผ๋ฉฐ, ์ฐ์ฐ์ด ๊ฐ๋ฅํ๋ค. ์ฃผ๋ก ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค(RDBMS)์ ์ ์ฅ๋๋ค. ๋ฐ์ดํฐ ์์ง ๋์ด๋๊ฐ ๋ฎ๋ค. ํ์์ด ์ ํด์ ธ ์์ด ์ฒ๋ฆฌ๊ฐ ์ฌ์ด ํธ์ด๋ค. ์) ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค, ์คํ๋ ๋์ํธ, CSV ๋ฑ ๋ฐ์ ํ ๋ฐ์ดํฐ ํํ(์คํค๋ง, ๋ฉํ ๋ฐ์ดํฐ)๊ฐ ์์ผ๋ฉฐ, ์ฐ์ฐ์ด ๋ถ๊ฐ๋ฅํ๋ค. ์ฃผ๋ก ํ์ผ๋ก ์ ์ฅ๋๋ค. ๋ฐ์ดํฐ ์์ง ๋์ด๋๊ฐ ์ค๊ฐ์ด๋ค. ๋ณดํต API ํํ๋ก ์ ๊ณต๋๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ธฐ์ (ํ์ฑ)์ด ์๊ตฌ๋๋ค. ์) XML, HTML, JSON, ๋ก๊ทธ ํํ(์น ๋ก๊ทธ, ์ผ์ ๋ฐ์ดํฐ) ๋ฑ ๋น์ ํ ๋ฐ์ดํฐ ํํ๊ฐ ์์ผ๋ฉฐ ์ฐ์ฐ์ด ๋ถ๊ฐ๋ฅํ๋ค. ์ฃผ๋ก NoSQL์ ์ ์ฅ๋๋ค. ๋ฐ์ดํฐ ์์ง ๋์ด๋๊ฐ ๋๋ค. ํ ์คํธ ๋ง์ด๋ ํน์ ํ์ผ์ผ ๊ฒฝ์ฐ ํ์ผ์ ๋ฐ์ดํฐ ํํ๋ก ํ์ฑํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์์ง ๋ฐ..
2023.06.29