๋ฐ์ดํฐ ๊ณผํ
-
- [Data Science] ํผ๋ ํ๋ ฌ(Confusion Matrix, ์ ์ค ํ๋ ฌ)
ํผ๋ ํ๋ ฌ(Confusion Matrix, ์ ์ค ํ๋ ฌ) ๊ฐ๋ ๋ถ์ ๋ชจ๋ธ์์ ๊ตฌํ ๋ถ๋ฅ์ ์์ธก ๋ฒ์ฃผ์ ๋ฐ์ดํฐ์ ์ค์ ๋ฒ์ฃผ๋ฅผ ๊ต์ฐจ ํ(Cross Table) ํํ๋ก ์ ๋ฆฌํ ํ๋ ฌ ํผ๋ ํ๋ ฌ์ ์์ฑํจ์ ๋ฐ๋ผ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ ์ ์๋ ํ๊ฐ ์งํ(Metric)๊ฐ ๋์ถ๋๋ค. ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ์ ์ผ์น ๋น๋๋ฅผ ํตํด ํ๊ฐํ ์ ์๋ค. ์ด์ง ๋ถ๋ฅ(์ฐธ, ๊ฑฐ์ง๊ณผ ๊ฐ์ ๋ถ๋ฅ)์์ ์ฑ๋ฅ ์งํ๋ก ํผ๋ ํ๋ ฌ์ ๋ง์ด ์ฌ์ฉํ๋ค. ์์ธก ๋ฒ์ฃผ ๊ฐ(Predicted Condition) Predicted Positive Predicted Negative ์ค์ ๋ฒ์ฃผ ๊ฐ (Actual Condition) Actual Positive True Positive(TP) False Negative(FN) Actual Negative F..
2023.08.18 -
- [Data Science] ๋์๋ณ ๋ถ์ ๊ธฐํ ์ ํ
๋์๋ณ ๋ถ์ ๊ธฐํ ์ ํ ๋น ๋ฐ์ดํฐ ๋ถ์์ ๋ถ์์ ๋์(What)๊ณผ ๋ถ์์ ๋ฐฉ๋ฒ(How)์ ๋ฐ๋ผ 4๊ฐ์ง๋ก ๋ถ๋ฅ๋๋ค. ๋ถ์์ ๋์ (What) Known Un-Known ๋ถ์์ ๋ฐฉ๋ฒ (How) Known Optimization (์ต์ ํ) Insight (ํต์ฐฐ) Un-Known Solution (์๋ฃจ์ ) Discovery (๋ฐ๊ฒฌ) ์ ํ ์ค๋ช ์ต์ ํ (Optimization) - ๋ถ์์ ๋์์ด ๋ฌด์์ธ์ง๋ฅผ ์ธ์ง(Known)ํ๊ณ ์๊ณ , ์ด๋ฏธ ๋ถ์์ ๋ฐฉ๋ฒ๋ ์ธ์ง(Known)ํ๊ณ ์๋ ๊ฒฝ์ฐ์ ์ฌ์ฉํ๋ ์ ํ - ๊ฐ์ ์ ํตํ ์ต์ ํ ํํ๋ก ๋ถ์์ ์ํ Solution (์๋ฃจ์ ) - ๋ถ์์ ๋์์ด ๋ฌด์์ธ์ง๋ฅผ ์ธ์ง(Known)ํ๊ณ ์์ผ๋ ๋ถ์์ ๋ฐฉ๋ฒ์ ๋ชจ๋ฅด๋(Un-Known) ๊ฒฝ์ฐ์ ์ฌ์ฉํ๋ ์ ํ - ํด๋น ๋ถ์ ์ฃผ์ ์ ๋ํ ์..
2023.08.02 -
- [Data Science] ๋ฐ์ดํฐ ๋น์๋ณํ(Data De-Identification)
๋ฐ์ดํฐ ๋น์๋ณํ(Data De-Identification) ๊ฐ๋ ํน์ ๊ฐ์ธ์ ์๋ณํ ์ ์๋๋ก ๊ฐ์ธ์ ๋ณด์ ์ผ๋ถ ๋๋ ์ ๋ถ๋ฅผ ๋ณํํ๋ ์ผ๋ จ์ ๋ฐฉ๋ฒ ๋ฐ์ดํฐ๋ฅผ ์์ ํ๊ฒ ํ์ฉํ๊ธฐ ์ํด์๋ ์์ง๋ ๋ฐ์ดํฐ์ ๊ฐ์ธ์ ๋ณด ์ผ๋ถ ๋๋ ์ ๋ถ๋ฅผ ์ญ์ ํ๊ฑฐ๋ ๋ค๋ฅธ ์ ๋ณด๋ก ๋์ฒดํจ์ผ๋ก์จ ๋ค๋ฅธ ์ ๋ณด์ ๊ฒฐํฉํ์ฌ๋ ํน์ ๊ฐ์ธ์ ์๋ณํ๊ธฐ ์ด๋ ต๊ฒ ๋ฐ์ดํฐ ๋น์๋ณํ ์กฐ์น๋ฅผ ํด์ผ ํ๋ค. ๋ฐ์ดํฐ ๋น์๋ณํ ๊ธฐ๋ฒ โ ๊ฐ๋ช ์ฒ๋ฆฌ(Pseudony Misation) ๊ฐ์ธ ์๋ณ์ด ๊ฐ๋ฅํ ๋ฐ์ดํฐ์ ๋ํ์ฌ ์ง์ ์๋ณํ ์ ์๋ ๋ค๋ฅธ ๊ฐ์ผ๋ก ๋์ฒดํ๋ ๊ธฐ๋ฒ ๊ทธ ์์ฒด๋ก๋ ์์ ๋น์๋ณํ๊ฐ ๊ฐ๋ฅํ๋ฉฐ ๋ฐ์ดํฐ์ ๋ณํ, ๋ณ์ง ์์ค์ด ๋ฎ์. ์ผ๋ฐํ๋ ๋์ฒด ๊ฐ์ผ๋ก ๊ฐ๋ช ์ฒ๋ฆฌํจ์ผ๋ก์จ ์ฑ๋ช ์ ๊ธฐ์ค์ผ๋ก ํ๋ ๋ถ์์ ํ๊ณ๊ฐ ์กด์ฌํจ. ์ฒ๋ฆฌ ๋์ ์๋ณ ์ ๋ณด ์ฑ๋ช ๊ธฐํ ๊ณ ์ ํน์ง (์ถ์ ํ๊ต..
2023.07.29 -
- [Data Science] ๋ฐ์ดํฐ์ ์ ํ
๋ฐ์ดํฐ์ ์ ํ ์ ํ ๋ฐ์ดํฐ ํํ(๊ณ ์ ๋ ํ๋)๊ฐ ์์ผ๋ฉฐ, ์ฐ์ฐ์ด ๊ฐ๋ฅํ๋ค. ์ฃผ๋ก ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค(RDBMS)์ ์ ์ฅ๋๋ค. ๋ฐ์ดํฐ ์์ง ๋์ด๋๊ฐ ๋ฎ๋ค. ํ์์ด ์ ํด์ ธ ์์ด ์ฒ๋ฆฌ๊ฐ ์ฌ์ด ํธ์ด๋ค. ์) ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค, ์คํ๋ ๋์ํธ, CSV ๋ฑ ๋ฐ์ ํ ๋ฐ์ดํฐ ํํ(์คํค๋ง, ๋ฉํ ๋ฐ์ดํฐ)๊ฐ ์์ผ๋ฉฐ, ์ฐ์ฐ์ด ๋ถ๊ฐ๋ฅํ๋ค. ์ฃผ๋ก ํ์ผ๋ก ์ ์ฅ๋๋ค. ๋ฐ์ดํฐ ์์ง ๋์ด๋๊ฐ ์ค๊ฐ์ด๋ค. ๋ณดํต API ํํ๋ก ์ ๊ณต๋๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ธฐ์ (ํ์ฑ)์ด ์๊ตฌ๋๋ค. ์) XML, HTML, JSON, ๋ก๊ทธ ํํ(์น ๋ก๊ทธ, ์ผ์ ๋ฐ์ดํฐ) ๋ฑ ๋น์ ํ ๋ฐ์ดํฐ ํํ๊ฐ ์์ผ๋ฉฐ ์ฐ์ฐ์ด ๋ถ๊ฐ๋ฅํ๋ค. ์ฃผ๋ก NoSQL์ ์ ์ฅ๋๋ค. ๋ฐ์ดํฐ ์์ง ๋์ด๋๊ฐ ๋๋ค. ํ ์คํธ ๋ง์ด๋ ํน์ ํ์ผ์ผ ๊ฒฝ์ฐ ํ์ผ์ ๋ฐ์ดํฐ ํํ๋ก ํ์ฑํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์์ง ๋ฐ..
2023.06.29