Data Science
-
- [Data Science] ํผ๋ ํ๋ ฌ(Confusion Matrix, ์ ์ค ํ๋ ฌ)ํผ๋ ํ๋ ฌ(Confusion Matrix, ์ ์ค ํ๋ ฌ)๊ฐ๋ ๋ถ์ ๋ชจ๋ธ์์ ๊ตฌํ ๋ถ๋ฅ์ ์์ธก ๋ฒ์ฃผ์ ๋ฐ์ดํฐ์ ์ค์ ๋ฒ์ฃผ๋ฅผ ๊ต์ฐจ ํ(Cross Table) ํํ๋ก ์ ๋ฆฌํ ํ๋ ฌํผ๋ ํ๋ ฌ์ ์์ฑํจ์ ๋ฐ๋ผ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ ์ ์๋ ํ๊ฐ ์งํ(Metric)๊ฐ ๋์ถ๋๋ค.๋ชจ๋ธ์ ์ ํ๋๋ฅผ ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ์ ์ผ์น ๋น๋๋ฅผ ํตํด ํ๊ฐํ ์ ์๋ค.์ด์ง ๋ถ๋ฅ(์ฐธ, ๊ฑฐ์ง๊ณผ ๊ฐ์ ๋ถ๋ฅ)์์ ์ฑ๋ฅ ์งํ๋ก ํผ๋ ํ๋ ฌ์ ๋ง์ด ์ฌ์ฉํ๋ค. ์์ธก ๋ฒ์ฃผ ๊ฐ(Predicted Condition)Predicted PositivePredicted Negative์ค์ ๋ฒ์ฃผ ๊ฐ(Actual Condition)Actual PositiveTrue Positive(TP)False Negative(FN)Actual NegativeFalse Positive(..
2023.08.18 -
- [Data Science] ๋์๋ณ ๋ถ์ ๊ธฐํ ์ ํ
๋์๋ณ ๋ถ์ ๊ธฐํ ์ ํ ๋น ๋ฐ์ดํฐ ๋ถ์์ ๋ถ์์ ๋์(What)๊ณผ ๋ถ์์ ๋ฐฉ๋ฒ(How)์ ๋ฐ๋ผ 4๊ฐ์ง๋ก ๋ถ๋ฅ๋๋ค. ๋ถ์์ ๋์ (What) Known Un-Known ๋ถ์์ ๋ฐฉ๋ฒ (How) Known Optimization (์ต์ ํ) Insight (ํต์ฐฐ) Un-Known Solution (์๋ฃจ์ ) Discovery (๋ฐ๊ฒฌ) ์ ํ ์ค๋ช ์ต์ ํ (Optimization) - ๋ถ์์ ๋์์ด ๋ฌด์์ธ์ง๋ฅผ ์ธ์ง(Known)ํ๊ณ ์๊ณ , ์ด๋ฏธ ๋ถ์์ ๋ฐฉ๋ฒ๋ ์ธ์ง(Known)ํ๊ณ ์๋ ๊ฒฝ์ฐ์ ์ฌ์ฉํ๋ ์ ํ - ๊ฐ์ ์ ํตํ ์ต์ ํ ํํ๋ก ๋ถ์์ ์ํ Solution (์๋ฃจ์ ) - ๋ถ์์ ๋์์ด ๋ฌด์์ธ์ง๋ฅผ ์ธ์ง(Known)ํ๊ณ ์์ผ๋ ๋ถ์์ ๋ฐฉ๋ฒ์ ๋ชจ๋ฅด๋(Un-Known) ๊ฒฝ์ฐ์ ์ฌ์ฉํ๋ ์ ํ - ํด๋น ๋ถ์ ์ฃผ์ ์ ๋ํ ์..
2023.08.02 -
- [Data Science] ๋ฐ์ดํฐ ๋น์๋ณํ(Data De-Identification)
๋ฐ์ดํฐ ๋น์๋ณํ(Data De-Identification) ๊ฐ๋ ํน์ ๊ฐ์ธ์ ์๋ณํ ์ ์๋๋ก ๊ฐ์ธ์ ๋ณด์ ์ผ๋ถ ๋๋ ์ ๋ถ๋ฅผ ๋ณํํ๋ ์ผ๋ จ์ ๋ฐฉ๋ฒ ๋ฐ์ดํฐ๋ฅผ ์์ ํ๊ฒ ํ์ฉํ๊ธฐ ์ํด์๋ ์์ง๋ ๋ฐ์ดํฐ์ ๊ฐ์ธ์ ๋ณด ์ผ๋ถ ๋๋ ์ ๋ถ๋ฅผ ์ญ์ ํ๊ฑฐ๋ ๋ค๋ฅธ ์ ๋ณด๋ก ๋์ฒดํจ์ผ๋ก์จ ๋ค๋ฅธ ์ ๋ณด์ ๊ฒฐํฉํ์ฌ๋ ํน์ ๊ฐ์ธ์ ์๋ณํ๊ธฐ ์ด๋ ต๊ฒ ๋ฐ์ดํฐ ๋น์๋ณํ ์กฐ์น๋ฅผ ํด์ผ ํ๋ค. ๋ฐ์ดํฐ ๋น์๋ณํ ๊ธฐ๋ฒ โ ๊ฐ๋ช ์ฒ๋ฆฌ(Pseudony Misation) ๊ฐ์ธ ์๋ณ์ด ๊ฐ๋ฅํ ๋ฐ์ดํฐ์ ๋ํ์ฌ ์ง์ ์๋ณํ ์ ์๋ ๋ค๋ฅธ ๊ฐ์ผ๋ก ๋์ฒดํ๋ ๊ธฐ๋ฒ ๊ทธ ์์ฒด๋ก๋ ์์ ๋น์๋ณํ๊ฐ ๊ฐ๋ฅํ๋ฉฐ ๋ฐ์ดํฐ์ ๋ณํ, ๋ณ์ง ์์ค์ด ๋ฎ์. ์ผ๋ฐํ๋ ๋์ฒด ๊ฐ์ผ๋ก ๊ฐ๋ช ์ฒ๋ฆฌํจ์ผ๋ก์จ ์ฑ๋ช ์ ๊ธฐ์ค์ผ๋ก ํ๋ ๋ถ์์ ํ๊ณ๊ฐ ์กด์ฌํจ. ์ฒ๋ฆฌ ๋์ ์๋ณ ์ ๋ณด ์ฑ๋ช ๊ธฐํ ๊ณ ์ ํน์ง (์ถ์ ํ๊ต..
2023.07.29 -
- [Data Science] ๋ฐ์ดํฐ์ ์ ํ
๋ฐ์ดํฐ์ ์ ํ ์ ํ ๋ฐ์ดํฐ ํํ(๊ณ ์ ๋ ํ๋)๊ฐ ์์ผ๋ฉฐ, ์ฐ์ฐ์ด ๊ฐ๋ฅํ๋ค. ์ฃผ๋ก ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค(RDBMS)์ ์ ์ฅ๋๋ค. ๋ฐ์ดํฐ ์์ง ๋์ด๋๊ฐ ๋ฎ๋ค. ํ์์ด ์ ํด์ ธ ์์ด ์ฒ๋ฆฌ๊ฐ ์ฌ์ด ํธ์ด๋ค. ์) ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค, ์คํ๋ ๋์ํธ, CSV ๋ฑ ๋ฐ์ ํ ๋ฐ์ดํฐ ํํ(์คํค๋ง, ๋ฉํ ๋ฐ์ดํฐ)๊ฐ ์์ผ๋ฉฐ, ์ฐ์ฐ์ด ๋ถ๊ฐ๋ฅํ๋ค. ์ฃผ๋ก ํ์ผ๋ก ์ ์ฅ๋๋ค. ๋ฐ์ดํฐ ์์ง ๋์ด๋๊ฐ ์ค๊ฐ์ด๋ค. ๋ณดํต API ํํ๋ก ์ ๊ณต๋๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ธฐ์ (ํ์ฑ)์ด ์๊ตฌ๋๋ค. ์) XML, HTML, JSON, ๋ก๊ทธ ํํ(์น ๋ก๊ทธ, ์ผ์ ๋ฐ์ดํฐ) ๋ฑ ๋น์ ํ ๋ฐ์ดํฐ ํํ๊ฐ ์์ผ๋ฉฐ ์ฐ์ฐ์ด ๋ถ๊ฐ๋ฅํ๋ค. ์ฃผ๋ก NoSQL์ ์ ์ฅ๋๋ค. ๋ฐ์ดํฐ ์์ง ๋์ด๋๊ฐ ๋๋ค. ํ ์คํธ ๋ง์ด๋ ํน์ ํ์ผ์ผ ๊ฒฝ์ฐ ํ์ผ์ ๋ฐ์ดํฐ ํํ๋ก ํ์ฑํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์์ง ๋ฐ..
2023.06.29