Artificial Intelligence/Data Science
-
- [Data Science] 혼동 행렬(Confusion Matrix, 정오 행렬)
혼동 행렬(Confusion Matrix, 정오 행렬) 개념 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 범주를 교차 표(Cross Table) 형태로 정리한 행렬 혼동 행렬을 작성함에 따라 모델의 성능을 평가할 수 있는 평가 지표(Metric)가 도출된다. 모델의 정확도를 예측값과 실제값의 일치 빈도를 통해 평가할 수 있다. 이진 분류(참, 거짓과 같은 분류)에서 성능 지표로 혼동 행렬을 많이 사용한다. 예측 범주 값(Predicted Condition) Predicted Positive Predicted Negative 실제 범주 값 (Actual Condition) Actual Positive True Positive(TP) False Negative(FN) Actual Negative F..
2023.08.18 -
- [Data Science] 대상별 분석 기획 유형
대상별 분석 기획 유형 빅데이터 분석은 분석의 대상(What)과 분석의 방법(How)에 따라 4가지로 분류된다. 분석의 대상 (What) Known Un-Known 분석의 방법 (How) Known Optimization (최적화) Insight (통찰) Un-Known Solution (솔루션) Discovery (발견) 유형 설명 최적화 (Optimization) - 분석의 대상이 무엇인지를 인지(Known)하고 있고, 이미 분석의 방법도 인지(Known)하고 있는 경우에 사용하는 유형 - 개선을 통한 최적화 형태로 분석을 수행 Solution (솔루션) - 분석의 대상이 무엇인지를 인지(Known)하고 있으나 분석의 방법을 모르는(Un-Known) 경우에 사용하는 유형 - 해당 분석 주제에 대한 솔..
2023.08.02 -
- [Data Science] 데이터 비식별화(Data De-Identification)
데이터 비식별화(Data De-Identification) 개념 특정 개인을 식별할 수 없도록 개인정보의 일부 또는 전부를 변환하는 일련의 방법 데이터를 안전하게 활용하기 위해서는 수집된 데이터의 개인정보 일부 또는 전부를 삭제하거나 다른 정보로 대체함으로써 다른 정보와 결합하여도 특정 개인을 식별하기 어렵게 데이터 비식별화 조치를 해야 한다. 데이터 비식별화 기법 ① 가명 처리(Pseudony Misation) 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법 그 자체로는 완전 비식별화가 가능하며 데이터의 변형, 변질 수준이 낮음. 일반화된 대체 값으로 가명 처리함으로써 성명을 기준으로 하는 분석에 한계가 존재함. 처리 대상 식별 정보 성명 기타 고유 특징 (출신 학교..
2023.07.29 -
- [Data Science] 데이터의 유형
데이터의 유형 정형 데이터 형태(고정된 필드)가 있으며, 연산이 가능하다. 주로 관계형 데이터베이스(RDBMS)에 저장된다. 데이터 수집 난이도가 낮다. 형식이 정해져 있어 처리가 쉬운 편이다. 예) 관계형 데이터베이스, 스프레드시트, CSV 등 반정형 데이터 형태(스키마, 메타 데이터)가 있으며, 연산이 불가능하다. 주로 파일로 저장된다. 데이터 수집 난이도가 중간이다. 보통 API 형태로 제공되기 때문에 데이터 처리 기술(파싱)이 요구된다. 예) XML, HTML, JSON, 로그 형태(웹 로그, 센서 데이터) 등 비정형 데이터 형태가 없으며 연산이 불가능하다. 주로 NoSQL에 저장된다. 데이터 수집 난이도가 높다. 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데..
2023.06.29