728x90
728x90
데이터의 유형
정형 데이터
- 형태(고정된 필드)가 있으며, 연산이 가능하다.
- 주로 관계형 데이터베이스(RDBMS)에 저장된다.
- 데이터 수집 난이도가 낮다.
- 형식이 정해져 있어 처리가 쉬운 편이다.
- 예) 관계형 데이터베이스, 스프레드시트, CSV 등
반정형 데이터
- 형태(스키마, 메타 데이터)가 있으며, 연산이 불가능하다.
- 주로 파일로 저장된다.
- 데이터 수집 난이도가 중간이다.
- 보통 API 형태로 제공되기 때문에 데이터 처리 기술(파싱)이 요구된다.
- 예) XML, HTML, JSON, 로그 형태(웹 로그, 센서 데이터) 등
비정형 데이터
- 형태가 없으며 연산이 불가능하다.
- 주로 NoSQL에 저장된다.
- 데이터 수집 난이도가 높다.
- 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어렵다.
- 예) 소셜 데이터(트위터, 페이스북), 영상, 이미지, 음성, 텍스트(word, PDF 등) 등
728x90
728x90
'Artificial Intelligence > Data Science' 카테고리의 다른 글
[Data Science] 혼동 행렬(Confusion Matrix, 정오 행렬) (0) | 2023.08.18 |
---|---|
[Data Science] 대상별 분석 기획 유형 (0) | 2023.08.02 |
[Data Science] 데이터 비식별화(Data De-Identification) (0) | 2023.07.29 |