728x90
728x90

데이터의 유형

정형 데이터

  • 형태(고정된 필드)가 있으며, 연산이 가능하다.
  • 주로 관계형 데이터베이스(RDBMS)에 저장된다.
  • 데이터 수집 난이도가 낮다.
  • 형식이 정해져 있어 처리가 쉬운 편이다.
  • 예) 관계형 데이터베이스, 스프레드시트, CSV 등

 

반정형 데이터

  • 형태(스키마, 메타 데이터)가 있으며, 연산이 불가능하다.
  • 주로 파일로 저장된다.
  • 데이터 수집 난이도가 중간이다.
  • 보통 API 형태로 제공되기 때문에 데이터 처리 기술(파싱)이 요구된다.
  • 예) XML, HTML, JSON, 로그 형태(웹 로그, 센서 데이터) 등

 

비정형 데이터

  • 형태가 없으며 연산이 불가능하다.
  • 주로 NoSQL에 저장된다.
  • 데이터 수집 난이도가 높다.
  • 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어렵다.
  • 예) 소셜 데이터(트위터, 페이스북), 영상, 이미지, 음성, 텍스트(word, PDF 등) 등
728x90
728x90