Big 과 Data 두 용어가 결합한 형태의 합성어이며, 용어의 정의는 기관 마다 다르지만 공통적인 특징을 가지고 있습니다.
빅데이터란 인간이 처리가능한 범주를 벗어난 빠른 속도로 수집,분석되는 다양한 종류의 데이터이며 이를 통해 가치를 창출 할 수 있어야 합니다.
특징 | 설명 |
크기(Volume) | 저장되는 물리적 데이터양을 나타내며, 인간이 분류해 내기 어려울 정도로 많은 양의 데이터를 말한다. |
속도(Velocity) | 데이터의 고도화된 실시간처리, 데이터가 생성 -> 저장 -> 시각화 과정이 얼마나 빠르게 이뤄져야하는지에 대한 중요성을 나타냅니다. |
다양성(Variety) | 다양한 형태의 데이터를 저장한다. 정형 데이터, 비정형 데이터, 반정형 데이터를 모두 포함한다. |
기존 3V에서 2가지 특징이 추가된 형태이며, 2가지 특징은 데이터 품질의 중요성을 나타냅니다.
특징 | 설명 |
신뢰성(Veracity) | 데이터의 양만이 아니라 신뢰성 및 품질이 높아야 의미있는 결과를 얻을 수 있다는 의미를 가진다. |
가치(Value) | 데이터를 통해 얻을 수 있는 가치의 중요성을 의미 |
기존 5V에서 2가지 특징이 추가된 형태이며, 2가지는 데이터 보장에 대한 중요성을 나타냅니다.
특징 | 설명 |
정확성(Validity) | 데이터의 유효성 및 정확성이 보장되어야 의미있는 분석 결과를 얻을 수 있다는 의미 |
휘발성(Volatility) | 데이터가 금방 의미가 없어지지않고, 장기적으로 유용한 데이터여야 한다는 의미 |
종류 | 설명 |
정형 데이터(Structured Data) | 구조화된 데이터 이며, 정해진 구조에 맞춰 저장된 데이터이다. 엑셀의 스프레드 시트, 관계형 데이터베이스의 테이블이 대표적 예시입니다. |
비정형 데이터( Unstructured Data) | 정해진 구조가 없이 저장된 데이터이며, 소셜 텍스트 데이터, 이미지 영상, 워드, PDF 문서 와 같은 멀티미디어 데이터가 대표적 예시입니다. |
반정형 데이터( Semi-Structured Data) | 형식이 지정되 않은 데이터 입니다. 고정된 스키마가 없으며, 데이터가 원시 또는 비정형 상태가 아닌 상태입니다. 태그 및 조직 메타데이터와 처럼 쉽게 분석 할 수 있는 특징이 있습니다. HTML, 그래프, 이메일, XML 등이 대표적 예시입니다. |
데이터 과학 관점에서 이미지 데이터 이해하기 (2) | 2024.11.01 |
---|---|
데이터 전처리(Data Preprocessing) 란? (0) | 2024.09.26 |