상세 컨텐츠

본문 제목

빅데이터(Big Data) 란? - 3V, 5V, 7V

Common/Data Science

by code_down 2024. 9. 23. 20:18

본문

Big 과 Data 두 용어가 결합한 형태의 합성어이며, 용어의 정의는 기관 마다 다르지만 공통적인 특징을 가지고 있습니다.

 

기관별 빅데이터 정의

  • 컨설팅회사 매켄지
    • 일반적인 데이터베이스 SW가 저장,관리,분석 할 수 있는 범위를 초과하는 규모의 데이터
  • 글로벌 시장조사 및 예측 기관 IDC
    • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 초고속 수집,발굴,분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐
  • 대한민국 정부
    • 빅데이터는 대용량 데이터를 활용/분석하여 가치 있는 정보를 추출하고 생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 정보화 기술

 

빅데이터란 인간이 처리가능한 범주를 벗어난 빠른 속도로 수집,분석되는 다양한 종류의 데이터이며 이를 통해 가치를 창출 할 수 있어야 합니다. 

 

빅데이터의 특징

빅데이터의 3V

특징 설명
크기(Volume) 저장되는 물리적 데이터양을 나타내며, 인간이 분류해 내기 어려울 정도로 많은 양의 데이터를 말한다.
속도(Velocity) 데이터의 고도화된 실시간처리, 데이터가 생성 -> 저장 -> 시각화 과정이 얼마나 빠르게 이뤄져야하는지에 대한 중요성을 나타냅니다.
다양성(Variety) 다양한 형태의 데이터를 저장한다. 정형 데이터, 비정형 데이터, 반정형 데이터를 모두 포함한다. 

 


빅데이터의 5V

기존 3V에서 2가지 특징이 추가된 형태이며, 2가지 특징은 데이터 품질의 중요성을 나타냅니다.

특징 설명
신뢰성(Veracity) 데이터의 양만이 아니라 신뢰성 및 품질이 높아야 의미있는 결과를 얻을 수 있다는 의미를 가진다.
가치(Value) 데이터를 통해 얻을 수 있는 가치의 중요성을 의미

 

빅데이터의 7V

기존 5V에서 2가지 특징이 추가된 형태이며, 2가지는 데이터 보장에 대한 중요성을 나타냅니다.

특징 설명
정확성(Validity) 데이터의 유효성 및 정확성이 보장되어야 의미있는 분석 결과를 얻을 수 있다는 의미
휘발성(Volatility) 데이터가 금방 의미가 없어지지않고, 장기적으로 유용한 데이터여야 한다는 의미

 

데이터의 종류

종류 설명
정형 데이터(Structured Data) 구조화된 데이터 이며, 정해진 구조에 맞춰 저장된 데이터이다. 엑셀의 스프레드 시트, 관계형 데이터베이스의 테이블이 대표적 예시입니다.
비정형 데이터( Unstructured Data) 정해진 구조가 없이 저장된 데이터이며, 소셜 텍스트 데이터, 이미지 영상, 워드, PDF 문서 와 같은 멀티미디어 데이터가 대표적 예시입니다.
반정형 데이터( Semi-Structured Data) 형식이 지정되 않은 데이터 입니다. 고정된 스키마가 없으며, 데이터가 원시 또는 비정형 상태가 아닌 상태입니다. 태그 및 조직 메타데이터와 처럼 쉽게 분석 할 수 있는 특징이 있습니다. HTML, 그래프, 이메일, XML 등이 대표적 예시입니다.