business field
Big Data
공간정보, Smart Factory, BIM로부터 수집된 빅데이터를 저장, 활용, 응용하는 기술을 구현합니다.
iansit 사업분야
Big Data, 데이터로부터 가치를 추출하고 결과를 분석하는 기술
Big Data 정의
빅 데이터는 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 말한다. 빅 데이터의 사이즈는 단일 데이터 집합의 크기가 수십 테라바이트에서 수 페타바이트에 이르며, 그 크기가 끊임없이 변화하는 것이 특징이다.
Big Data와 범정부 데이터 플랫폼
범정부 데이터 플랫폼은 공공기관이 보유한 공공데이터의 소재와 메타데이터 정보를 통합, 관리하기위한 목적으로 추진 중인 범정부 사업이다. 공공기관이 활용하는 모든 메타데이터는 기관메타관리시스템으로 통합되어 관리되고, 범정부적 활용을 위해 메타데이터 정보는 용어, 형식을 표준화하여 메타데이터 사전으로 관리한다.
범정부 데이터 플랫폼 개념도
범정부 데이터 플랫폼을 통한 변화
· 메타데이터 통합관리 및 국가데이터맵 제공, 공공데이터 제공 체계 기반 마련
· 개별 기관이 보유한 데이터베이스에서 메타데이터를 자동 추출,전송하기 위한 에이전트개발 및 메타데이터 수집 에이전트 설치
· 범정부 차원의 지능화된 메타데이터 관리를 위한 중앙 메타메타데이터관리 시스템 및 기관메타데이터관리시스템 구축 및 적용
· 중앙메타데이터관리시스템의 보유 데이터, 공공데이터포털(data.go.kr)의 개방 데이터 등 데이터 연관 관계 및 연관도 파악을 위한 데이터맵 엔진 및 국가데이터맵 서비스 구축
Big Data의 공통적 특징
· 빅데이터 시대에는 방대한 데이터의 양을 분석하여 일정한 패턴을 추출할 수 있다. 하지만 정보의 양이 많아지는 만큼 데이터의 신뢰성이 떨어지기 쉽다. 따라서 빅데이터를 분석하는데 있어 기업이나 기관에 수집한 데이터가 정확한 것인지, 분석할 만한 가치가 있는지 등을 살펴야 하는 필요성이 대두되었고, 이러한 측면에서 새로운 속성인 정확성(Veracity)이 제시되고 있다.
· 최근 소셜미디어의 확산으로 자신의 의견을 웹사이트를 통해 자유롭게 게시하는 것이 쉬워졌지만 실제로 자신의 의도와는 달리 자신의 생각을 글로 표현하게 되면 맥락에 따라 자신의 의도가 다른 사람에게 오해를 불러일으킬 수 있다. 이처럼 데이터가 맥락에 따라 의미가 달라진다고 하여 빅데이터의 새로운 속성으로 가변성(Variability)이 제시되고 있다.
· 빅데이터는 정형 및 비정형 데이터를 수집하여 복잡한 분석을 실행한 후 용도에 맞게 정보를 가공하는 과정을 거친다. 이때 중요한 것은 정보의 사용대상자의 이해정도이다. 그렇지 않으면 정보의 가공을 위해 소모된 시간적, 경제적 비용이 무용지물이 될 수 있기 때문이다.
Big Data 분석 기법
상기 특징을 가진 빅 데이터의 분석, 활용을 위한 빅 데이터 처리 기법은 크게 분석 기술, 표현 기술로 나뉜다.
분석 기술
빅데이터를 다루는 처리 프로세스로서 병렬 처리의 핵심은 분할 점령(Divide and Conquer)이다. 즉 데이터를 독립된 형태로 나누고 이를 병렬적으로 처리하는 것을 말한다. 빅데이터의 데이터 처리란 이렇게 문제를 여러 개의 작은 연산으로 나누고 이를 취합하여 하나의 결과로 만드는 것을 뜻한다. 대용량의 데이터를 처리하는 기술 중 가장 널리 알려진 것은 아파치 하둡()과 같은 Map-Reduce 방식의 분산 데이터 처리 프레임워크이다. 대부분의 빅 데이터 분석 기술과 방법들은 기존 통계학과 전산학에서 사용되던 데이터마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 해당한다. 소셜 미디어등 비정형 데이터의 증가로 인해 분석기법 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석, 군집분석 등이 주목받고 있다.
아파치 하둡(Apache Hadoop)
대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크
텍스트 마이닝
비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반을 두어 유용한 정보를 추출, 가공
오피니언 마이닝
소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별
군집 분석
비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴
*자료출처 : 한국정보통신기술협회 - 국가데이터맵의 개념 및 모델(빅데이터), 위키백과