#미래

‘빅데이터’의 현재와 2025 미래 전망
-공공 부문에 기대되는 역할에 대하여-

서원겸 다겸㈜ 대표이사

#미래
2024년 가장 핫한 키워드는 ‘AI’였다.
챗GPT 등 AI 기술을 활용한 소프트웨어들이 우리의 일상을 파고들었으며 각종 취업 준비 과정, 대학교 교과과정에도 AI가 주요 이슈가 되었다. AI를 학습하기 위해서는 기본적으로 빅데이터가 필요하다. 10년 전에는 1만 건 정도의 규모에도 빅데이터라 부르고 이를 활용해 AI 모델을 학습시키곤 했다. 최근에는 그보다 훨씬 거대한 빅데이터를 학습한다. 이를 ‘초거대 빅데이터 AI 모델’이라고 부른다.
챗GPT의 모태가 되는 GPT-3의 학습에 들어간 데이터양은 약 5000억 건으로 크롤링, 위키피디아, 도서 데이터 등을 학습했다. 인간이 한평생 볼 수 있는 정보를 훨씬 뛰어넘는 수치이다. 최신 모델인 GPT-4의 데이터양은 GPT-3의 7~8배 많은 수준으로 예상되고 있다.
AI, 빅데이터가 일상생활 속에 스며들면서 일반인들도 딥러닝, 머신러닝과 같은 용어들은 한 번 이상 들어보았을 것이다. AI, 빅데이터 분석, 머신러닝, 딥러닝은 비슷하지만 그 포함관계가 다르다. 쉽게 말하면 AI가 가장 큰 개념이고 그 안에 빅데이터 분석, 머신러닝, 딥러닝이 순차적으로 포함된다. AI 모델을 구축하기 위해서는 크게 2단계로 나눌 수 있다. 1단계는 데이터 수집, 2단계는 데이터 전처리, 분석 및 결과 도출이다. 대부분의 학원, 학교에서는 2단계 학습에 맞춰져 있다. 우리는 2단계를 잘하기 위해서 각종 수학적 테크닉, 코딩 교육을 열심히 받는다. 하지만 AI 모델의 성능에 있어서는 1단계가 2단계보다 훨씬 중요하다. 즉, AI 모델 구축에 있어 1단계 데이터 수집이 2단계 데이터 전처리 작업보다 훨씬 더 중요한 것이다. 데이터의 양과 품질은 AI 모델에 절대적인 영향력을 끼친다. 훌륭한 품질의 빅데이터는 훌륭한 AI 모델을 위한 필수 조건인 셈이다.
그러나 현실에서 데이터 품질이 최상급인 빅데이터를 구하기는 쉽지 않다. 챗GPT 학습의 모태가 되는 텍스트 데이터의 경우에는 인터넷 검색을 통해 비교적 구하기 쉽지만 이외 영상, 이미지 데이터는 대량으로 구하기가 쉽지 않다.특히 제조업, 의료기관 등 폐쇄적이고 보안에 민감한 분야의 경우 빅데이터를 구하기가 사실상 어렵다. 필자는 반도체 공정을 AI 카메라로 모니터링하며 품질검사를 하는 스타트업을 운영하고 있다. 반도체 공장의 경우 데이터 반출이 불가해 현장에서 단 몇 시간 동안 얻은 매우 소량의 불량 샘플로만 학습해야 한다. 빅데이터라 부르기 민망한 정도의 소량의 데이터로 AI 학습을 해야 하는 것이다.
이처럼 빅데이터를 구축하기 위해선 많은 정성과 노력이 들기 때문에 일반인들이 구축하기란 쉽지 않다. 따라서 정부, 공공기관에서 적극적으로 앞장서야 한다.
공공 부문에서는 빅데이터 구축을 위해 다음의 역할들을 수행할 수 있을 것이다.
1) 데이터 제공 및 개방
공공기관 등은 국가와 지방자치단체에서 수집한 다양한 데이터를 보유하고 있다. 이를 바탕으로 공공 데이터를 개방해 민간에서 활용할 수 있도록 지원할 수 있다. 이때 데이터는 표준화하여 활용성을 높여야 한다.
2) 데이터 품질 관리
데이터의 정확성, 완전성, 신뢰성을 높이기 위한 품질 관리 시스템을 구축해야 한다. 민간에서 만들어진 정크데이터는 자칫 불량 AI 모델을 생성할 수 있기 때문에, 공공기관이 앞장서 품질 높은 빅데이터를 제공해 민간 및 연구 기관이 신뢰할 수 있는 빅데이터 분석을 할 수 있도록 지원해야 한다.
3) 공공 빅데이터 플랫폼 구축 및 운영
공공 빅데이터 플랫폼을 통해 기업, 민간 등 누구나 쉽게 데이터에 접근하고 공유할 수 있도록 데이터 수집, 저장, 분석, 공유를 위한 기술적 인프라를 제공해야 한다.
4) 법적·제도적 기반 마련
빅데이터 활용 관련 법률(예: 개인정보 보호법, 데이터3법) 및 규제의 개선과 정비를 통해 빅데이터 생태계를 활성화해야 한다. 개인정보 보호와 빅데이터 활용은 서로 상충하는 주제이기 때문에 두 주제 간 균형과 상생 지점을 찾아내는 노력도 필요하다.
5) 민간과의 협력 촉진
민간 기업, 학계, 연구소와 협력하여 빅데이터 생태계를 확장해야 한다.공공-민간이 함께 참여하는 공동 프로젝트 및 컨소시엄을 구성하거나 NIA(한국지능정보사회진흥원)에서 매년 시행하는 인공지능 학습용 데이터 구축 사업 등이 이에 해당할 수 있다.
<경찰청 빅데이터 ‘범죄위험도 예측분석 시스템’>
그동안 공공 부문에서 빅데이터를 활용해 국가 경쟁력 향상에 기여한 사례들은 많이 있어왔다. 예컨대, 교통 관리 및 혼잡 해결(한국도로공사), 재난 관리 및 예측(기상청), 전염병 확산 방지(질병청), 대기 오염 예측 시스템(환경부), 범죄 데이터 분석(경찰청), 빅데이터 기반 도시 개발 계획 수립(LH), 독거노인 가구의 전기/가스/수도 사용량 데이터 분석 및 이상탐지(서울시) 등을 꼽을 수 있다. 앞으로도 공공 부문에서는 민간에서 접근하기 어려운 국가 치안, 보건, 재난 관리 등의 분야와 관련해 보다 적극적으로 빅데이터를 구축, 개방해나가야 할 것이다.
<각종 No-code 플랫폼들>
출처 : medium.com
2025년에는 기술 발전과 데이터 활용의 가속화로 인해 빅데이터가 단순한 분석 도구를 넘어, 모든 산업과 일상에 깊숙이 파고드는 핵심 자원으로 자리 잡을 것이다. 구체적으로 클라우드 기술의 발전과 함께 하이브리드 및 멀티 클라우드 환경이 주류가 되고, IoT의 확산으로 데이터 처리의 효율성이 높아질 것으로 예상된다. 쉽게 설명하면, 모든 일상생활 제품에 센서가 부착되어 모든 행동 하나하나가 실시간으로 클라우드를 통해 데이터화 되는 것이다.
또한, 빅데이터와 AI의 융합이 가속화되면서 머신러닝과 딥러닝 기반의 분석이 더욱 정교해지고, No-code/Low-code 도구의 확산으로 비전문가도 데이터를 쉽게 활용할 수 있는 환경이 조성될 것이다. 동시에 데이터 활용의 증가에 따라개인정보 보호와 관련된 규제는 강화되고, 데이터 윤리와 신뢰성에 대한 요구도 커질 전망이다.
산업별로 헬스케어에서는 정밀의료와 디지털 치료제, 스마트시티에서는 교통 흐름 최적화와 환경 모니터링, 제조업에서는 디지털 트윈과 스마트 제조 기술이 빅데이터와 결합해 혁신을 이끌 것이다. 또한, 데이터 생성 속도와 규모는 폭발적으로 증가하고 실시간 데이터 스트리밍의 중요성도 크게 부각될 것이다.
결론적으로, 2025년은 빅데이터가 사회, 산업, 개인의 삶을 변화시키는 중요한 동력으로 작용해 빅데이터의 가치는 기술 혁신과 함께 더욱 커질 전망이다. 따라서 민간이 쉽게 접근 할 수 없고, 많은 시간과 비용이 들지만 꼭 필요한 ‘빅데이터 구축 및 활용’분야에 있어 공공 부문이 앞장서야 한다. 또한, 급변하는 빅데이터 생태계에 대응하여 공공 부문에서도 그에 걸맞는 법적, 제도적 기반을 마련해야 한다. 2025년에는 공공 부문이 빅데이터 중심의 사회, 경제를 선도해 나가는 핵심 역할을 맡기를 기대해본다.
Columnist
서원겸
서원겸
ZDNET Korea 칼럼니스트
공감신문 칼럼니스트
다겸㈜ 대표 이사

한양대 정보시스템학과를 졸업하고 한양대 산업공학과에서 석사 학위를 받았으며 한국과학기술원, 모비젠, 전자부품연구원에서 연구원으로 재직했다. 이후 AI 빅데이터 분석회사 다겸의 대표이자 연세대학교 정보대학원에서 박사과정을 하며 동시에 다수 기업의 데이터 분석 컨설팅, 데이터 분석 솔루션 개발을 독자적으로 맡아서 하고 있다.