부산과 함께 한 10년, 더 큰 내일을 향해

Inside
키우미&
ChatGPT 4.0-O
: 그동안의 발전 속도와 앞으로의 전망
전문가 칼럼 | 김은혜 한국 AI 미래연구소 대표

인류 역사상 약 15년을 주기로 사회를 근본적으로 변화시키는 혁신적 기술이 등장해왔다.
1995년 '월드와이드웹(WWW)'의 대중화로 시작된 '인터넷 혁명'은 정보의 민주화와 글로벌 연결성을 가져왔고, 2007년 아이폰으로 촉발된 '스마트폰 혁명'은 '손 안의 컴퓨터' 시대를 열며 우리의 일상을 완전히 바꾸어 놓았다. 그리고 2022년 11월, OpenAI가 공개한
ChatGPT를 기점으로 우리는 '생성형 AI'라는 새로운 기술 혁명의 서막을 목격하고 있다.

본고에서는 ChatGPT의 급속한 기술 발전 추이와 향후 진화 방향을 분석해보고자 한다.
특히, ChatGPT 3.5에서 4.0, 그리고 최신 버전인 4.0 옴니까지의 기술적 진보를 비교 분석함으로써 그 발전 양상을 구체적으로 살펴볼 것이다. 나아가, ChatGPT 5.0의 잠재적 기능을 예측해봄으로써 이 기술이 초래할 광범위한 사회 변화를 전망하고, 다가오는 혁신에 대한 효과적인 대응 전략과 준비 방안을 모색하고자 한다.

ChatGPT 3.5에서 ChatGPT 4.0으로 : AI의 능력이 한 단계 향상되다

ChatGPT 3.5에서 4.0으로의 진화는 생성형 AI 기술의 큰 도약을 보여준다.
ChatGPT 4.0의 주요 개선 사항 중 하나는 ‘지능과 지식의 향상’이다.
ChatGPT 4.0은 3.5 버전에 비해 더 방대한 데이터를 학습했고, 모델의 규모도 대폭 확장되었다. 이를 통해 복잡한 정보를 더 잘 이해하고, 다양한 주제에 대해 깊이 있는 지식을 갖추게 되었다. 이 같은 지능 향상의 예로, ChatGPT 4.0은 미국 변호사 시험(Uniform Bar Exam)에서 298점(400점 만점)을 받아 상위 10%로 통과했는데 하위 10% 점수인 213점을 받는 데 그쳤던 ChatGPT 3.5와 비교해 성능이 대폭 향상된 것을 보여줬다. 또한, 외국어 이해 능력도 크게 개선되었다.
ChatGPT 4.0은 한국어를 포함한 24개 언어에서 ChatGPT 3.5의 영어 이해 수준(70%)을 넘어서는 성능을 보여주었다.

ChatGPT 4.0의 또 다른 주목할 만한 특징은 처리 가능한 텍스트 양의 대폭 증가다. 즉, ‘토큰’이라 불리는 텍스트 처리 단위의 수가 크게 늘어났다. ChatGPT 3.5가 최대 약 4천 개의 토큰(약 8천 단어, 책 4~5페이지 분량)을 처리할 수 있었던 반면, ChatGPT 4.0은 이를 8배 늘려 약 32,000개의 토큰(약 64,000단어, 50페이지 분량)을 처리할 수 있게 되었다. 이는 대화나 텍스트 작성 시 최대 50페이지 분량의 내용을 기억하며 글을 생성할 수 있음을 의미한다. 처리 가능한 토큰 수의 증가는 AI가 더 넓은 문맥과 상황을 이해하며 정교한 텍스트를 생성할 수 있게 되었음을 의미한다.

ChatGPT 4.0의 또 다른 중요한 발전은 멀티모달(Multimodal) 기능의 도입이다. 이제 ChatGPT는 텍스트 뿐만 아니라 이미지도 인식하고 처리할 수 있게 되었다. 이는 마치 AI에 '눈'이 생긴 것과 같아서, 시각적 정보를 이해하고 분석할 수 있게 되었음을 의미한다. 예를 들어, 복잡한 데이터 차트를 해석하거나 다양한 시각 자료를 바탕으로 설명을 제공할 수 있다. 이러한 기능 확장으로 ChatGPT는 더욱 다양한 상황에서 활용될 수 있으며, 보다 정교하고 다차원적인 문제 해결이 가능해졌다.

ChatGPT 4.0-O (Omni)
: AI비서의 새로운 기준을 제시하다

2024년 5월 14일, ChatGPT는 GPT-4 Omni(ChatGPT-4o) 출시로 또 한 번 기술적 도약을 이루었다.
'Omni'라는 이름이 암시하듯, 이 최신 버전은 다양한 형태의 입력과 출력을 통합적으로 처리하는 능력이 특징이다. GPT-4o의 핵심은 뛰어난 멀티모달 처리 기술로, '보고, 듣고, 말하는' 능력이 대폭 향상되어 텍스트, 음성, 이미지 데이터를 실시간으로 통합 처리할 수 있게 되었다

GPT-4o의 핵심 특징은 '실시간 대화 능력'이다. Speech To Speech(STS) 방식을 도입해 기존의 Text To Speech(TTS) 방식보다 대화 속도가 크게 개선되었다. 텍스트 변환 과정을 생략함으로써,
GPT-4o는 사용자의 음성 입력에 0.23초 만에 응답할 수 있게 되었다. 이는 인간의 평균 응답 시간인 0.32초보다 빠른 속도다. 더욱 주목할 만한 점은 GPT-4o가 단순한 답변을 넘어 '감정'을 담은 대화가 가능하다는 것이다. 카메라를 통해 사용자의 얼굴을 인식하고 표정을 통해 기분을 유추하는 기능이 추가되었으며, 농담할 때는 장난스러운 톤으로, 걱정을 들을 때는 안심시키는 목소리로 대응하여 실제 사람과의 대화처럼 자연스럽고 생동감 있는 소통을 구현한다. 이로써 인공지능과 사람 간의 상호작용이 한층 더 자연스러워졌다.

GPT-4o의 빠른 응답 속도와 감정을 담은 대화 능력은 '실시간 통번역 서비스'에 혁신을 가져왔다. 이 시스템은 단순 직역을 넘어 발화자의 의도를 정확히 전달하는 의역을 제공하며, 대화 중 중단되어도 즉시 반영하여 통역할 수 있다. 이러한 초고속 처리로 실시간 통역이 가능해져 국제 비즈니스, 다국어 교육 등 다양한 분야의 언어 장벽을 허물고 있다. GPT-4o는 글로벌 의사소통을 크게 개선할 잠재력을 보여주고 있다.

GPT-4o 옴니의 획기적인 '데스크탑 기능'은 AI와의 상호작용을 새로운 차원으로 끌어올렸다. 사용자들은 이제 웹 브라우저 대신 컴퓨터에 직접 프로그램을 설치하여 더욱 풍부하고 편리한 기능을 경험할 수 있게 되었다. 모바일 앱에서만 가능했던 음성 기능이 데스크탑으로 확장되었고, 스페이스바 하나로 언제든 GPT-4o를 호출할 수 있어 작업 흐름을 방해 받지 않고 신속한 AI 지원을 받을 수 있다. 더욱 놀라운 점은 GPT-4o가 사용자의 컴퓨터 화면을 실시간으로 분석하여 코드 검토나 작업 중 즉각적인 피드백을 제공할 수 있다는 것이다. OpenAI의 데모에서 선보인 실시간 수학 과외 기능은 이 기술의 잠재력을 여실히 보여주었다. 학생이 문제를 풀 때 GPT-4o가 실시간으로 설명하고 가이드하는 모습은 AI가 이제 개인 맞춤형 과외 선생님으로 진화했음을 시사한다.

놀랍게도 GPT-4o는 무료로 제공되어, 더 많은 사용자가 이 혁신적인 기술을 경험할 수 있게 되었다. 다만 무료 사용자에게는 일부 제한이 있다. 하루에
GPT-4o와 약 10번의 대화만 가능하며, 이 한도를 초과하면 자동으로 GPT-3.5로 전환된다. 무료 사용자도 특정 작업이나 주제에 맞는 맞춤형 AI 챗봇인 GPTs를 이용할 수 있지만, 이 역시 정해진 사용량 내에서만 가능하다. 또한, DALL-E와 같은 이미지 생성 GPTs나 사용자 지정 GPTs 제작 등 일부 고급 기능은 제한된다.

<표> ChatGPT 3.5, 4.0, 옴니 버전의 비교

ChatGPT 3.5 ChatGPT 4.0 ChatGPT 4o (Omni)
출시날짜 2022년 11월 2023년 3월 2024년 5월
주요 특징
  • 기본적인 대화 기능
  • 단일 모달(텍스트)입력과 출력
  • 향상된 이해력과 응답 정확도
  • 코드 작성과 데이터 분석 능력 강화
  • 멀티모달(텍스트, 이미지) 입력
  • 실시간 음성 및 영상 입력
  • 향상된 멀티모달 기능(음성, 이미지, 텍스트)
  • 실시간 통번역 기능
  • 더 빠른 반응속도
반응속도 기준 GPT 3.5보다 빠름 GPT 4보다 2배 빠름
토큰처리수 4,096개 32,000개 128,000개
입력 형식 텍스트 텍스트, 이미지 텍스트, 이미지, 음성
멀티모달 기능 없음 이미지 이해 가능 이미지, 음성 이해 가능
정확성 기준 GPT 3.5보다 40% 향상 GPT 4와 유사
컴퓨팅 비용 기준 GPT 3.5보다 높음 GPT 4보다 50% 저렴
언어 지원 기본 언어 지원 50개 이상의 언어 지원
  • 50개 이상의 언어지원
  • 실시간 통번역 기능 추가
데스크탑기능 없음 없음
  • 데스크탑 보조비서 기능
  • 실시간 자료 분석 및 음성 대화
사람과의 유사성 낮음 중간 높음 (표정 읽기 가능)

ChatGPT 5.0
: AI의 새로운 지평을 예견하다.

ChatGPT 5.0의 모습은 아직 불분명하지만, 그 잠재력에 대한 논의는 AI 기술의 미래 방향을 가늠하는 중요한 지표가 될 수 있다. 우선, 멀티모달 기능의 진일보한 발전이 예상된다. 현재 텍스트, 이미지, 음성을 기반으로 구현된 멀티모달 기능이 '비디오 처리 기능'으로 까지 확장될 것으로 전망된다. 이러한 발전은 AI가 더 다양한 형태의 콘텐츠를 처리할 수 있게 하여 교육, 엔터테인먼트, 복잡한 데이터 분석 등 다양한 분야에서의 활용 가능성을 높일 것으로 보인다.

또 다른 주목할 만한 예상 기능은 '자율 AI 에이전트'의 배포 능력이다. 이는 AI가 일정 관리, 이메일 처리, 온라인 구매 등의 실제 업무를 인간의 직접적인 개입 없이 수행할 수 있게 되는 것을 의미한다. 이러한 발전은 ChatGPT를 현재의 대화형 인터페이스에서 한 단계 더 발전시켜, 개인 및 전문 생산성 도구로서의 역할을 크게 확장시킬 것으로 예상된다. 즉, ChatGPT가 단순한 챗봇을 넘어, 우리의 일상과 업무 방식을 근본적으로 변화시킬 수 있는 잠재력을 가진 도구로 발전할 수 있음을 시사한다.

ChatGPT의 발전은 단순한 기술의 진보를 넘어 우리 사회와 일상의 근본적인 변화를 예고하고 있다. 3.5에서 4.0, 그리고 4.0 옴니로 이어지는 급속한 발전은 AI가 우리의 일상적인 동반자로 자리 잡을 날이 멀지 않았음을 보여준다. 앞으로 등장할 ChatGPT 5.0은 이러한 변화를 더욱 가속화할 것으로 예상된다. 그러나 이러한 혁신적인 기술의 등장은 우리에게 새로운 도전과제도 제시한다. AI 윤리, 개인정보 보호, 일자리 변화 등 다양한 사회적 이슈에 대한 깊이 있는 논의와 준비가 필요하다. 우리는 이 기술의 혜택을 최대화하면서도 잠재적 위험을 최소화할 수 있는 균형 잡힌 접근법을 모색해야 한다. ChatGPT로 대표되는 AI 혁명은 이미 시작되었다. 우리가 이 변화를 어떻게 받아들이고 활용하느냐에 따라 우리의 미래가 결정될 것이다.

Next
정해진 공식을 거부한다
: 테크 네이티브 잘파(Zalpha)세대의 소비 방식
최신 트렌드 | 황지영 노스캐롤라이나주립대학교 교수