[AGI 시대 ②] 문자로 소통하는 인간 수준인 ‘LLM’ 등장

인간에 한발 다가선 AI…멀티모달 지나 AGI 시대로

2025-04-04     박재현 기자

[AGI 시대 ①] 룰을 넘어선 ‘학습’의 등장
[AGI 시대 ②] 문자로 소통하는 인간 수준인 ‘LLM’ 등장
[AGI 시대 ③] 자율성 갖춘 ‘에이전트 AI’ 등장…AGI로 전환기 돌입

[아이티데일리] 인공지능(AI)은 룰(Rule) 기반 시스템부터 머신러닝(Machine Learning), 딥러닝(Deep Learning) 등으로 혁신을 거듭해 왔다. 이 기술들은 업계에 충격을 줄 정도의 커다란 변혁이었지만, IT를 넘어 전 산업으로 확대되지는 못했다.

AI 패러다임이 본격적으로 변화한 기점은 ‘생성형 AI’가 등장하면서부터다. 2023년 말 챗GPT(ChatGPT)라는 텍스트에 특화된 거대언어모델(LLM)이 등장하면서 기존 AI의 성능과 패러다임은 ‘생성형’으로 변화했다. 최근에는 AI가 인간을 넘어설 정도로 발전할 것이라는 전망도 나오고 있다. AI가 걸어온 길을 되짚어보고, 현재 AI가 어디까지 왔는지 3회에 걸쳐 조명해 본다.


문자로 소통하는 인간 수준 ‘LLM’…사고의 사슬 및 RAG 대두

트랜스포머는 지금의 생성형 AI의 근간인 대규모언어모델(LLM)의 탄생을 촉발했다.

오픈AI가 2020년 6월 11일 처음 공개한 ‘GPT(Generative Pre-trained Transformer)-3’와 2022년 11월 30일 본격적인 생성형 AI의 등장을 알린 ‘챗GPT(ChatGPT, GPT-3.5)’가 바로 이 트랜스포머 아키텍처를 기반으로 개발됐으며, 방대한 텍스트 데이터를 학습해 인간과 유사한 수준의 자연어 생성 능력을 갖출 수 있게 됐다. ‘GPT’라는 단어에서 ‘T’가 바로 트랜스포머 아키텍처를 의미하는 ‘Transformer’다.

이에 대해 한국오라클 장성우 전무는 “트랜스포머 아키텍처 기반의 LLM은 문자로 의사소통하는 인간과 매우 유사하다. 인간은 언어를 통해 생각을 표현하고 타인과 소통하는데, LLM 역시 방대한 텍스트 데이터를 학습해 언어적 사고와 소통 능력을 갖추고 있다”고 밝혔다. 트랜스포머 아키텍처는 이처럼 자연어 처리의 한계를 극복하며 대규모언어모델(LLM)의 등장을 촉발시켰다.

인간과 기계 간 의사소통의 패러다임을 열었다고 평가받는 LLM은 트랜스포머 아키텍처를 기반으로 방대한 텍스트 데이터를 학습해 자연어 생성 및 이해 능력을 갖춘 AI 기술이다. 시중에 공개된 대부분의 LLM은 수십억 개 이상의 파라미터를 갖고 있으며, 이를 통해 인간과 유사한 수준의 언어적 사고와 표현 능력을 보인다. 예를 들어 GPT-4와 같은 모델은 사용자 질문에 대한 답변을 생성하거나 창의적인 글을 작성하며, 심지어 복잡한 코딩 작업을 수행할 수도 있다.

생성형 AI 로봇 이미지 (출처: 픽사베이)

LLM의 작동 원리는 방대한 양의 텍스트 데이터를 학습하는 것에서 출발한다. 데이터는 인터넷 문서, 책, 논문 등 네트워크로 연결되는 ‘모든 것’이라고 해도 과언이 아니다. 모델은 입력된 텍스트를 임베딩 벡터로 변환한 뒤 트랜스포머 아키텍처를 통해 단어 간 관계를 학습한다. 특히 단순히 텍스트를 처리하는 것을 넘어 새로운 내용을 생성하는 능력이 핵심이다.

이에 대해 한국교통대학교 곽정환 교수는 “LLM은 문장 내 단어 간 관계를 가중치로 표현해 문맥 정보를 효과적으로 학습하는 ‘셀프 어텐션 메커니즘’을 통해 문맥 정보를 학습하고 적합한 단어를 선택해 문맥을 이해하고 확률 기반 예측을 통해 새로운 아이디어와 정보를 생성한다. 그리고 대규모로 학습된 데이터 학습을 통해 언어의 구조와 패턴을 이해한다. 가령 LLM은 사용자가 ‘중력의 개념을 설명해’라고 입력했을 때 물리학적 정의와 관련된 내용을 자연스럽게 생성하며, 질문의 의도와 맥락에 맞춘 답변을 제공한다”며 LLM의 생성 능력을 소개했다. 이어 그는 “이는 인간이 언어를 통해 문맥을 파악하고 사고하며 표현하는 방식과 유사하다. 아이디어를 글로 표현하듯이, LLM도 학습된 데이터를 바탕으로 새로운 아이디어나 정보를 생성할 수 있다. 이러한 특성 때문에 LLM은 문자로 의사소통하는 인간과 유사하다”고 평가했다.

환각을 대표하는 문장이 된 세종대왕 맥북 던짐 사건 (출처: 온라인 커뮤니티)

그러나 LLM도 완벽한 것은 아니다. 모델이 ‘자신있게’ 잘못된 정보를 생성하는 현상을 의미하는 ‘환각(hallucination)’이라는 문제가 존재한다. 이는 주로 데이터 편향, 맥락 상실, 확률 기반 응답 생성 방식에서 기인한다. 예를 들어 한 사용자가 “세종대왕의 아버지는 누구인가?”라는 질문을 했을 때 GPT-4가 “태조 이성계”라고 답변했다면 이는 훈련 데이터나 모델의 추론 과정에서 발생한 환각 문제일 가능성이 크다.

최근에는 이러한 문제를 해결하기 위해 다양한 접근법이 제시되고 있다. 대표적인 접근법으로는 ‘사고의 사슬(Chain-of-Thought) 프롬프트 기법’과 ‘RAG’가 있다. 사고의 사슬 프롬프트 기법은 모델이 답변 과정을 단계별로 설명하도록 유도해 복잡한 문제를 체계적으로 해결하게 하는 입력 방식이다. 예를 들어 “모든 사과는 과일이고, 모든 과일은 음식이라면, 모든 사과는 음식이라고 할 수 있을까”라는 질문에 사고의 사슬 기법을 적용한다면 ‘사과는 과일’, ‘과일은 음식’, ‘사과는 곧 음식’이라는 식의 단계별 추론 과정을 제공해 신뢰도를 높일 수 있다.

또 다른 접근법으로는 검색증강생성(RAG)이 있다. RAG는 외부 DB와 연동해 현행 데이터를 검색하고 이를 응답 생성에 반영함으로써 환각 문제를 줄이는 데 중요한 역할을 한다. 이를 통해 LLM은 최신 정보와 도메인 지식을 반영해 더욱 신뢰할 수 있는 결과를 도출할 수 있다.


입력 방식의 혁신 ‘멀티모달 AI’

LLM이 텍스트로 의사소통하는 사람의 수준이었다면, 최근에는 시청각을 활용해 의사소통하는 사람의 수준에 도달하고 있다. 바로 입력 방식의 혁신인 ‘멀티모달 AI(MultiModal AI)’가 등장한 것이다.

멀티모달 AI는 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 동시에 처리하고 통합적으로 분석할 수 있는 기술을 의미한다. 기존의 LLM의 단일모달(Unimodal) AI는 하나의 데이터 유형만 처리할 수 있었지만, 멀티모달 AI는 여러 종류의 데이터를 결합함으로써 더 풍부한 문맥과 의미를 이해할 수 있다. 사진을 분석하고 해당 사진에 대한 음성 설명을 이해한 뒤 이를 바탕으로 텍스트로 요약하는 작업을 수행할 수도 있다.

멀티모달 AI의 대표적인 모델인 오픈AI의 ‘GPT-4V(Vision)’은 사용자가 업로드한 이미지를 분석하고 해당 이미지에 대한 질문에 답변할 수 있다. 예를 들어 사용자가 “이 사진 속 물건은 무엇인가?”라고 묻는다면 GPT-4 비전은 이미지를 분석하고 “이것은 스마트폰입니다”라고 답변할 수 있다. 인간이 시각적 정보를 언어적 표현으로 변환하는 방식과 매우 유사하다.

멀티모달 AI가 주목받는 이유는 데이터가 점점 더 다양해지고 복잡해지고 있기 때문이다. 단순히 텍스트 데이터만이 아니라 이미지, 음성, 비디오 등 다양한 형태의 데이터를 활용하고자 하는 수요가 늘고 있다. 실제로 의료 분야에서는 환자의 의료 기록(텍스트), X-ray 이미지(이미지), 의사의 진단 녹음(음성)을 통합적으로 분석할 필요성이 높고, e커머스 분야에서는 제품 이미지와 설명(텍스트), 사용자 리뷰(텍스트), 제품 사용 동영상(비디오)을 함께 분석해 소비자 경험을 향상할 수 있다.

이 같은 멀티모달 AI가 가능한 핵심 기술로는 ‘크로스 모달 학습(Cross-modal Learning)’이 꼽힌다. 크로스 모달 학습은 서로 다른 데이터 유형 간의 관계를 학습하는 기술로, 텍스트와 이미지 또는 음성과 비디오처럼 서로 다른 모달리티 간의 상관관계를 이해하고 이를 바탕으로 새로운 작업을 수행할 수 있게 한다. 예를 들어 자율주행차는 카메라로 촬영한 영상(이미지)과 라이다(LiDAR) 센서로 얻은 거리 데이터(숫자 데이터)를 결합해 도로 상황을 정확히 파악할 수 있다. 이 과정에서 크로스 모달 학습은 서로 다른 데이터 유형 간의 상관관계를 학습해 차량이 안전하게 운행할 수 있도록 돕는다.

멀티모달 AI는 단순히 여러 데이터를 처리하는 것을 넘어 인간 사고와 유사한 방식으로 다양한 정보를 결합해 더 나은 의사결정을 지원하고 있다. 대표적으로 오픈AI의 GPT-4V(비전), 최소한의 입력으로 이미지 내 시각 요소를 분리하며 비디오 편집 및 의료 영상 분석에 활용되는 메타의 ‘SAM(Segment Anything Model)’ 등이 있다.