인간에 한발 다가선 AI…멀티모달 지나 AGI 시대로
[AGI 시대 ①] 룰을 넘어선 ‘학습’의 등장
[AGI 시대 ②] 문자로 소통하는 인간 수준인 ‘LLM’ 등장
[AGI 시대 ③] 자율성 갖춘 ‘에이전트 AI’ 등장…AGI로 전환기 돌입
[아이티데일리] 인공지능(AI)은 룰(Rule) 기반 시스템부터 머신러닝(Machine Learning), 딥러닝(Deep Learning) 등으로 혁신을 거듭해 왔다. 이 기술들은 업계에 충격을 줄 정도의 커다란 변혁이었지만, IT를 넘어 전 산업으로 확대되지는 못했다.
AI 패러다임이 본격적으로 변화한 기점은 ‘생성형 AI’가 등장하면서부터다. 2023년 말 챗GPT(ChatGPT)라는 텍스트에 특화된 거대언어모델(LLM)이 등장하면서 기존 AI의 성능과 패러다임은 ‘생성형’으로 변화했다. 최근에는 AI가 인간을 넘어설 정도로 발전할 것이라는 전망도 나오고 있다. AI가 걸어온 길을 되짚어보고, 현재 AI가 어디까지 왔는지 3회에 걸쳐 조명해 본다.
룰을 넘어선 ‘학습’의 등장
인공지능(AI)의 시초는 규칙(Rule)을 기반으로 하는 시스템이다. 1950~1960년대에 개발된 룰 기반 시스템은 명시적으로 정의된 규칙과 조건부 로직에 따라 작동했다. 대표적으로 MIT에서 개발한 챗봇인 ‘엘리자(ELIZA)’가 있다. 엘리자는 간단한 패턴을 매칭해 사용자가 입력한 값에 답했지만, 미리 정의된 규칙에 따라서만 동작했기 때문에 예상치 못한 질문을 던지면 대화가 이어지지 않았다.
이 같은 문제를 해결할 수 있는 핵심 기술로 머신러닝(Machine Learning)이 부상했다. 머신러닝은 데이터를 기반으로 시스템이 스스로 학습하고 성능을 개선하도록 한다. 머신러닝은 기존의 룰 기반 시스템과 달리, 명시적인 프로그래밍이 없어도 데이터를 분석해 패턴을 학습하고 이를 바탕으로 사용자가 제시하는 문제를 해결할 수 있도록 한다.
한국교통대학교 곽정환 교수는 “머신러닝의 핵심 기술로는 딥러닝(Deep Learning)이 꼽힌다. 딥러닝은 인간 두뇌의 신경망을 모방한 인공신경망(Artificial Neural Network)을 기반으로 데이터를 처리하고 학습하는 기술이다. 딥러닝의 구조는 입력층(Input Layer), 다수의 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성된 계층적 구조를 통해 데이터를 처리하며 복잡한 문제를 해결한다. 이를 통해 이미지 분류, 음성 인식, 자연어 처리 등 다양한 응용 분야에서 뛰어난 성능을 발휘할 수 있다”고 설명했다.
이 과정에서 역전파(Backpropagation) 알고리즘이 사용된다. 역전파는 모델의 출력값과 실제값 간의 차이를 계산해 가중치를 조정하고 예측 오류를 최소화하는 방식으로 학습 과정을 최적화한다. 가령 신경망이 고양이 이미지를 입력받아 ‘고양이’라는 출력을 예측한다고 가정해보자. 만약 모델이 ‘강아지’로 잘못 예측했다면, 손실 함수는 이 오차를 계산하고, 역전파 알고리즘은 이 정보를 기반으로 각 층의 가중치를 조정해 다음 학습 단계에서 더 정확한 예측을 할 수 있도록 한다. 이러한 구조 덕분에 딥러닝은 이미지 분류, 음성 인식, 자연어 처리 등 다양한 분야에 적용되고 있다.
딥러닝은 데이터로부터 유의미한 특징을 자동으로 추출할 수 있다는 점 때문에 크게 인기를 끌었다. 기존 머신러닝에서는 사람이 직접 데이터를 전처리하고 특징을 설계해야 했지만, 딥러닝은 이러한 과정을 자동화해 효율성을 높였다. 자율주행 차량에서는 딥러닝 모델이 도로 위 객체를 감지하고 이를 분류하며, 의료 분야에서는 암 진단과 같은 복잡한 작업에 높은 정확도를 보여주기도 했다.
물론 여느 기술과 마찬가지로 딥러닝 역시 한계는 있다. 무수히 많은 데이터와 컴퓨팅 자원이 필요하다는 점과 ‘블랙박스(BlackBox)’ 문제로 인해 모델의 작동 원리를 이해하기 어렵다는 점이 대표적이다.
SW 기술이 발전하면 그에 따라 컴퓨팅 자원의 필요량도 늘어난다는 점은 당연하기 때문에 크게 문제가 될 것은 없다. 하지만 모델의 작동 원리를 이해하기 어렵다는 것은 상황이 다르다. 모델이 왜 이 같은 결정을 내렸는지 설명하지 못하면 신뢰성과 투명성 문제를 야기할 수 있다. 이를 해결하기 위해 모델의 의사결정 과정을 시각화하거나 설명함으로써 신뢰성을 높이는 데 기여할 수 있는 설명 가능한 AI(XAI) 기술 연구도 적극 추진됐다.
최근 딥러닝은 최적의 행동 방식을 학습하는 기계 학습 방법인 ‘강화학습(Reinforcement Learning)’, 소규모 데이터 학습, 학습하는 방법을 학습하는 ‘메타 러닝(Meta Learning)’ 등 다양한 방법론이 개발되면서 AI의 유연성이 강화되고 있다.
자연어 처리의 혁신, ‘트랜스포머’
이처럼 딥러닝이 다양한 응용 분야에서 뛰어난 성능을 발휘하면서 사람들은 자연스럽게 컴퓨터가 프로그래밍 언어가 아닌 인간의 언어 즉, 자연어를 ‘입력값’으로 받아들일 수 있도록 하는 ‘자연어 처리(NLP)’에 주목하기 시작했다.
NLP 초기에는 순환신경망(RNN, Recurrent Neural Network)을 사용해 자연어를 처리했지만, 긴 문맥을 처리하는 작업에는 한계를 보였다. RNN은 데이터를 순차적으로 처리하며 이전 상태(처리 상황)를 기억하는 방식으로 작동했지만, 긴 문장을 처리하기 때문에 정보 손실이 발생했고 학습 속도가 느려졌다.
이를 극복하기 위해 구글은 2017년 트랜스포머(Transformer) 아키텍처를 제안했다. 트랜스포머는 병렬 처리를 통해 긴 문맥도 효율적으로 분석할 수 있다. 트랜스포머는 인코더(Encoder)-디코더(Decoder) 구조를 기반으로 한다. 인코더는 입력 데이터를 숫자로 표현·처리한 벡터 형태로 내부를 표현·생성하고, 디코더는 이를 바탕으로 출력 데이터를 생성한다.
예를 들어, 번역 작업에서 인코더는 영어 문장을 받아 임베딩 벡터로 변환하고, 디코더는 이를 바탕으로 해당 문장의 번역된 결과를 생성한다. 이 과정에서 인코더는 입력 문장의 의미를 추출하고 디코더는 이를 바탕으로 새로운 문장을 만드는 역할을 한다.
데이터스트림즈 관계자는 “이 과정에서 벡터는 단어를 숫자로 치환한다. 컴퓨터는 텍스트를 직접 이해할 수 없어 단어를 고차원 공간의 숫자 형태로 변환해 학습한다. 예를 들어 ‘cat’이라는 단어는 ‘0.2, 0.8, 0.1’과 같은 벡터로 표현될 수 있다. 이러한 벡터는 단어 간 의미적 관계를 반영하며, ‘cat’과 ‘dog’는 유사한 벡터값을 갖게 된다”고 부연했다.
이러한 트랜스포머의 핵심은 셀프 어텐션(Self-Attention) 메커니즘에 있다. 셀프 어텐션은 문장 내 단어 간 관계를 가중치로 표현해 문맥 정보를 효과적으로 학습한다. “The cat sat on the mat”라는 문장에서 ‘cat’과 ‘sat’은 밀접한 관계가 있다. 셀프 어텐션은 이러한 관계를 강조하며, 각 단어가 다른 단어와 얼마나 관련성이 있는지를 계산한다. 이 과정에서 ‘cat’과 ‘sat’은 높은 가중치를 가지며, ‘mat’와 같은 단어는 상대적으로 낮은 가중치를 갖게 된다.


