게놈을 생성하는 ‘DNA 훈련 AI’ 나왔다…단백질·유전자 염기서열 제작
스탠포드 대학 연구진, 유전공학에 특화된 AI 모델 에보(Evo) 선봬 연구진, 누구나 접근하고 연구할 수 있도록 에보 공개
[아이티데일리] 생성형 AI 챗봇 챗GPT는 인터넷에 기록된 많은 정보를 얻을 수 있다. 이 때문에 소설 모비딕을 요약하고, 컴퓨터 코드를 작성하고, 각종 요리 레시피를 제공할 수 있다. 그렇다면 DNA와 같은 유전공학에서도 같은 일을 할 수 있지 않을까.
사이언스(Science) 최신호에 발표된 새로운 연구가 가능성을 입증했다고 사이언스 공식 홈페이지가 전했다. 연구는 스탠포드 대학이 이끌었다. 게시글에서 연구팀은 수십억 줄의 유전자 염기서열을 학습한 AI 모델을 설명하고 있다. 이 모델은 박테리아와 바이러스 게놈(유전체)이 어떻게 작동하는지 추론하고, 이 정보를 사용해 새로운 단백질과 미생물 게놈을 설계할 수 있다. 에보(Evo)로 명명된 이 모델은 과학자들이 진화를 탐구하고, 질병을 조사하고, 새로운 치료법을 개발하며, 수많은 다른 생물 의학적 질문에 답하는 데 도움이 된다고 한다.
아르곤국립연구소의 생물학자 아빈드 라마나단은 "이번 연구 성과는 매우 중요하다. 에보 테스트는 AI에 대한 ‘훌륭한’ 응용프로그램 쇼케이스를 제공한다“고 말했다.
연구진은 특정 유형의 분자와 관련된 작업을 수행하는 특수 AI 모델을 설계했다. 잘 알려진 모델로는 아미노산 서열에서 단백질 구조를 예측하는 알파폴드(AlphaFold)가 있다. 반면 챗GPT 등 다른 많은 생성형 AI는 범용 프로그램이다.
분자 생물학의 기본이 되는 DNA와 관련, 연구진은 LLM처럼 DNA 서열을 분석하는 몇 가지 기초 모델을 개발했다. DNA에서 패턴을 찾을 때 모델이 사용하는 검색 창 컨텍스트 길이를 늘렸다. 컨텍스트 길이가 길수록 유전자나 다른 DNA 염기서열 간의 연결을 식별하는 모델의 능력이 향상될 수 있다. 이 설계를 통해 연구팀은 에보의 해상도를 DNA의 구성 요소인 개별 뉴클레오티드 수준으로 높일 수 있었다. 이전 모델은 뉴클레오티드 ‘그룹’으로만 작동할 수 있었다.
연구진은 구축된 에보를 대상으로 4주 동안 학습시켰고, 그동안 모델은 8만 개의 미생물 게놈과 박테리아를 표적으로 하는 바이러스의 수백만 개의 염기서열, 플라스미드라고 알려진 반독립적 DNA 루프에 대해 스스로 학습했다. 전체적으로 에보는 3000억 개의 뉴클레오티드의 염기서열 정보를 학습했다.
연구진은 에보를 대상으로 돌연변이가 단백질 성능에 미치는 영향을 예측하는 테스트를 진행했다. 이는 DNA 결함이 어떻게 질병으로 이어지는지 이해하고 새로운 약물을 설계하는 데 중요하다. 테스트 결과 에보는 DNA 염기서열 데이터에서 돌연변이 효과를 추론하는 이전 AI 모델보다 뛰어난 성능을 보였다. 단백질 염기서열에 의존하는 다른 AI 모델과 마찬가지로 제대로 작동했다.
연구진은 또 개발된 모델이 새로운 콘텐츠를 만들어 내는 기능이 있다는 것도 보여주었다. 욘규잔운 에보에게 CRISPR 게놈 편집기(유전자가위)의 새로운 버전을 설계하라고 요청했다. 에보는 먼저 Cas 단백질과 파트너 RNA를 인코딩하는 7만 개 이상의 박테리아 DNA 염기서열을 학습했다. 그런 다음 수백만 개의 가능한 분자 버전을 고안했다. 결국, 단백질을 합성하는 데 성공했다.
물론 개발된 모델이 온전하게 작동하지는 않았다. 많은 LLM과 마찬가지로 에보도 환각 증세를 보이며 엉뚱한 결과를 내놓기도 했다. 그럼에도 불구하고, 개발된 모델은 무작위한 추출이나 추측보다 더 능숙하게 새로운 분자 옵션을 찾아냈다.
AI에 대한 연구의 대부분은 비밀리에 이루어진다. 그러나 연구팀은 에보를 공개해 다른 연구진이 활용할 수 있도록 했다. 연구진은 또 에보를 상용화할 계획은 없으며, 연구 프로젝트로 계속 진행될 것이라고 밝혔다.