Sequence modeling and design from molecular to genome scale with Evo
Evo: 분자에서 게놈 규모까지의 시퀀스 모델링과 설계
Eric Nguyen, Michael Poli, Matthew G. Durrant, et al. (2024)
DNA, RNA, 단백질에 이르는 모든 생물학적 서열을 단일 문자 토큰(single-nucleotide) 수준에서 모델링하는 70억 파라미터의 게놈 파운데이션 모델이다. StripedHyena 아키텍처를 기반으로 최대 131kb 길이의 서열을 처리하며, 유전자에서 게놈 규모까지의 서열 설계와 기능 예측에서 새로운 가능성을 열었다.
배경
자연어 처리에서 대규모 언어 모델이 텍스트의 범용적 이해와 생성을 달성한 것처럼, 생물학에서도 DNA/RNA/단백질 서열을 범용적으로 모델링하는 파운데이션 모델에 대한 기대가 커지고 있었다. 기존 생물학적 언어 모델(ESM, ProGen 등)은 대부분 단백질 서열에 특화되어 있거나 짧은 서열만 처리할 수 있었다. 그러나 생물학적 기능은 프로모터, 인핸서, 유전자 간 상호작용 등 수십~수백 킬로베이스 규모의 게놈 맥락에서 결정되므로, 긴 범위의 의존성을 포착할 수 있는 효율적인 아키텍처가 필요했다. 트랜스포머의 이차 복잡도는 이러한 초장거리 서열 모델링에 병목이 되었다.
핵심 아이디어
Evo는 세 가지 핵심 설계 선택을 통해 게놈 규모의 서열 모델링을 달성한다. 첫째, StripedHyena 아키텍처를 사용하여 어텐션과 상태 공간 모델(SSM, 하이에나 연산자)을 교대로 배치함으로써 긴 서열을 선형 복잡도로 처리한다. 둘째, 단일 뉴클레오타이드(A, T, G, C) 수준의 토큰화를 사용하여 DNA, RNA, 단백질 코딩 서열을 통합적으로 모델링한다. 셋째, OpenGenome이라는 270만 개 원핵생물 및 파지 게놈을 포함한 대규모 게놈 데이터셋에서 다음 토큰 예측으로 사전학습한다. 이를 통해 유전자 내부의 코돈 수준 패턴부터 유전자 간 조절 관계까지 다중 스케일의 생물학적 정보를 학습한다.
방법론
StripedHyena 아키텍처는 하이에나 연산자(긴 범위 의존성 담당)와 멀티헤드 어텐션(정밀한 로컬 패턴 담당)을 번갈아 쌓는 구조로, 최대 131,072 토큰(131kb 게놈 서열)을 단일 뉴클레오타이드 해상도로 처리한다. 70억 파라미터 모델을 OpenGenome 데이터셋(약 3,000억 토큰)에서 인과적 언어 모델링(next-token prediction)으로 학습한다. 추론 시 제로샷 로그 우도(log-likelihood)를 사용하여 돌연변이 효과 예측, 유전자 필수성 분류 등 다양한 다운스트림 태스크를 수행한다. 서열 생성 시에는 자기회귀적 샘플링으로 새로운 유전자와 게놈 수준의 서열을 설계한다.
주요 결과
단백질 돌연변이 효과 예측에서 기존 단백질 특화 모델(ESM-1v 등)과 경쟁력 있는 성능을 보여 단백질 수준의 이해도 확보했다. 비코딩 RNA의 기능 예측, 유전자 필수성 분류에서도 전문 모델에 필적하는 결과를 달성했다. 가장 주목할 만한 것은 서열 생성 능력으로, CRISPR 시스템의 기능적 구성 요소를 포함한 새로운 유전자 서열을 설계하는 데 성공했으며, 생성된 GFP 변이체가 실험적으로 형광을 나타냄을 확인했다. 131kb 길이의 게놈 수준 서열 생성이 가능하여 유전자 클러스터와 오페론 수준의 설계 가능성을 시연했다.
임팩트
Science에 발표되어 게놈 파운데이션 모델의 새로운 표준을 제시했다. DNA에서 단백질까지의 중심 원리(central dogma)를 하나의 모델로 통합적으로 학습할 수 있음을 보여주었으며, 합성 생물학, 유전체 의학, 진화 연구 등 광범위한 응용 가능성을 열었다. 특히 기능적 유전자 서열을 de novo 설계하는 능력은 합성 생물학의 새로운 가능성을 제시한다. ESMFold와 함께 대규모 생물학적 서열 모델링의 중요한 이정표이며, SSM과 어텐션의 하이브리드 아키텍처가 초장거리 서열 모델링에 효과적임을 실증했다.