Evolutionary-scale prediction of atomic-level protein structure with a language model
언어 모델을 이용한 진화적 규모의 원자 수준 단백질 구조 예측
Zeming Lin, Halil Akin, Roshan Rao, et al. (2022)
대규모 단백질 언어 모델(ESM-2)의 표현만으로 다중 서열 정렬(MSA) 없이 단백질의 원자 수준 3D 구조를 예측하는 모델이다. MSA 검색이 불필요하여 AlphaFold2 대비 최대 60배 빠른 추론 속도를 달성하면서도 경쟁력 있는 정확도를 보여, 대규모 메타게놈 데이터에서 수억 개의 단백질 구조를 예측할 수 있게 했다.
배경
AlphaFold2는 단백질 구조 예측의 혁명을 가져왔지만, MSA를 구축하기 위해 대규모 서열 데이터베이스를 검색해야 하여 단일 단백질당 수 분의 시간이 소요되었다. 이는 수억 개의 메타게놈 서열에 대해 구조를 예측하는 것을 비현실적으로 만들었다. 한편, ESM(Evolutionary Scale Modeling) 시리즈의 단백질 언어 모델은 수십억 개의 단백질 서열에서 마스크드 언어 모델링으로 사전학습되며, 진화적 정보(접촉 예측, 2차 구조 등)를 암묵적으로 학습한다는 것이 밝혀졌다. MSA가 제공하는 공진화 정보를 단일 서열의 언어 모델 표현으로 대체할 수 있는가라는 질문이 제기되었다.
핵심 아이디어
ESMFold는 150억 파라미터의 단백질 언어 모델(ESM-2)을 인코더로 사용하여 단일 아미노산 서열로부터 풍부한 잔기별 표현(per-residue representations)과 잔기 쌍 표현(pairwise representations)을 추출한다. 이 표현을 AlphaFold2에서 영감받은 구조 모듈(Structure Module)에 입력하여 3D 원자 좌표를 예측한다. 핵심 통찰은 대규모 단백질 언어 모델이 사전학습 과정에서 진화적 정보를 내재적으로 학습하므로, 명시적 MSA 검색 없이도 구조 예측에 필요한 공진화 신호를 제공할 수 있다는 것이다. 이를 통해 추론 시 MSA 검색 단계를 완전히 제거하여 속도를 극적으로 향상시킨다.
방법론
ESM-2(150억 파라미터)를 백본으로 사용하며, 단일 서열을 입력받아 각 잔기에 대한 토큰 표현과 잔기 쌍에 대한 어텐션 맵을 추출한다. 어텐션 맵을 선형 변환하여 잔기 쌍 표현을 구성하고, 이를 AlphaFold2의 구조 모듈과 유사한 네트워크에 통과시켜 불변점 어텐션(Invariant Point Attention)으로 3D 좌표를 반복 정제한다. 학습은 실험적으로 결정된 단백질 구조(PDB)에 대해 FAPE(Frame Aligned Point Error) 손실로 수행한다. ESM-2는 UniRef 데이터베이스의 수천만 서열에서 마스크드 언어 모델링으로 사전학습된다.
주요 결과
단일 서열 입력만으로 CAMEO 벤치마크에서 AlphaFold2의 약 90% 수준의 정확도(평균 GDT_TS)를 달성했다. MSA 검색이 불필요하여 추론 속도가 AlphaFold2 대비 최대 60배 빠르다. 이 속도 향상으로 MGnify 데이터베이스의 6억 1,700만 개 메타게놈 서열에 대해 구조를 예측하여 ESM Metagenomic Atlas를 구축했다. 이 중 상당수가 알려진 구조와 다른 새로운 폴드를 가진 것으로 확인되었다. 모델 크기(ESM-2의 파라미터 수)와 구조 예측 정확도 간에 명확한 스케일링 관계가 관찰되었다.
임팩트
단백질 구조 예측에서 MSA 의존성을 제거하는 새로운 패러다임을 제시했다. ESM Metagenomic Atlas는 알려진 실험 구조보다 수백 배 많은 예측 구조를 제공하여 구조 생물학의 지형을 바꾸었다. 단백질 언어 모델이 진화적 정보를 효과적으로 내재화한다는 발견은 단백질 설계, 기능 예측 등 관련 분야에도 큰 영향을 미쳤다. 대규모 생물학적 서열 데이터에 대한 언어 모델링의 가능성을 보여주어 Evo 등 후속 게놈 언어 모델 연구에 영감을 주었다.