NatureCitations: 5,000+

Improved protein structure prediction using potentials from deep learning

딥러닝 포텐셜을 이용한 개선된 단백질 구조 예측

Andrew W. Senior, Richard Evans, John Jumper, et al. (2020)

딥러닝으로 아미노산 쌍 간의 거리 분포를 예측하고 이를 에너지 함수의 포텐셜로 활용하여 단백질 3차 구조를 예측하는 방법을 제시한 논문으로, CASP13에서 다른 참가팀을 압도적으로 능가하며 1위를 차지했다. 단백질 구조 예측에서 딥러닝의 변혁적 잠재력을 처음으로 입증한 연구이다.

배경

단백질의 3차원 구조는 기능을 결정하는 핵심 요소이지만, 실험적 구조 결정(X선 결정학, NMR, 크라이오-EM)은 비용이 높고 시간이 오래 걸린다. CASP(Critical Assessment of protein Structure Prediction) 대회는 1994년부터 이 문제의 발전을 추적해왔지만, 수십 년간 진전이 더뎠다. 기존 방법들은 진화적 공변이(coevolution) 분석으로 잔기 간 접촉(contact)을 예측하는 데 초점을 맞추었지만, 이산적 접촉 정보만으로는 정밀한 3D 구조를 구축하기 어려웠다. 딥러닝이 이미지 인식 등에서 성공하면서 단백질 구조 예측에도 적용할 수 있으리라는 기대가 있었다.

핵심 아이디어

AlphaFold1은 두 가지 핵심 혁신을 도입했다. 첫째, 기존의 이산적 접촉 예측(접촉/비접촉)을 잔기 쌍 간의 연속적 거리 분포 예측으로 대체했다. 딥러닝 네트워크(ResNet 기반)가 다중 서열 정렬(MSA)로부터 추출한 공진화 정보와 서열 특징을 입력받아 모든 잔기 쌍에 대해 거리 히스토그램을 출력한다. 둘째, 예측된 거리 분포를 통계적 포텐셜(에너지 함수)로 변환하고, 경사 하강법으로 이 포텐셜을 최소화하는 3D 좌표를 탐색한다. 이러한 방식으로 딥러닝 예측과 물리 기반 구조 정제를 결합했다.

방법론

서열로부터 MSA를 구축한 후 공분산 행렬, 위치별 빈도 등의 특징을 추출한다. 이 2D 특징 맵을 딥 ResNet에 입력하여 모든 잔기 쌍(i, j)에 대해 Cβ 원자 간 거리의 이산 확률 분포를 예측한다. 예측된 거리 분포의 음의 로그 확률을 잔기 간 포텐셜로 사용하고, 밴 데르 발스 반경 등 물리적 제약과 함께 전체 에너지 함수를 구성한다. L-BFGS 최적화로 무작위 초기 구조에서 출발하여 이 에너지를 최소화하며, 여러 무작위 시드에서 반복 수행 후 클러스터링으로 최종 구조를 선택한다.

주요 결과

CASP13(2018)에서 43개의 자유 모델링(free modeling) 타겟 중 25개에서 가장 정확한 구조를 제출하며 압도적 1위를 차지했다. 2위 팀과의 점수 차이(GDT_TS 기준)는 CASP 역사상 가장 큰 폭이었다. 특히 기존 방법이 풀지 못했던 대형(100잔기 이상) 자유 모델링 타겟에서도 실험 구조에 근접한 예측을 생성했다. 거리 분포 기반 접근이 이산적 접촉 예측보다 월등히 효과적임을 실증했다.

임팩트

단백질 구조 예측 분야에 지각변동을 일으키며 딥러닝의 과학적 문제 해결 능력을 전 세계에 알렸다. AlphaFold2(2020)로 발전하여 원자 수준의 정확도를 달성하고 거의 모든 알려진 단백질의 구조를 예측하는 데 이르렀다. 구조생물학, 신약개발, 효소 설계 등 생명과학 전반에 혁명적 영향을 미쳤으며, AI가 근본적 과학 문제를 해결할 수 있다는 것을 보여준 상징적 사례가 되었다.

관련 Foundation 논문

관련 논문