Scaling deep learning for materials discovery
재료 발견을 위한 딥러닝 스케일링
Amil Merchant, Simon Batzner, Samuel S. Schoenholz, et al. (2023)
능동학습(active learning)과 그래프 신경망(GNN)을 결합하여 220만 개의 새로운 안정 결정 구조를 발견한 Google DeepMind의 대규모 재료 탐색 시스템이다. 기존에 알려진 안정 재료의 수를 거의 10배로 확장했으며, 발견된 재료 중 상당수가 실험적으로 합성에 성공하여 AI 기반 재료 발견의 실용성을 입증했다.
배경
새로운 재료의 발견은 에너지, 전자 기기, 제약 등 산업 전반에 핵심적이지만, 실험적 합성과 특성 평가는 매우 느리고 비용이 높다. 제일원리 계산(DFT: Density Functional Theory)으로 재료의 안정성을 시뮬레이션할 수 있지만, 가능한 조성-구조 공간이 사실상 무한하여 체계적 탐색이 불가능했다. Materials Project, OQMD 등 데이터베이스에는 약 4만 8천 개의 실험적으로 알려진 안정 결정 재료가 등록되어 있을 뿐이었다. 기계 학습 포텐셜(machine learning interatomic potentials)의 발전으로 DFT보다 빠른 에너지 예측이 가능해졌지만, 대규모 체계적 탐색에 적용된 사례는 없었다.
핵심 아이디어
GNoME(Graph Networks for Materials Exploration)는 두 가지 보완적 탐색 파이프라인을 구축한다. 첫째, 구조적 파이프라인은 알려진 결정 구조를 변형(원소 치환, 격자 변형)하여 후보를 생성한다. 둘째, 조성적 파이프라인은 화학 조성만을 기반으로 후보를 생성하고 구조 예측을 수행한다. 각 파이프라인에서 GNN 모델이 후보 재료의 에너지 위 볼록 껍질(energy above hull)을 예측하여 안정성을 평가하고, 유망한 후보만 DFT 검증으로 보낸다. DFT 검증 결과가 다시 GNN 학습 데이터에 추가되는 능동학습 루프를 반복하여 모델의 정확도와 탐색 범위를 점진적으로 확장한다.
방법론
GNN은 결정 구조를 원자를 노드, 결합을 엣지로 표현한 그래프에 대해 메시지 패싱을 수행하여 생성 에너지를 예측한다. 능동학습 루프에서는 (1) 현재 GNN으로 대규모 후보 재료의 안정성을 스크리닝, (2) 유망 후보에 DFT 계산 수행, (3) DFT 결과를 학습 데이터에 추가하여 GNN 재학습의 과정을 여러 라운드 반복한다. 구조적 파이프라인에서는 ICSD 등의 원형 구조에 원소 치환과 격자 변형을 적용하고, 조성적 파이프라인에서는 무작위 구조 탐색(random structure search)과 결합한다. 최종적으로 에너지 위 볼록 껍질이 0 eV/atom인 재료를 열역학적으로 안정한 것으로 판별한다.
주요 결과
총 220만 개의 새로운 안정 결정 구조를 발견했으며, 이는 기존에 알려진 안정 재료(약 4.8만 개)의 약 45배에 해당한다. 최종 GNN 모델은 DFT 검증에서 80% 이상의 정밀도를 달성하여 대규모 스크리닝의 효율성을 입증했다. 발견된 재료 중 736개가 독립적인 실험실에서 실제로 합성에 성공하여 계산 예측의 신뢰성을 확인했다. 특히 리튬 이온 전도체, 초전도체 후보 등 기술적으로 중요한 재료가 다수 포함되어 있었다. 학습 데이터는 초기 약 6만 9천 개에서 최종 약 100만 개 이상으로 능동학습을 통해 확장되었다.
임팩트
Nature에 발표되어 AI 기반 재료 발견의 규모와 실용성을 전 세계에 보여주었다. 발견된 재료 데이터베이스는 공개되어 전 세계 재료 과학자들이 활용할 수 있으며, 배터리, 태양전지, 촉매, 반도체 등 다양한 응용 분야의 연구를 가속화하고 있다. 능동학습과 대규모 계산의 결합이라는 방법론은 약물 발견, 촉매 설계 등 다른 분자/재료 탐색 문제에도 영향을 미치고 있다. AI가 실험과학자에게 구체적이고 검증 가능한 발견을 제시할 수 있음을 보여준 중요한 사례이다.