Graph Attention Networks
그래프 어텐션 네트워크
Petar Veličković, Guillem Cucurull, Arantxa Casanova, et al. (2017)
그래프의 각 노드가 이웃 노드들에 어텐션 메커니즘을 적용하여 적응적으로 가중치를 부여함으로써, 이웃의 중요도를 동적으로 학습할 수 있는 그래프 어텐션 네트워크이다.
배경
GCN은 이웃의 특징을 고정된 정규화 계수로 집계하여, 모든 이웃을 동등하게(차수에 의한 정규화만 적용) 취급했다. 하지만 실제 그래프에서는 이웃 노드들의 중요도가 다를 수 있으며, 이를 학습적으로 반영할 수 있는 메커니즘이 필요했다. 또한 GCN의 스펙트럴 접근법은 그래프 구조에 종속적이어서 새로운 그래프에 직접 적용하기 어려운 한계가 있었다.
핵심 아이디어
GAT(Graph Attention Network)는 Transformer의 셀프 어텐션에서 영감을 받아, 이웃 노드 쌍 사이의 어텐션 계수를 학습한다. 각 노드 쌍 (i, j)에 대해 학습 가능한 어텐션 메커니즘 a를 적용하여 가중치 α_ij를 계산하고, 이를 사용하여 이웃 특징의 가중합을 구한다. 멀티헤드 어텐션을 사용하여 여러 개의 독립적인 어텐션 헤드를 병렬로 적용하고 결과를 연결(concatenate)하거나 평균하여 표현력과 안정성을 높인다. 어텐션 계수가 이웃 노드의 특징에 의해 결정되므로, 다른 노드나 다른 그래프에서도 직접 적용 가능한 귀납적(inductive) 학습이 가능하다.
방법론
각 레이어에서 노드 특징을 선형 변환한 후, 연결된 노드 쌍의 변환된 특징을 결합(concatenation)하여 단일 레이어 피드포워드 네트워크와 LeakyReLU를 거쳐 어텐션 로짓을 계산한다. 소프트맥스로 정규화하여 어텐션 계수를 얻고, K개의 헤드를 병렬로 실행한다. 마스크드 어텐션으로 그래프의 연결 구조를 반영한다.
주요 결과
Cora, Citeseer, Pubmed 인용 네트워크 벤치마크에서 GCN 및 기타 기존 방법을 상회하거나 동등한 성능을 달성했다. PPI(Protein-Protein Interaction) 데이터셋의 귀납적 학습 설정에서도 GraphSAGE의 모든 변형을 능가하여, 귀납적 학습 능력을 입증했다.
임팩트
GAT는 그래프 뉴럴 네트워크에 어텐션 메커니즘을 성공적으로 도입하여, GNN 설계에서 적응적 이웃 집계의 중요성을 확립했다. 이후 GATv2(정적 어텐션 한계 극복), Graph Transformer 등 어텐션 기반 GNN의 발전을 이끌었으며, 약물 발견, 추천 시스템, 자연어 처리의 구문 분석 등에서 널리 활용되고 있다.