Open Graph Benchmark: Datasets for Machine Learning on Graphs
오픈 그래프 벤치마크: 그래프 머신러닝을 위한 데이터셋
Weihua Hu, Matthias Fey, Marinka Zitnik, et al. (2020)
기존 그래프 ML 벤치마크의 한계(작은 규모, 비현실적 분할, 제한된 태스크 다양성)를 극복하기 위해 다양한 도메인과 규모를 아우르는 OGB(Open Graph Benchmark)를 제안하고, 통일된 평가 프로토콜과 리더보드를 제공했다.
배경
그래프 머신러닝이 빠르게 발전했지만, 표준 벤치마크의 부재로 인해 공정한 비교와 실질적 진보의 측정이 어려웠다. 기존에 널리 사용되던 벤치마크(Cora, Citeseer, PPI, TU 데이터셋 등)는 여러 문제가 있었다: (1) 너무 작은 규모(수천 노드)로 실제 응용과 동떨어짐, (2) 랜덤 분할이 비현실적인 평가를 유도, (3) 실험 프로토콜의 비표준화로 재현성이 떨어짐, (4) 분자, 소셜 네트워크, 지식 그래프 등 다양한 도메인을 포괄하지 못함.
핵심 아이디어
OGB는 세 가지 핵심 원칙으로 설계되었다. 첫째, 실제 응용에서 수집된 다양한 도메인(생물학, 화학, 소셜 네트워크, 지식 그래프)의 대규모 그래프를 포함하여 현실적 도전을 제시한다. 둘째, 각 데이터셋에 태스크 특성에 맞는 의미 있는 데이터 분할(시간 기반, 종 기반, 구조 기반 등)을 제공하여, 모델의 진정한 일반화 능력을 평가한다. 셋째, 데이터 로딩, 전처리, 평가를 자동화하는 Python 패키지와 공개 리더보드를 제공하여 재현 가능하고 공정한 비교를 가능하게 한다. 데이터셋은 노드 수준(ogbn), 링크 수준(ogbl), 그래프 수준(ogbg) 태스크로 분류된다.
방법론
OGB는 세 가지 태스크 카테고리를 제공한다. ogbn(노드 분류): ogbn-products(240만 노드, Amazon 상품 네트워크), ogbn-proteins(13만 노드, 단백질 상호작용), ogbn-arxiv(17만 노드, 논문 인용) 등. ogbl(링크 예측): ogbl-ppa(57만 노드, 단백질 연관), ogbl-collab(23만 노드, 학술 협업), ogbl-citation2(295만 노드, 논문 인용) 등. ogbg(그래프 분류/회귀): ogbg-molhiv(4만 그래프, HIV 활성 예측), ogbg-molpcba(43만 그래프, 생물 활성), ogbg-ppa(16만 그래프, 종 간 단백질 기능) 등. 각 데이터셋에 도메인 전문가와 협력하여 설계한 의미 있는 데이터 분할과 적절한 평가 메트릭을 제공한다.
주요 결과
GCN, GraphSAGE, GIN 등 기존 GNN을 OGB에서 체계적으로 평가한 결과, 기존의 작은 벤치마크에서의 순위가 대규모 현실적 설정에서 변동됨을 확인했다. 예를 들어, ogbn-products에서 단순한 MLP도 GNN과 비교 가능한 성능을 보여 GNN의 우위가 자명하지 않음을 밝혔다. ogbg-molhiv에서는 랜덤 분할 대비 scaffold 분할에서 모든 모델의 성능이 크게 하락하여, 현실적 분할의 중요성을 입증했다. 리더보드를 통해 새로운 방법들의 점진적 진보가 투명하게 추적되었다.
임팩트
OGB는 그래프 ML 커뮤니티의 표준 벤치마크로 자리잡아, NeurIPS, ICML, ICLR 등 주요 학회의 GNN 논문 대다수가 OGB 결과를 보고하게 되었다. 공정하고 재현 가능한 평가를 통해 분야의 건전한 발전을 촉진했으며, OGB-LSC(대규모 챌린지)로 확장되어 KDD Cup 등에서 경쟁 벤치마크로 활용되고 있다. 그래프 ML에서 '벤치마크 주도 연구'의 모범 사례로, 이후 Long Range Graph Benchmark, TGB(Temporal Graph Benchmark) 등 유사한 벤치마크 구축에 영감을 주었다.