Gradient-Based Learning Applied to Document Recognition
문서 인식에 적용된 경사 기반 학습
Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner (1998)
한줄 요약
합성곱 신경망(CNN) 의 실용적 설계와 학습 방법을 체계적으로 정립하고, 문서 인식 시스템에 성공적으로 적용한 논문. 현대 컴퓨터 비전의 원형이 된 LeNet-5 아키텍처를 제안했다.
배경 & 동기
1990년대 문자 인식(OCR)은 이미 상업적 수요가 컸지만, 기존 접근 방식에는 한계가 있었다:
- 수작업 특징 추출: 사람이 설계한 특징(edge, stroke 등)을 추출 후 분류기에 입력 — 설계 비용이 크고 일반화 어려움
- 완전 연결 네트워크: 이미지를 1차원 벡터로 펴서 입력 — 공간 구조를 무시하고, 파라미터가 폭발적으로 증가
- 2차원 이미지의 지역적 패턴(local pattern)과 이동 불변성(translation invariance)을 활용하는 구조가 필요
LeNet-5는 세 가지 핵심 원리를 구조적으로 구현한다:
- 지역 수용장 (Local Receptive Field): 각 뉴런이 입력의 작은 영역만 참조 — 지역적 특징 추출
- 가중치 공유 (Weight Sharing): 동일 필터를 이미지 전체에 걸쳐 공유 — 파라미터 수 대폭 절감 + 이동 불변성
- 서브샘플링 (Subsampling/Pooling): 공간 해상도를 줄여 위치 변동에 대한 강건성 확보
이 세 원리의 조합으로 "특징 추출 → 분류" 전 과정을 end-to-end로 학습할 수 있게 되었다.
여기서:
- : 이전 층의 번째 특징 맵
- : 학습 가능한 합성곱 커널
- : 번째 출력 특징 맵에 연결된 입력 특징 맵의 부분집합
- : 활성화 함수 (LeNet-5에서는 scaled tanh)
- : 2D 합성곱 연산
여기서:
- : 학습 샘플 수
- : 번째 입력 패턴
- : 해당 정답 클래스
- : 정답 클래스에 대한 RBF 출력 유닛의 페널티
역전파(Backpropagation)와 확률적 경사 하강법(SGD)으로 전체 네트워크를 end-to-end 학습.
모델 구조
| 레이어 | 출력 크기 | 설명 | |---|---|---| | 입력 | 32×32×1 | 그레이스케일 이미지 | | C1 (Conv) | 28×28×6 | 5×5 필터 6개 | | S2 (Subsampling) | 14×14×6 | 2×2 평균 풀링 | | C3 (Conv) | 10×10×16 | 5×5 필터 16개 (부분 연결) | | S4 (Subsampling) | 5×5×16 | 2×2 평균 풀링 | | C5 (Conv) | 1×1×120 | 5×5 필터 120개 | | F6 (FC) | 84 | 완전 연결 | | 출력 | 10 | RBF 유닛 (숫자 0~9) |
총 약 60K 파라미터 — 현대 기준으로는 극히 작지만, 당시로서는 효율적인 설계.
실험 결과
| 모델 | MNIST Error Rate | |---|---| | Linear Classifier | 12.0% | | K-NN | 5.0% | | 2-layer NN | 4.7% | | LeNet-5 | 0.95% | | LeNet-5 + Boosting | 0.7% |
- MNIST 필기 숫자 인식에서 0.95% 오류율 달성
- 미국 우편번호 인식 시스템에 실제 배포 — 미국 수표의 약 10%를 처리
- Graph Transformer Network(GTN) 프레임워크로 문서 인식 전체 파이프라인의 end-to-end 학습 시연
CNN과 현대 딥러닝 아키텍처의 원형을 제시한 논문.
- 합성곱 → 풀링 → 완전연결 구조가 이후 CNN의 표준 템플릿이 됨
- AlexNet(2012), VGGNet(2014), ResNet(2015) 등 모든 후속 CNN의 직접적 조상
- End-to-end 학습 패러다임의 초기 성공 사례: 특징 추출과 분류를 함께 최적화
- 실제 산업에 배포된 최초의 딥러닝 시스템 중 하나 (AT&T 수표 인식)
- Yann LeCun은 이후 Facebook AI Research 수장으로서 딥러닝 발전을 주도
- "딥러닝의 아버지" 3인 중 한 명 (LeCun, Hinton, Bengio) — 2018 튜링상 수상
- 인용 수 5만회 이상