강의 및 자료 : 서울대 DSBA 연구실 (https://youtu.be/LshTQYFV8KU?si=uQBQmVFRdU95jOKc)
📌 XAI : Usage (사용 방식)
XAI(설명 가능한 AI)는 모델 자체가 해석력을 가지는지 또는 외부적으로 설명을 부여하는지에 따라 Intrinsic XAI(내재적 XAI)와 Post-Hoc XAI(사후적 XAI)로 나뉜다.
1️⃣ Intrinsic XAI (내재적 XAI)
- 설명 가능성이 모델 자체에 내장됨
- 모델의 구조와 동작 방식이 직관적이고 명확하여, 별도의 해석 과정이 필요 없음
- 정의상, 모델에 종속적(model-specific)이므로 다른 모델 아키텍처에 쉽게 재사용할 수 없음
✅ 장점
✔ 직관적이고 빠르게 해석 가능
❌ 단점
🚨 복잡한 문제에 적용하기 어려움 (설명 가능성 vs 성능의 트레이드오프)
📌 Intrinsic XAI 예시
- Decision Tree
- Linear Regression, Logistic Regression
- Rule-based Models (예: RuleFit)
- Interpretable CNNs
- Capsule Networks
- Attention Mechanism
📌 추가 Intrinsic XAI 모델
✅ Bayesian Rule Lists
- If-Then 규칙 기반의 의사결정 리스트를 사용하여 모델의 예측을 설명
- 특정 조건을 만족하면 해당 데이터 포인트를 특정 클래스로 할당
- 규칙을 반복적으로 추가 및 수정하여 posterior distribution을 따르도록 최적화
✅ Neural Additive Models
- 각 입력 특징별로 개별적인 신경망을 학습하고,
→ 이를 선형 결합하여 최종 출력을 생성 - 개별 특징의 기여도를 명확하게 분석할 수 있음
✅ Sparse LDA (Latent Dirichlet Allocation)
- 일부 중요한 피처만 선택하여 모델을 구성
- 모델 복잡성을 줄이고, 해석 가능성을 향상
2️⃣ Post-Hoc XAI (사후적 XAI)
- 이미 학습된 모델에 대해 사후적으로 해석을 부여하는 방식
- 모델 자체는 블랙박스 상태이지만, 결과를 분석하여 설명을 생성
- 범용성이 높아 다양한 모델에 적용 가능
✅ 장점
✔ 복잡한 모델에도 적용 가능
✔ 모델 성능 저하 없이 해석 제공
❌ 단점
🚨 설명의 정확도가 모델에 따라 다를 수 있음
📌 Post-Hoc XAI 예시
- LIME (KDD 2016)
- SHAP (NeurIPS 2017)
- Gradient-based Methods
- Grad-CAM (ICCV 2017)
- Integrated Gradients (ICML 2017)
- Perturbation Methods
- Occlusion
- Adversarial Changes
- Attention Map Visualization
- Transformer 모델에서 Attention Mechanism을 시각화하여 해석
📌 추가 Post-Hoc XAI 연구
✅ Attention Meets Post-Hoc Interpretability: A Mathematical Perspective
- Attention weight만으로 모델의 전체 예측 과정을 완전히 설명하기에는 한계가 있음
- Attention Mechanism은 모델의 내재적 설명으로 보기 어려우며, Post-Hoc 설명에 더 가깝다고 볼 수 있음
📌 정리
구분 | Intrinsic XAI (내재적 XAI) | Post-Hoc XAI (사후적 XAI) |
설명 방식 | 모델 자체가 해석력을 가짐 | 학습된 모델을 사후적으로 분석하여 설명 |
특징 | 모델 구조가 직관적, 별도 해석 과정 불필요 | 복잡한 블랙박스 모델에도 적용 가능 |
모델 종속성 | 모델에 종속적 (Model-Specific) | 모델과 독립적 (Model-Agnostic) |
장점 | 직관적이고 빠른 해석 가능 | 범용적으로 다양한 모델에 적용 가능 |
단점 | 복잡한 문제 적용 어려움 (성능 vs 설명력 Trade-off) | 모델에 따라 해석 정확도가 달라질 수 있음 |
예시 | Decision Tree, Rule-based Models, Neural Additive Models | LIME, SHAP, Grad-CAM, Integrated Gradients |
'XAI' 카테고리의 다른 글
XAI : Introduction - Part 2 (4) # Software Packages and Limitations, Future Directions (0) | 2025.02.23 |
---|---|
XAI : Introduction - Part 2 (3) # Evaluation Metrics (0) | 2025.02.21 |
XAI : Introduction - Part 2 (2) # Evaluation (0) | 2025.02.21 |
XAI : Introduction - Part 1 (2) (0) | 2025.02.20 |
XAI : Introduction - Part 1 (1) (0) | 2025.02.20 |