강의 및 자료 : 서울대 DSBA 연구실 (https://youtu.be/8xhQ4oIBAnY?si=8dBSApHsTiceYSvP)

 

📌 XAI : Additive Feature Attribution Methods (SHAP & Shapley Value) 정리

이번 강의에서는 SHAP(Shapley Additive Explanations)과 그 핵심 개념인 Shapley Value를 중심으로 XAI 기법을 다룬다. 이를 이해하기 위해 협력적 게임 이론(Cooperative Game Theory)을 기반으로 한 설명 방법과 머신러닝 모델에서의 적용 방식도 함께 살펴본다.


1️⃣ 배경 설명: 협력적 게임 이론과 Shapley Value

  • Shapley Value는 협력적 게임 이론에서 각 플레이어(변수)가 게임(예측)에 기여한 정도를 공정하게 배분하는 방법론
  • 협력적 게임 이론 개념:
    • 참가자(플레이어) 집합: 예측 모델에서는 변수(feature)에 해당
    • 협력체(Coalition): 특정 변수들의 조합이 모델의 예측에 미치는 영향을 측정
    • 가치 함수(Value Function): 특정 변수 조합이 모델 예측에 기여하는 정도를 나타냄
    • 분배 과정(Allocation Process): 변수별 기여도를 공정하게 배분하는 과정
  • Shapley Value의 핵심 성질:
    1. 효율성(Efficiency): 기여도의 총합이 전체 모델 예측값과 같아야 함
    2. 위장 플레이어(Dummy Player): 기여도가 없는 변수는 0의 기여도를 가짐 (무임승차 방지)
    3. 대칭성(Symmetry): 동일한 기여도를 가지는 변수는 동일한 값을 가져야 함
    4. 강한 단조성(Strong Monotonicity): 기여도가 더 높은 변수는 더 큰 값을 받아야 함
    5. 가산성(Additivity): 개별 모델에서 기여한 값을 합산하여 전체 모델 기여도로 활용 가능

2️⃣ SHAP(Shapley Additive Explanations) 개념

  • Shapley Value를 확장한 방법론으로 변수의 중요도를 설명하는 대표적인 XAI 기법
  • 기존 XAI 기법(LIME, DeepLIFT 등)과 달리 Additive Feature Attribution을 기반으로 모델-불가지론(Model-agnostic) 방식으로 작동
  • SHAP의 목표는 각 변수의 중요도를 계산하여 모델 예측에 대한 설명을 제공하는 것
  • SHAP과 기존 XAI 기법 비교:
    • LIME: 특정 데이터 포인트 주변에서 선형 모델을 학습해 기여도를 추정
    • DeepLIFT: 신경망 모델의 뉴런 활성화 차이를 기반으로 기여도를 평가
    • SHAP: Shapley Value를 기반으로 한 기여도 평가, 가장 이론적으로 타당한 방식

3️⃣ 머신러닝에서 Shapley Value 적용

  • 게임(Game) ↔ 머신러닝 예측 문제(Precision Task)
  • 플레이어(Player) ↔ 머신러닝 모델의 변수(Feature)
  • 가치 함수(Value Function) ↔ 머신러닝 예측 함수(Prediction Model)
  • SHAP의 주요 특징:
    1. 로컬 설명(Local Explanation): 개별 샘플에 대한 예측 기여도를 설명
    2. 모델-불가지론(Model-Agnostic): 선형 모델, 트리 모델, 신경망 등 다양한 모델에서 활용 가능
    3. Shapley Value의 공정성 유지: 앞서 설명한 5가지 성질을 만족
  • SHAP의 수식적 정의:
    • 각 변수의 기여도를 계산하는 방식은 Shapley Value 공식과 유사
    • 모든 변수 조합을 고려하여 각 변수의 기여도를 평균적으로 계산

4️⃣ SHAP의 계산 방식 및 한계

  • Shapley Value 계산 시 문제점:
    • 변수 개수가 많아질수록 조합의 개수(순열의 경우의 수)가 급격히 증가 → 계산 부담이 큼
    • 이를 해결하기 위해 Shapley Sampling Value(샘플링 기반 방법) 사용
    • 기본적으로 몬테카를로 샘플링을 활용하여 일부 변수 조합만 선택하여 근사치 계산
  • Kernel SHAP:
    • LIME과 SHAP을 결합한 방법론
    • 모델의 예측값과 변수 기여도를 선형 회귀 모델로 근사
    • 가중치를 적용하여 변수의 중요도를 계산

5️⃣ SHAP의 시각화 및 실험 결과

1. Tabular 데이터셋 분석 (Regression Task)

  • SHAP을 이용한 변수 중요도 분석:
    • SHAP을 이용해 개별 변수의 기여도를 확인 가능
    • 변수를 추가하면서 모델의 예측값 변화 분석
    • 절댓값 평균을 통해 전체 변수 중요도 확인

2. 이미지 분류(Image Classification)

  • MNIST 데이터셋을 이용한 CNN 모델 분석:
    • SHAP을 활용하여 이미지 픽셀별 중요도를 시각화
    • 숫자 ‘8’은 ‘3’과 비슷한 형태를 가지며, 모델도 유사한 특징을 인식하는 경향 확인
    • 픽셀 단위에서 모델이 어느 부분을 집중적으로 학습했는지 시각적으로 분석 가능

6️⃣ SHAP의 실무 적용 및 활용 가이드

  • SHAP을 사용하는 이유:
    • 모델의 투명성 및 신뢰성 향상: XAI 연구에서 가장 강력한 방법론 중 하나
    • 변수 중요도 분석: AI 모델의 의사결정 과정을 이해하는 데 필수적
    • 특정 모델에 종속되지 않음: 모델에 의존하지 않는 일반적인 설명 방법
  • SHAP을 적용할 때 고려해야 할 사항:
    1. Tabular 데이터 분석: 모델이 변수들을 어떻게 사용하고 있는지 파악
    2. 이미지 및 텍스트 데이터 분석: 픽셀 및 단어 수준에서 모델의 의사결정 과정 분석 가능
    3. 컴퓨팅 리소스 문제: 변수 수가 많으면 계산량이 급증할 수 있음 → 샘플링 기법 활용
    4. LIME과 비교 시: Kernel SHAP이 LIME보다 더 안정적인 결과를 제공

7️⃣ 결론 및 시사점

  • SHAP은 가장 이론적으로 공정한(XAI 평가 기준을 충족하는) 설명 방법론
  • Shapley Value의 공정한 배분 원칙을 머신러닝 변수 중요도 평가에 적용
  • LIME, DeepLIFT 등과 비교해도 이론적 근거가 확실하고, 모델 독립적으로 사용 가능
  • 다만, 계산량이 많아지는 문제를 해결하기 위한 최적화 방법이 필요
  • 추천 사항:
    • 머신러닝 모델을 분석할 때 Kernel SHAP 사용 추천
    • 딥러닝 모델에는 Deep SHAP(DeepLIFT 기반) 적용 가능
    • LIME보다는 SHAP을 사용하는 것이 더 일반적으로 추천됨

SHAP은 XAI 기법 중에서도 가장 이론적으로 정교하며, Shapley Value를 기반으로 모델 예측을 설명하는 강력한 방법론임을 알 수 있었다. 협력적 게임 이론의 개념을 머신러닝에 적용하여 공정한 변수 기여도를 계산하는 점이 인상적이었다. 하지만, 변수 수가 많아지면 계산량이 기하급수적으로 증가한다는 한계가 있다. 이를 극복하기 위해 샘플링 기법, Kernel SHAP, Deep SHAP 등이 활용되고 있다. 

강의 및 자료 : 서울대 DSBA 연구실 (https://youtu.be/LshTQYFV8KU?si=I882BwlzfjzfIZmF)

📌 XAI 프레임워크 정리

XAI(Explainable AI) 관련 프레임워크들은 모델의 예측을 설명하고 해석 가능성을 높이는 데 초점을 맞춘 다양한 라이브러리를 제공한다. 다음은 주요 XAI 프레임워크들의 정리이다.


1️⃣ Captum

개발사: Meta (PyTorch 기반)
설명: PyTorch 모델의 해석을 위한 오픈 소스 라이브러리
주요 기능:

  • 다양한 Attribution 기법 제공: Integrated Gradients, Saliency Maps, Gradient SHAP 등
  • 다양한 데이터 유형 지원: 이미지, 텍스트 등
  • 사용자 친화적인 인터페이스
  • 확장성: 새로운 해석 기법 추가 가능
  • Captum Insights: 해석 가능성 시각화 위젯 제공

주요 Attribution 기법:

Group Description Algorithm
Primary Attribution 모델 출력에 대한 각 입력 기능의 기여도를 평가 Integrated Gradients, DeepLIFT, Saliency, Lime, KernelSHAP 등
Layer Attribution 모델 출력에 대한 특정 레이어의 뉴런 기여도 평가 GradCAM, Layer Activation, Layer DeepLIFT 등
Neuron Attribution 특정 hidden neuron 활성화에 대한 기여도 평가 Neuron Conductance, Neuron Gradient, Neuron Gradient SHAP 등

2️⃣ AIX360

개발사: IBM
설명: 머신러닝 모델의 해석 가능성과 설명 가능성을 지원하는 오픈 소스 라이브러리
주요 기능:

  • 다양한 설명 기법 제공
  • 다양한 데이터 유형 지원: Tabular, 텍스트, 이미지, 시계열 데이터
  • 확장성: 사용자 정의 설명 알고리즘 및 지표 추가 가능

설명 유형 분류:

  1. 데이터 기반 설명 vs 모델 기반 설명
    • 샘플을 활용한 설명 (ProtoDash)
    • Feature 기반 설명 (DIP-VAE)
  2. 지역(Local) vs 전역(Global) 설명
    • 개별 샘플에 대한 지역적 설명 (LIME, SHAP)
    • 전체 모델에 대한 전역적 설명 (ProfWeight)
  3. 직접 해석 가능한 모델 vs 사후 해석(Post-hoc) 모델
    • 직접 해석 가능 모델 (BRCG, GLRM)
    • 사후 설명 모델 (TED)

주요 알고리즘:

  • Local White Box Explainers: Contrastive Explainers, SHAP, Matching Explainers
  • Local Black Box Explainers: LIME, Nearest Neighbor Contrastive Explainer
  • Global White Box Explainers: ProfWeight Explainer
  • Directly Interpretable Supervised Explainers: Boolean Rules, Generalized Linear Rule Model

3️⃣ Quantus

개발사: XAI 연구 커뮤니티
설명: XAI 평가를 위한 다양한 평가 지표를 제공하는 오픈소스 라이브러리
주요 기능:

  • 30개 이상의 XAI 평가 지표 포함
  • 다양한 평가 범주 지원:
    1. Faithfulness (설명의 신뢰성)
    2. Robustness (설명의 견고성)
    3. Localization (설명의 지역화)
    4. Complexity (설명의 복잡성)
    5. Randomization(Sensitivity) (무작위성 및 민감도)
    6. Axiomatic (공리적 평가)

4️⃣ InterpretML

개발사: Microsoft
설명: 머신러닝 모델의 해석 가능성을 높이기 위한 오픈소스 Python 패키지
주요 기능:

  • Glassbox Models (설명 가능한 모델) 지원
    • Explainable Boosting Machines (EBM), Linear models, Decision Trees
  • Blackbox Explainers (복잡한 모델 설명 기법) 제공
    • LIME, SHAP

설명 방식:

  • Glassbox 모델: 처음부터 해석 가능하도록 설계된 모델
  • Blackbox 모델 설명: 기존 복잡한 모델을 설명하는 방식

📌 각 프레임워크 목적 및 특징

Captum PyTorch 기반 설명 가능성 제공 다양한 Attribution 기법, Captum Insights 시각화
AIX360 IBM의 XAI 툴킷, 다양한 설명 기법 지원 Local vs Global 설명, 직접 해석 가능 모델 제공
Quantus XAI 평가 지표 제공 30개 이상의 평가 지표, Faithfulness/Robustness 등 다양한 평가 지원
InterpretML Glassbox/Blackbox 모델 해석 EBM 기반 설명 가능한 모델, LIME & SHAP 지원

📌 XAI의 한계 및 미래 방향 (Limitations & Future Directions)

1️⃣ XAI의 한계 (Limitations)

1. 해석 가능성 평가 기준의 부재

  • 해석 가능성 평가 방법에 대한 통일된 표준이 없어 연구 간 직접 비교가 어려움

2. 성능 저하 없는 해석 가능성 향상

  • XAI 기법을 적용하면 모델 성능이 저하될 가능성이 큼
  • 모델의 해석 가능성을 높이면서도 예측 성능을 유지하는 것이 기술적으로 어려운 과제

3. 블랙박스 모델의 한계

  • 딥러닝과 같은 블랙박스 모델은 내부 의사결정 과정을 이해하기 어려움
  • 복잡한 모델일수록 설명 가능성이 낮아지는 문제가 발생

4. 일반화 부족

  • 현재 XAI 기법들은 특정 모델 또는 특정 작업에 국한되는 경우가 많아 범용성이 부족함

2️⃣ 미래 연구 방향 (Future Directions)

1. 통합 평가 프레임워크 구축

  • 다양한 해석 가능성 방법을 비교 및 평가할 수 있는 통합적인 평가 체계를 마련하는 것이 중요
  • 모든 분야에서 일관성을 확보할 수 없다면, 특정 분야에서라도 먼저 표준화된 기준을 설정하는 노력이 필요

2. 성능 및 해석 가능성 균형

  • 모델 성능과 해석 가능성 간의 균형을 맞추기 위한 연구가 필요
  • 해석 가능한 모델이 실제 산업 및 연구 환경에서 효과적으로 사용될 수 있도록 연구해야 함

해석 가능성과 모델 성능 간의 균형을 맞추는 것이 중요한 연구 방향이라는 점이 인상적이었다. 해석 가능한 모델이 반드시 성능이 떨어지지 않도록 연구해야 하며, 단순히 이론적인 접근이 아니라 실제 환경에서도 적용 가능한 해석 가능성 기법을 개발하는 것이 필요할 것이다.

앞으로는 XAI 평가 표준화와 다양한 도메인에서도 활용할 수 있는 범용적인 해석 기법에 대한 연구가 실질적으로 AI의 신뢰성을 높이는 데 기여할 것 같다는 생각이 든다. 

강의 및 자료 : 서울대 DSBA 연구실 (https://youtu.be/LshTQYFV8KU?si=uQBQmVFRdU95jOKc)

📌 XAI : Evaluation (평가)


XAI 평가 지표(XAI Evaluation Metrics)

XAI 평가 지표는 모델의 설명이 얼마나 신뢰할 수 있고, 명확하며, 해석 가능하며, 견고한지를 평가하는 중요한 기준이다. 주요 지표들은 다음과 같다.

 

📌 Faithfulness / Correctness (설명의 신뢰성과 정확성)

설명이 모델의 행동을 얼마나 정확하게 반영하는지를 평가하는 개념.

1️⃣ 평가 방법

 Incremental Deletion (or Addition) (점진적 삭제 또는 추가 기법)

  • 설명 기법이 제공하는 순서대로 입력에서 특정 특징(feature)을 삭제하거나 추가하여 모델의 예측 변화를 관찰
  • 특정 특징이 모델 예측에 얼마나 중요한지 평가
  • 예제: 이미지에서 중요한 영역을 하나씩 제거하며 예측 결과 변화를 분석

 Controlled Synthetic Data Check (제어된 합성 데이터 검증)

  • 특정 논리를 따르는 합성 데이터셋을 생성한 후, 모델이 이 논리를 학습하도록 설계
  • 설명 기법이 해당 데이터 생성 과정에서 사용된 논리를 반영하는지 평가
  • 예제: 데이터 생성 시 특정 패턴을 포함하고, 모델이 이를 학습했는지 확인

📌 Completeness (완전성) 

설명이 예측 모델을 얼마나 충분히 설명하는지를 평가하는 지표

1️⃣ 개념

  • 설명이 모델의 의사결정 과정에서 얼마나 포괄적이고 충분한가?
  • 설명이 모델의 실제 예측 방식과 잘 일치하는지 확인하는 과정
  • 모델이 특정 특징(feature)을 바탕으로 예측을 수행할 때, 설명이 그 특징들을 제대로 반영하는지 평가

2️⃣ 평가 방법

✅ Preservation Check (보존 검증)

  • 설명 기법이 식별한 중요한 특징만 포함하여 입력을 모델에 제공했을 때,
     원래 전체 입력과 동일한 예측 결과가 나와야 함
  • 즉, 설명이 모델의 중요한 부분을 올바르게 반영했는지 확인

✅ Deletion Check (삭제 검증)

  • 설명에서 중요하지 않다고 판단된 특징만 포함하거나, 중요한 특징을 제거한 입력을 모델에 제공했을 때,
     원래 입력과 다른 예측 결과가 나와야 함
  • 즉, 설명이 중요하지 않은 특징을 잘 걸러내고, 중요한 특징을 반영했는지 평가

3️⃣ 예제 설명 (이미지 분석 사례)

  • Original Image (원본 이미지)
    • 알바트로스 새(Albatross)를 포함하는 이미지
  • Deletion AUC (삭제 후 예측 값 변화)
    • 중요한 픽셀을 제거했을 때, 모델의 예측 값이 어떻게 변화하는지 측정
    • AUC 값이 낮을수록, 설명 기법이 올바른 중요도를 부여했음을 의미
  • Insertion AUC (삽입 후 예측 값 변화)
    • 중요한 픽셀만 남겼을 때, 모델이 원래 예측을 유지하는지를 측정
  • Saliency Map (Integrated Gradients 기반 특징 중요도 맵)
    • 이미지의 각 픽셀별 중요도를 시각적으로 표현

📌 Complexity / Compactness (복잡성 및 간결성) 

설명(XAI)이 얼마나 간결하면서도 충분한 정보를 제공하는지를 평가하는 지표

1️⃣ 개념

  • 설명은 간결하고 짧으며, 중복되지 않아야 함
  • XAI 설명은 완전성(Completeness)과 균형(Balance)을 유지해야 함
  • 너무 간단하면 정보가 부족하고, 너무 복잡하면 해석하기 어려움
  • 따라서, 적절한 수준의 간결성과 포괄성을 유지하는 것이 중요

2️⃣ 평가 방법

✅ Size (크기 또는 희소성, Sparsity 측정)

  • 설명의 전체 크기 또는 중요한 특징(feature) 수를 측정하여 평가
  • 짧고 의미 있는 설명을 제공하는 것이 중요

✅ Counterfactual Compactness (반사실적 간결성)

  • Counterfactual Explanation(반사실적 설명)을 사용하여,
     예측 결과를 변경하기 위해 입력에서 얼마나 많은 변화가 필요한지 평가
  • 즉, 적은 변화로도 예측 결과가 바뀌면 설명이 더 간결하고 효과적임

📌 Robustness & Continuity (견고성 및 연속성) 

설명이 입력 데이터의 작은 변화(perturbation)에도 일관되게 유지되는지를 평가하는 지표

1️⃣ 개념

  • 입력에 작은 변화(perturbation)가 발생해도 설명이 크게 변하지 않아야 함
  • 입력이 조금 달라져도 일관된 설명이 유지되어야 함
  • 설명이 모델 예측 과정과 일관된 논리를 유지하는지를 검증

2️⃣ 평가 방법

✅ Stability for Slight Variations (작은 변화에 대한 안정성 측정)

  • 유사한 두 개의 샘플에 대해 설명의 유사성을 측정
  • 작은 변화(예: 노이즈 추가)가 발생해도 설명이 일관되게 유지되는지 평가

✅ Connectedness (연결성 측정)

  • Counterfactual Explanation(반사실적 설명)을 활용하여,
    설명이 학습 데이터의 샘플들과 얼마나 유사한지를 측정
  • 즉, 설명이 기존 학습된 데이터 분포에서 크게 벗어나지 않는지 확인

3️⃣ 예제 설명 (이미지 분석 사례)

  • 원본 이미지(파리) + 노이즈 추가
    • 모델이 동일한 예측을 수행하는지 테스트
  • F(x′) 출력 결과 분석
    • 입력에 변화가 생겼을 때, 모델의 설명이 유지되는지 평가

📌 Contrastivity (대조성) 

설명이 특정 대상을 얼마나 명확하게 구별할 수 있는지를 평가하는 지표

1️⃣ 개념

  • 설명이 특정 대상(target)을 명확하게 식별하고, 다른 대상과 구분할 수 있도록 설명하는 것을 의미
  • 모델이 제공하는 설명이 목표(target)에 대한 차별성을 명확히 제공하는지 평가

2️⃣ 평가 방법

✅ Target Discriminativeness (목표 차별성 측정)

  • 설명이 특정 타겟(target)을 명확하게 구별할 수 있어야 함
  • 다른 모델이 이 설명을 활용하여 정확하게 target을 예측할 수 있는지 검증

✅ Data Randomization Check (데이터 무작위화 검증)

  • 학습 데이터의 레이블(label)을 무작위로 변경한 후,
    → 해당 데이터로 모델을 다시 학습
  • 이후, 원래 데이터로 학습된 모델과 비교하여 테스트 데이터에 대한 설명이
    두 모델에서 다르게 나타나는지를 확인

3️⃣ 예제 설명 (이미지 분석 사례)

  • 입력 프레임에서 특정 객체(예: 파리)를 타겟으로 설정
  • CNN 모델이 샘플을 학습하며 Target-Specific Features를 추출
  • SVM 분류기를 활용하여 Target-Specific Saliency Map을 생성
  • 랜덤화된 데이터와 비교하여 대조성 유지 여부 평가

📌 Covariate Complexity (공변량 복잡성) 

설명에서 사용되는 공변량(covariates, 특징)이 얼마나 이해 가능하고 해석할 수 있는지를 평가하는 지표

1️⃣ 개념

  • 설명에 포함된 특징들이 사람이 해석할 수 있는 방식으로 표현되어야 함
  • 공변량(covariates)은 직관적으로 이해 가능해야 하며, 복잡성이 너무 높아선 안 됨
  • XAI 설명이 인간이 해석할 수 있는 개념과 일관되게 표현되는지 확인하는 것이 중요

2️⃣ 평가 방법

✅ Covariate Homogeneity (공변량 균일성)

  • 설명에서 사용된 공변량(특징)이 사람이 미리 정의한 해석 가능한 개념과 얼마나 일관되게 나타나는지를 평가
  • 즉, 설명에서 사용된 특징이 사람이 직관적으로 이해할 수 있는 방식인지 검증
  • 설명이 도메인 전문가가 정의한 개념과 얼마나 잘 일치하는지를 확인

XAI 평가 지표를 정리하면서, 단순히 설명을 제공하는 것뿐만 아니라 설명이 실제로 신뢰할 수 있는지, 모델의 의사결정을 올바르게 반영하는지 검증하는 과정이 중요함을 다시금 깨달았다. 특히, Faithfulness와 Completeness는 설명이 모델의 진짜 의사결정을 반영하는지 검증하는 데 핵심적인 역할을 하며, Robustness와 Compactness는 설명이 얼마나 실용적이고 현실적인지를 평가하는 중요한 기준이 된다. 또한, Contrastivity와 Covariate Complexity를 통해 설명이 직관적으로 이해 가능해야 하며, 특정 타겟을 명확히 구별할 수 있도록 보완해야 한다는 점도 흥미로웠다.

 

실제 산업 현장에서 XAI를 적용할 때는 단순히 "설명이 존재하는지"보다는, 설명이 신뢰할 수 있는지, 충분한 정보를 제공하는지, 그리고 인간이 쉽게 이해할 수 있는지를 종합적으로 고려해야 함을 다시금 느낄 수 있었다. XAI 연구에서 이러한 평가 지표들을 고려하여 모델의 해석 가능성을 개선하고, 보다 신뢰할 수 있는 AI 시스템을 구축하는 것이 앞으로의 중요한 과제가 될 것 같다.

강의 및 자료 : 서울대 DSBA 연구실 (https://youtu.be/LshTQYFV8KU?si=I882BwlzfjzfIZmF)

📌 XAI : Evaluation (평가)


XAI 평가 지표(XAI Evaluation Metrics)

XAI 기법이 얼마나 효과적으로 모델을 설명하는지 평가하는 기준을 두 가지로 나눈다.

 

1️⃣ Subjective Metrics (주관적 평가, Human-based)

  • 사람(사용자 또는 전문가)이 직접 평가하는 방식으로, 설명의 해석 가능성 및 신뢰성을 인간이 판단하는 지표
  • 평가자의 배경에 따라 결과가 달라질 수 있음

✅ 평가 대상

  1. Randomly selected persons (무작위 선택된 사람들)
    • 일반 사용자가 모델의 설명을 이해할 수 있는지 평가
    • AI 사용자의 경험에 따라 해석이 다를 수 있음
  2. Domain experts (도메인 전문가들)
    • AI를 사용하는 특정 산업(예: 의료, 금융, 추천 시스템)에서 전문가들이 설명을 평가.
    • 모델이 실제 업무에서 신뢰할 수 있는지 확인

2️⃣ Objective Metrics (객관적 평가)

  • 데이터 기반 또는 수학적 기준을 활용하여 평가하는 방식
  • 인간의 주관적 판단을 배제하고, 일관된 평가 결과를 제공

✅ 1. Specific Metrics (특정 기법/태스크 관련)

  • 특정 XAI 방법 또는 응용 도메인(예: 추천 시스템)에 맞춰 개발된 평가 지표
  1. Metrics for example-based methods
    • 예제 기반 설명(XAI 기법)에서 사용되는 평가 지표
    • 예: LIME, SHAP과 같은 기법이 생성한 예제가 얼마나 유효한지 측정
  2. Metrics for counterfactual explanations
    • 반사실적 설명(counterfactual explanation)의 품질을 평가하는 지표
    • 예: 모델의 결정을 변경하기 위해 어떤 최소한의 변화를 가해야 하는지 분석
  3. E.g. Metrics in recommendation systems
    • 추천 시스템에서 XAI의 효과를 평가하는 지표
    • 추천이 얼마나 투명하고 이해하기 쉬운지 측정

✅ 2. Model-related Metrics (모델 관련 평가 지표)

  • 모델의 신뢰성, 성능, 설명력 등을 평가하는 수학적 기준
  1. Attribution-based metrics / Perturbation-based metrics
    • 특정 입력 특징(feature)이 모델 예측에 미치는 영향을 평가하는 지표
    • 예: Gradient 기반 설명 기법(Grad-CAM, Integrated Gradients)과 입력 변형 기반 기법(LIME, RISE) 비교
  2. Model performance (모델 성능 평가)
    • XAI 기법이 모델 성능(정확도, 정밀도, F1-score 등)에 미치는 영향을 평가
  3. Model trustworthiness (모델 신뢰성 평가)
    • 모델의 일관성(Consistency), 안정성(Stability) 등을 평가
    • 예: 같은 입력에 대해 설명이 일관되게 제공되는지 확인

📌 Human Understandability 향상 방법 (XAI 설명력 개선 요소)

XAI(설명 가능한 AI)의 설명력이 높아지려면 일관성, 안정성, 편향 감지 등의 요소가 고려되어야 한다.

1️⃣ Identity 또는 Invariance (동일성, 불변성)

  • 동일한 데이터 인스턴스는 항상 동일한 설명을 가져야 함
  • 동일한 속성(attribute)을 가진다면, 같은 설명을 생성해야 함

2️⃣ Stability (안정성)

  • 같은 클래스에 속하는 데이터 인스턴스는 유사한 설명을 생성해야 함
  • 작은 변동이 설명 결과에 과도한 영향을 주면 안 됨

3️⃣ Consistency (일관성)

  • 데이터 인스턴스의 특정 feature만 변경되었을 경우,
    변경된 feature를 반영한 설명이 생성되어야 함
  • 동일한 맥락에서 설명이 유지되어야함

4️⃣ Separability (구분 가능성)

  • 다른 집단(Population)에서 온 데이터 인스턴스는 서로 다른 설명을 가져야 함
  • 즉, 클래스 간 구별이 명확하게 반영되어야 함

5️⃣ Similarity (유사성 유지)

  • 서로 가까운 데이터 인스턴스는 유사한 설명을 생성해야 함
  • 설명이 데이터 간의 관계를 반영해야 함

6️⃣ Implementation Constraints (실행 제약)

  • XAI 알고리즘은 시간 및 계산 비용을 최소화해야 함
  • 현실적인 환경에서 효율적으로 적용 가능해야 함

7️⃣ Bias Detection (편향 감지)

  • 데이터 인스턴스 내 Bias(편향)를 감지하고 수정해야 함
  • 특정 집단에 불공정한 영향을 미치지 않도록 설계되어야 함

강의 및 자료 : 서울대 DSBA 연구실 (https://youtu.be/LshTQYFV8KU?si=uQBQmVFRdU95jOKc)

📌 XAI : Usage (사용 방식) 

XAI(설명 가능한 AI)는 모델 자체가 해석력을 가지는지 또는 외부적으로 설명을 부여하는지에 따라 Intrinsic XAI(내재적 XAI)와 Post-Hoc XAI(사후적 XAI)로 나뉜다.


 

1️⃣ Intrinsic XAI (내재적 XAI)

  • 설명 가능성이 모델 자체에 내장됨
  • 모델의 구조와 동작 방식이 직관적이고 명확하여, 별도의 해석 과정이 필요 없음
  • 정의상, 모델에 종속적(model-specific)이므로 다른 모델 아키텍처에 쉽게 재사용할 수 없음

장점
✔ 직관적이고 빠르게 해석 가능

 

단점
🚨 복잡한 문제에 적용하기 어려움 (설명 가능성 vs 성능의 트레이드오프)

📌 Intrinsic XAI 예시

  • Decision Tree
  • Linear Regression, Logistic Regression
  • Rule-based Models (예: RuleFit)
  • Interpretable CNNs
  • Capsule Networks
  • Attention Mechanism

📌 추가 Intrinsic XAI 모델

✅ Bayesian Rule Lists

  • If-Then 규칙 기반의 의사결정 리스트를 사용하여 모델의 예측을 설명
  • 특정 조건을 만족하면 해당 데이터 포인트를 특정 클래스로 할당
  • 규칙을 반복적으로 추가 및 수정하여 posterior distribution을 따르도록 최적화

✅ Neural Additive Models

  • 각 입력 특징별로 개별적인 신경망을 학습하고,
    → 이를 선형 결합하여 최종 출력을 생성
  • 개별 특징의 기여도를 명확하게 분석할 수 있음

✅ Sparse LDA (Latent Dirichlet Allocation)

  • 일부 중요한 피처만 선택하여 모델을 구성
  • 모델 복잡성을 줄이고, 해석 가능성을 향상

2️⃣ Post-Hoc XAI (사후적 XAI)

  • 이미 학습된 모델에 대해 사후적으로 해석을 부여하는 방식
  • 모델 자체는 블랙박스 상태이지만, 결과를 분석하여 설명을 생성
  • 범용성이 높아 다양한 모델에 적용 가능

장점
✔ 복잡한 모델에도 적용 가능
✔ 모델 성능 저하 없이 해석 제공

 

단점
🚨 설명의 정확도가 모델에 따라 다를 수 있음

📌 Post-Hoc XAI 예시

  • LIME (KDD 2016)
  • SHAP (NeurIPS 2017)
  • Gradient-based Methods
    • Grad-CAM (ICCV 2017)
    • Integrated Gradients (ICML 2017)
  • Perturbation Methods
    • Occlusion
    • Adversarial Changes
  • Attention Map Visualization
    • Transformer 모델에서 Attention Mechanism을 시각화하여 해석

📌 추가 Post-Hoc XAI 연구

✅ Attention Meets Post-Hoc Interpretability: A Mathematical Perspective

  • Attention weight만으로 모델의 전체 예측 과정을 완전히 설명하기에는 한계가 있음
  • Attention Mechanism은 모델의 내재적 설명으로 보기 어려우며, Post-Hoc 설명에 더 가깝다고 볼 수 있음

📌 정리

구분 Intrinsic XAI (내재적 XAI)  Post-Hoc XAI (사후적 XAI)
설명 방식 모델 자체가 해석력을 가짐 학습된 모델을 사후적으로 분석하여 설명
특징 모델 구조가 직관적, 별도 해석 과정 불필요 복잡한 블랙박스 모델에도 적용 가능
모델 종속성 모델에 종속적 (Model-Specific) 모델과 독립적 (Model-Agnostic)
장점 직관적이고 빠른 해석 가능 범용적으로 다양한 모델에 적용 가능
단점 복잡한 문제 적용 어려움 (성능 vs 설명력 Trade-off) 모델에 따라 해석 정확도가 달라질 수 있음
예시 Decision Tree, Rule-based Models, Neural Additive Models LIME, SHAP, Grad-CAM, Integrated Gradients

 

 

 


강의 및 자료 : 서울대 DSBA 연구실 (https://youtu.be/LshTQYFV8KU?si=IJz26h5lN4lKtrZf)

📌 XAI : Introduction - Part 1

 


1️⃣ Scope (설명 범위)

XAI 기법이 개별 데이터 인스턴스(Local) 또는 모델 전체(Global)에 초점을 맞추는지를 기준으로 구분한다.


1. Local Explanation (국소적 설명)

  • 개별 데이터 인스턴스에 대한 설명을 제공하며, 특정 입력이 모델 예측에 미치는 영향을 분석.

📌 Local Interpretable Model-Agnostic Explanations (LIME)

 설명 방법:

  • 복잡한 모델의 의사결정 공간(decision space)에서 국소(local) 영역을 선형 모델로 근사하여 설명을 생성.
  • 이미지 데이터의 경우, Superpixel을 활용하여 perturbation을 적용한 후 선형 모델을 학습.

 장점:
✔ 모델 독립적(Model-Agnostic)
✔ 다양한 데이터 유형(텍스트, 이미지 등)에 적용 가능

 

 한계점:
🚨 설명의 일관성이 떨어질 수 있음
🚨 고차원 데이터에서 정확도 저하


📌 Shapley Additive Explanations (SHAP)

 설명 방법:

  • 게임 이론(Game Theory) 기반의 방법.
  • 각 특징(feature)이 모델 출력값에 미치는 기여도를 Shapley Value로 측정.
  • 이미지 데이터의 경우, 각 픽셀별로 Shapley Value를 계산하여 영향력 분석 가능.

 장점:
✔ 수학적으로 엄격한 보장(Shapley Value의 공리 기반)
✔ 글로벌/로컬 설명 가능

 

 한계점:
🚨 계산량이 많아 연산 비용이 큼


📌 Saliency Map

 설명 방법:

  • 특정 입력값에 대한 Gradient 크기를 활용하여 해당 값이 모델 예측에 기여한 정도(Attribution)를 정량화.
  • Gradient가 크면 예측에 긍정적 영향(Positive Attribution), 작으면 부정적 영향(Negative Attribution)을 준다고 해석.
  • 주로 이미지 분류 모델에서 사용됨.

 장점:
✔ 모델의 어떤 입력값이 중요한지 시각적으로 표현 가능

 

 한계점:
🚨 Gradient 자체가 잡음이 포함될 수 있어 해석이 어렵거나 일관성이 부족할 수 있음


📌 Layer-wise Relevance Propagation (LRP)

 설명 방법:

  • 모델의 예측값을 입력값으로 역전파(Backpropagation)하며, 각 Layer의 뉴런에 대한 기여도를 할당.
  • 신경망 내부에서 어떤 뉴런이 예측 결과에 영향을 미쳤는지 분석.

 장점:
✔ 딥러닝 모델 내부의 의사결정 과정을 구체적으로 분석 가능

 

 한계점:
🚨 특정 모델 구조(특히 신경망)에 종속적이며, 모델 독립적인 방법은 아님


2. Global Explanation (전역적 설명)

  • 모델 전체를 분석하여 일반적인 의사결정 패턴을 이해하는 기법.

📌 Activation Maximization

 설명 방법:

  • 특정 레이어의 뉴런이 활성화될 때 나타나는 **특징(Feature)**을 시각화.
  • CNN 기반 모델에서 특정 클래스에 대해 Gradient Ascent를 수행하여 해당 클래스에 대한 특징을 강조.

 장점:
✔ CNN 모델이 어떤 특징을 학습했는지 직관적으로 이해 가능

 

 한계점:
🚨 학습된 특징이 사람의 직관과 다를 수 있음


📌 Testing with Concept Activation Vectors (TCAV)

 설명 방법:

  • 사용자가 정의한 개념(Concept)이 모델 예측에 얼마나 영향을 미치는지 정량적으로 평가.
  • Concept Examples와 Random Images를 분류하는 선형 모델 학습 후, **Concept Activation Vector (CAV)**를 생성하여 영향력을 분석.

 장점:
✔ 사람이 직관적으로 해석할 수 있는 개념 단위로 설명 가능

 

 한계점:
🚨 사람이 정의한 개념 자체가 편향(Bias)을 가질 가능성 있음


📌 Automatic Concept-based Explanations (ACE)

 설명 방법:

  • 사람이 직접 개념을 선택하지 않고, 데이터에서 중요한 개념을 자동으로 학습.
  • 평가 방식:
    • Smallest Sufficient Concepts (SSC): 예측을 유지하는 데 필요한 최소 개념
    • Smallest Destroying Concepts (SDC): 예측을 변경하는 최소 개념

 장점:
✔ 개념을 자동으로 추출하여 설명에 대한 편향을 줄일 수 있음

 

 한계점:
🚨 개념의 의미를 사람이 직관적으로 이해하기 어려울 수 있음


2️⃣  Methodology (설명 방식)

XAI 기법을 설명을 생성하는 방법론적 접근 방식에 따라 분류.


1. Gradient-Based (Backpropagation 기반)

  • 모델의 Gradient를 활용하여 예측에 기여한 입력값을 분석.

📌 Saliency Map

  • Gradient 크기를 활용하여 중요도(Attribution)를 정량화하는 기법.

📌 Grad-CAM

  • Class Activation Map (CAM)에 Gradient를 반영하여 예측에 대한 기여도를 시각적으로 표현.
  • 이미지 분류 모델에서 널리 사용.

📌 Integrated Gradients

 설명 방법:

  • Sensitivity와 Implementation Invariance 공리를 만족하는 Attribution 방법을 제안.
  • Baseline과의 비교를 통해 기여도를 적분(Integration)하여 측정.
  • Completeness 조건을 추가하여 모델 해석력 향상.

 장점:
✔ 공리 기반이므로 수학적으로 신뢰성이 높음
 Gradient Noise의 영향을 줄일 수 있음

 

 한계점:
🚨 계산량이 많음


2. Perturbation-Based (입력 변형 기반)

  • 입력값을 조작하여 모델의 예측 변화 분석.

📌 DeConvNet

 설명 방법:

  • CNN 모델에서 Maxpooling Layer의 특징을 사용하여 입력값의 기여도를 복원하는 방식.
  • 어떤 입력이 최종 결과에 기여했는지 확인 가능.

 장점:
✔ 시각적 해석 가능 

 한계점:
🚨 Gradient 기반 방법보다 설명력이 떨어질 수 있음


📌 Randomized Input Sampling for Explanation (RISE)

 설명 방법:

  • 랜덤 마스크를 통해 입력을 변형하고 모델의 반응을 측정.
  • 마스크가 활성화된 영역이 모델의 예측에 중요한 역할을 했는지 분석.

 장점:
✔ 모델 독립적으로 적용 가능
✔ 특정 부분이 예측에 미치는 영향을 직관적으로 해석 가능

 

 한계점:
🚨 계산량이 많으며, 샘플링에 따라 결과가 달라질 수 있음


✏️ 최종 정리

  1. XAI의 Scope (국소 vs 전역)
    • LIME, SHAP, Saliency Map, LRP → Local
    • Activation Maximization, TCAV, ACE → Global
  2. XAI의 Methodology (방법론)
    • Saliency Map, Grad-CAM, Integrated Gradients → Gradient 기반
    • LIME, RISE, DeConvNet → Perturbation 기반

강의 및 자료 : 서울대 DSBA 연구실 (https://youtu.be/LshTQYFV8KU?si=IJz26h5lN4lKtrZf)

📌 XAI : Introduction - Part 1 


1️⃣ Definition (정의)

  • Interpretability (해석 가능성): 모델이 얼마나 쉽게 이해될 수 있는가?
  • Interpretation (해석): 모델이 이 결과를 어떻게 도출했는가?
  • Explanation (설명): 이 결과가 왜 나왔는가?
  • White-box (화이트박스): 사용자가 모델 내부 구조 및 파라미터에 접근 가능
  • Black-box (블랙박스): 사용자가 모델 내부 구조 및 파라미터에 접근 불가능

2️⃣ Importance of XAI Research (XAI 연구의 중요성)

🔎 왜 XAI 연구가 중요한가?

Transparency (투명성 향상)
: 모델이 어떻게 예측을 수행하는지 설명하여 신뢰성을 확보

Trust (신뢰성 향상)
: 사용자가 AI의 예측 결과를 신뢰하고, 결정에 대한 확신을 가질 수 있도록 지원

Bias Understanding & Fairness (편향 이해 및 공정성 향상)
: 모델이 특정 그룹에 편향되지 않도록 공정성을 평가하고 개선 가능


3️⃣ Taxonomy (XAI 방법론 분류)

XAI 기법은 세 가지 주요 기준을 바탕으로 분류할 수 있다.

1. Scope (범위)

💡 XAI가 개별 데이터 인스턴스를 설명하는지 (Local) 또는 모델 전체를 분석하는지 (Global)에 따라 구분됨.

Local Explanation (국소적 설명) 개별 데이터 인스턴스를 설명하는 방식
Global Explanation (전역적 설명) 모델 전체를 이해하려는 방식

📌 Local Explanation

  • 개별 데이터 인스턴스에 대한 설명 제공
  • 각 데이터 샘플 x  당 하나의 설명 맵 g 생성

📎 관련 기법:

  • LIME (KDD 2016)
  • SHAP (NeurIPS 2017)
  • Saliency Map (ICLR 2014)
  • Layer-wise Relevance Propagation (LRP) (Pattern Recognition 2017)

📌 Global Explanation

  • 모델 전체를 이해하려는 접근 방식
  • 여러 데이터 인스턴스를 활용하여 하나 이상의 설명 맵 생성

📎 관련 기법:

  • Activation Maximization (ICLR 2014)
  • TCAV (Testing with Concept Activation Vectors) (ICML 2018)
  • ACE (Automatic Concept-based Explanations) (NeurIPS 2019)

2. Methodology (방법론)

💡 설명을 생성하는 방식이 Gradient(Backpropagation) 기반인지, Perturbation(입력 변형) 기반인지에 따라 구분됨.

Backpropagation-based (Gradient 기반) 모델의 Gradient를 활용하여 설명을 생성
Perturbation-based (입력 변형 기반) 입력 데이터를 변형하여 모델 반응을 분석

📌 Backpropagation-based Methods (역전파 기반 기법)

  • 모델의 Gradient 정보를 활용하여 설명을 생성
  • 출력 예측 레이어에서 입력 레이어로 Gradient를 역전파하여 기여도를 측정

📎 관련 기법:

  • Saliency Map (ICLR 2014)
  • Grad-CAM (ICCV 2017)
  • Integrated Gradients (ICML 2017)

📌 Perturbation-based Methods (입력 변형 기반 기법)

  • 입력 데이터를 무작위로 변경하거나 특정 특징을 변형한 후 모델의 반응을 분석

📎 관련 기법:

  • DeConvNet (ECCV 2014)
  • RISE (Randomized Input Sampling for Explanation) (BMVC 2018)

3. Usage (사용 방식)

💡 XAI가 모델 자체에 내장(Intrinsic)되어 있는지, 학습된 모델에도 적용 가능한지(Post-Hoc)에 따라 구분됨.

Intrinsic (내재적 기법) 설명 가능성이 신경망 아키텍처 자체에 포함됨
Post-Hoc (사후적 기법) 모델 아키텍처와 독립적으로 작동하며, 이미 학습된 모델에도 적용 가능

📌 Intrinsic (내재적) XAI

  • Explainability가 신경망 아키텍처 자체에 포함
  • 특정 모델에 종속되며, 다른 모델에는 적용 불가능한 경우가 많음

📌 Post-Hoc (사후적) XAI

  • 모델 아키텍처와 독립적으로 설명을 제공
  • 이미 학습된 신경망에도 적용 가능하여 범용성이 높음

✏️ 최종 정리

  1. Scope (설명 범위)
    • Local: 개별 데이터 인스턴스를 설명 (예: LIME, SHAP, Saliency Map)
    • Global: 모델 전체를 분석 (예: Activation Maximization, TCAV, ACE)
  2. Methodology (방법론)
    • Gradient 기반(Backpropagation): 모델의 그래디언트를 활용하여 기여도 계산 (예: Saliency Map, Grad-CAM, Integrated Gradients)
    • Perturbation 기반: 입력 데이터를 변경하여 모델의 반응을 분석 (예: DeConvNet, RISE)
  3. Usage (사용 방식)
    • Intrinsic: 모델 자체에 Explainability가 포함 (특정 모델에 종속)
    • Post-Hoc: 모델과 독립적으로 학습된 모델에도 적용 가능
 

 

+ Recent posts