AI/논문 & 연구자료

딥러닝을 활용한 의료 영상 시스템을 위한 설명 가능한 인공지능 : 종합적인 검토 2

페에이리 2026. 4. 25. 11:27

https://link.springer.com/article/10.1007/s10586-025-05281-5

[5]. 의료 영상 분야에서 설명 가능한 인공지능의 실제 적용 사례

{1}. 방사선학 - AI 판독에 확신을 주다

방사선과 의사가 수백 장의 영상을 볼 때,

AI가 "이 부분이 의심됩니다"라고 형광펜으로 표시해 주는 역할을 한다.

(1). 실제 적용

1. 폐렴 탐지 (흉부 X-ray)

  • Grad-CAM 히트맵으로 염증 부위 강조
  • 의사가 "AI가 맞는 곳을 봤네" 확인 가능

2. 뇌종양 분할 (MRI)

  • SHAP + Deep Taylor Decomposition
  • 종양 영역 정밀 식별

3. 골절 탐지 (근골격계 X-ray)

  • LIME, SHAP, GRAD-CAM 비교 연구
  • XAI 피드백으로 훈련한 모델이 실제 환경에서 더 우수

(2). 임상 효과

AI 설명이 의사 기대와 일치할 때

  • 진단 정확도 상승
  • 2차 소견 요청 감소

{2}. 병리학 - 현미경 판독을 더 정확하게

비유하자면 선배 병리학자가 "여기 봐봐"라고 짚어주는 것이다.

 

수천 개의 세포 중에서

AI가 "이 세포 클러스터가 악성이다"라는 건

"저 세포를 집중해서 봐"라고 짚어주는 역할

(1). 실제 적용

1. 유방암 진단 (생검 슬라이드)

Grad-CAM + CAM으로 악성 세포 클러스터 강조

병리학자가 AI 예측과 세퍼 형태를 직접 비교 가능

2. 전립선암 진단

  • 반사실적 설명으로 "이 특징이 바뀌면 판단이 달라짐"
  • AI 모델의 견고성, 신뢰성 검증 

(2). 임상 효과

  • 병리학자마다 달랐던 판독 결과의 편차 감소
  • 더 일관되고 재현 가능한 암 진단 

{3}. 피부과 - 의사가 30% 더 신뢰하게 됐다

  • 피부과 의사가 점을 볼 때
  • AI가 "이 병변의 이 부분, 저 부분 때문에 흑색종으로 판단했다."를
  • 픽셀 단위로 보여주는 역할이다.

(1). 실제 적용

1. 피부 병변 분류 (*HAM10000 데이터셋)

  • SHAP : 픽셀 단위 특징 중요도 제공
  • Grad-CAM 보다 더 세밀한 설명으로 피부과 의사가 선호했다.

2. 흑색종 자동 탐지

  • LIME 기반 특징 속성 제공 

? HAM10000 데이터셋

피부암 진단 연구를 위해 공개된 대규모 피부경 이미지 데이터 세트

(2). 임상 효과

  • LIMe 특징 속성 포함 시
  • 피부과 의사의 AI 신뢰도 30% 향상
  • 불필요한 생검 감소
  • 조기 흑색종 발견율 향상

{4}. 심장학 - 심전도의 어느 파형이 문제인지 설명

  • 심전도 파형을 악보라고 하면 AI가 "이 구간의 히 파형이 심방세동 신호이다"라고
  • 틀린 음표를 정확히 짚어주는 역할을 한다.

(1). 실제 적용 

1. 심방세동 탐지 (*ECG)

  • Deep SHAP으로 특징 중요도 플롯 생성
  • 심방 전문의가 기여한 파형 세그먼트 직접 확인
  • 블랙박스 출력보다 SHAP 기반 설명 선호

? ECG - 심전도

심장 박동 시 발생하는 미세한 전기적 신호를 피부에 부착한 전극을 통해

감지하여 그래프로 기록하는 *비침습적 검사

 

? 비침습적

의료 분야에서 피부를 절개하거나 바늘로 찌르지 않고, 

신체 개구부를 통과하지 않아 상처를 내지 않는 진단 및 치료 방식 

 

2. 심부전 위험 계층화

  • 설명 가능한 RNN + 시간적 Attention
  • 여러 시간대에 걸친 주요 진단 특징 강조
  • 의사가 질병 진행율 시간순으로 추적 가능

(2). 임상 효과

  • 자동화된 ECG 분석에 대한 임상의 신뢰도 향상
  • 심장학 AI 의사결정 도구 채택 증가

{5}. 응급의학 - 골든타임에 빠른 설명이 생명을 구한다. 

응급실에선 분 단위로 결정이 이루어진다.

AI가 느린 설명을 늘어놓으면 소용이 없다.

⇒ 실시간으로 핵심만 짚어주는 XAI가 필요함

(1). 실제 적용

1. 뇌졸중 진단 (CT 스캔)

  • Grad-CAM 오버레이로 허혈성, 출혈성 패턴 즉시 표시
  • 응급 상황에서 진단 시간 단축
  • 환자 예후 개산

2. 패혈증 예측 (*ICU)

  • SHAP 기반 실시간 위험 점수 제공
  • XAI 도입 변원 : 조기 개입 달성 + 사망률 감소

? ICU

중환자실 또는 집중치료실 

(2). 임상 효과

  • 응급 분류 정확도 상승
  • 조기 개입률 상승
  • 오진율 감소

{6}. 정리

분야 비유 주요 기법 핵심 효과
방사선학 형관펜 조교 Grad-CAM, SHAP, LIME 2차 소견 요청 감소
병리학 선배가 짚어주기 Grad-CAM, CAM, 반사실적 판독 일관성 향상
피부과 픽셀 단위 설명 HSAP, LIME AI 신뢰도 30% 향상
심장학 틀린 음표 짚기 Deep SHAP, Attention ECG AI 책택 증가
응급의학 즉각 핵심 외침 Grad-CAM, SHAP 사망률 감소

[6]. XAI를 활용한 의료 영상의 주요 과제들

의료 영상 데이터는 잡음, 높은 차원성, 다양한 영상 촬영 프로토콜, 데이터 개인정보 보호 문제, 임상적 유용성 요구 등 여러 가지 고유한 어려움을 내포하고 있다.

 

이러 어려움들을 해결해야지만 응용 분야에서 XAI 시스템의 신뢰성과 효율성을 확보할 수 있다.

{1}. 노이즈 문제 - 지지직거리는 라디오

라디오 신호가 지지직거리면 음악을 제대로 들을 수 없듯

MRI, X-ray에 노이즈, 아티팩트가 섞이면 AI가 중요한 해부학적 정보를 놓칠 수 있다.

(1). 원인

  • 활영 장비의 한계
  • 환자의 움직임
  • 환경적 요인

(2). XAI 해결책

  • Grad-CAM
  • Saliency Map

"이 부분은 진짜 병변, 저 부분은 노이즈"를 의사가 구별할 수 있게 도와줌

{2}. 고차원성 문제 - 수천 층짜리 건물 탐색

2D 사진은 평면이지만

3D CT, MRI는 수천 개의 슬라이스로 구성되어 있다.

  • 데이터 크기가 엄청 큼
  • AI가 분석하기도, 설명하기도 어려움

(1). XAI 해결책

  • SHAP
  • LIME

수천 개 슬라이스 중 "진단에 가장 중요한 슬라이스, 영역"만 집중적으로 설명

⇒ 정확도 유지 + 설명 복잡도 감소 

{3}. 영상 프로토콜 다양성 문제 - 병원마다 다른 자 사용

  • A 병원 MRI : 해상도 높음, 대비 강함
  • B 병원 MRI : 해상도 낮음, 대비 약함

같은 질환인데 영상이 다르게 보임

즉, 한 병원 데이터로 학습한 AI가 다른 병원에서는 성능이 떨어질 수 있음

(1). XAI 해결책

  • XAI로 데이터셋별 편향을 발견

→ "이 모델이 A병원 영상에만 과적합이 됐구나"

⇒ 기관 간 특징을 조화시켜 범용적으로 쓸 수 있는 모델 개발

{4}. 데이터 개인정보 보호 문제 - 열람 불가 금고 속 데이터

환자 MRI 데이터는 개인정보라서 병원 밖으로 내보낼 수 없다.

미국, 유럽은 데이터 공유를 엄격히 제한하기 때문에

AI 학습에 필요한 다양한 데이터를 모으기가 매우 어렵다.

(1). XAI 해결책

  • 연합학습 + XAI 결함

→ 데이터는 각 병원에 두고, 배운 것만 공유해서 AI를 함께 만드는 것

⇒ 연합 학습 과정에서 편향이 생겼는지 감시하는 것

그것이 XAI이다. 

{5}. 임상적 유용성과 신뢰 문제 - 믿을 수 없는 조언은 따르지 않는다.

아무리 뛰어난 AI라도 "왜 그렇게 판단했는지" 설명하지 못하면 의사는 그냥 무시한다.

실제로 블랙박스 AI 도입률이 낮은 가장 큰 이유가 바로 이것이다.

(1). XAI 해결책

  • 히트맵 + 특징 기여도 점수

→ "이 환자를 암으로 판단한 근거가 이 부위의 이 특징입니다"

⇒ 이러면 의사가 납득과 신뢰가 가능하고 XAI 도입이 가능해진다.

[7]. XAI 기법 비교 분석 - 상황에 따른 기법 

모든 상황에서 최고인 XAI 기법은 없다. 상황에 맞는 기법을 골라야 한다.

{1}. 기법 특징 정리

(1). Grad-CAM, CAM, LRP - 손전등 계열

  • 강점 : 시각적 히트맵 - 의사가 직관적으로 이해
  • 단점 : 노이즈에 취약, 세밀한 설명 부족

(2). SHAP, LIME - 만능 렌치 계열

  • 감정 : 어떤 모델에도 적용 가능 - 범용성 최고
  • 약점 : 계산 비용이 높아 실시간 사용 어려움

(3). 섭동 기반 (폐색 민감도 등) - 지우개 테스트 계열

  • 감정 : 특징 중요도에 대한 강력한 통찰
  • 단점 : 고차원 데이터에선 리소스 부담 급증

(4). TCAV, 영향 함수 - 고급 현미경 계열

  • 강점 : 의미론적 개념 수준의 깊은 설명
  • 약점 : 전처리, 전문 지식 필요  - 일상 임상에서 확장 어려움 

{2}. 분야별 최적 기법

(1). 방사선학(X-ray, CT, MRI) - 넓은 화면에서 이상한 부분 찾기

  • 주요 과제 : 종양 탐지, 폐렴 분류, 뇌졸중 식별
  • 최적 기법 : Grad-CAM, LRP, Integrated Gradients

1. 이유

  • 픽셀 단위 시각적 설명이 필요한 분야
  • 의사가 화면을 보면서 바로 확인 가능

(2). 조직병리학 (전체 슬라이드 이미지, 생검) - 수백만 개 세포 중 이상한 세포 찾기

  • 주요 과제 : 암세포 식별, 비정상 세포 구조 탐지
  • 최적 기법 : SHAP, LIME, 반사실적 설명 

1. 이유

  • 세포 수준의 매우 세밀한 설명이 필요
  • 넓은 히트맵으론 부족
  • 픽셀 하나하나의 기여도가 중요함

단, 데이터 해상도가 매우 높아서 계산 비용이 많이 비쌈

(3). 심장학 (ECG, 심초음파) - 악보에서 틀린 음표 구간 정확히 짚기

  • 주요 과제 : 부정맥, 심부전, 심근경색 탐지
  • 최적 기법 : SHAP, Attention Mechanism

1. 이유

  • ECG 파형의 어느 구간이 문제인지
  • 시간 순서대로 설명이 필요
  • 시간적 패턴 분석에 강한 기법이 유리 

(4). 안과 (망악 영상, *OCT) - 망막 지도에서 손상 부위 표시

  • 주요 과제 : 당뇨병성, 망막병증, 녹내장 탐지
  • 최적 기법 : Grad-CAM, Attention Mechanism

 

? OCT

적외선 빛을 이용해 망막, 시신경 등 안구 조직의 단층 영상을 고해상도로 

촬영하는 비침습적 진단 검사 

 

1. 이유

  • 공간적으로 어느 망막 영역이 문제인지
  • 시각적으로 보여줘야 함
  • 안질환은 위치가 곧 진단의 핵심

(5). 초음파(산과, 현장진료) - 흔들리는 화면에서 실시간으로 판단

  • 주요 과제 : 태아 건강 평가, 장기 영상
  • 최적 기법 : LIME, 예시 기반 설명

1. 이유

  • 초음파는 다른 영상과 달리
  • 프로브 위치, 환자 움직임에 따라
  • 화면이 계속 바뀐다. 이것은 변동성이 매우 크다는 의미이다.
  • 유연하고 사례별로 적응하는 기법이 필요하며
  • "이전에 비슷한 케이스 있었어요" 같은 예시 기반 설명이 효과적이다. 

(6). 정리

분야 핵심 과제 최적 기법 이유
방사선학 종양, 폐렴, 뇌졸중 Grad-CAM, LRP 시각적 히트맵 직관적
조직병리학 암 세포 식별 SHAP, LIME 세포 단위 세밀한 설명 필요
심장학 부정맥, 심부전 SHAP, Attention 시간적 파형 패턴 분석
안과 망막병중, 녹내장 Grad-CAM, Attention 공간적 위치 설명 중요
초음파 태아, 장기 영상 LIME, 예시 기반 변동성 높은 데이터에 유연 

[8]. 임상 현장에서 XAI, 실제로 잘 쓰이는가?

XAI 기술은 발전했지만, 정작 의사들이 일상에서 쓰기는 아직 어렵다.

{1}. 임상의 신뢰 문제 - GPS를 믿지 못하는 베테랑 택시 기사

GPS가 "좌회전"이라고 해도

20년 경력 택시 기사는 "이 길이 더 빠른데?"하고 무시하듯

AI가 아무리 정확해도 의사의 직관, 경험과 다르면

그냥 무시해 버리는 경우가 많다.

 

구체적인 문제들을 살펴보면

(1). 히트맵이 엉뚱한 곳을 가리킬 때

Grad-CAM이 폐렴 진단 시

  • 해부학적으로 말이 안 되는 부위를 강조면
  • 정확도가 높아도 의사가 AI 권고 거부를 하게 된다.

(2). 법적 책임 문제

AI가 맞는 말을 해도

  • "내가 AI를 믿었다가 잘못되면 책임은 내가 져야 해"
  • 최종 결정은 항상 의사가 독립적으로 내리길 선호함
  • 특히 ICU, 응급실에서 더 심각한 문제가 된다. 

(3). 분야마다 원하는 설명 방식이 다르다

  • 방사선과 의사는 시각적 히트맵을 선호하고
  • 심장 전문의는 파형 구간별 수치 설명을 선호한다.

⇒ 하나의 XAI로 모든 분야를 만족시킬 수 없다.

(4). 교육 부족

많은 의사들이 XAI 결과를 어떻게 해석해야 하는지 배운 적이 없다.

⇒ XIA 공부 말고도 의학적으로 할 공부들이 어마어마하다.

 

그래서 최근에는 AI 중심 의료 교육(CME) 프로그램이 생겨나기 시작했다.

{2}. 실제 사용성 연구 결과 - 스마트폰 처음 쓰시는 어르신

처음엔 어색하고 불편하지만 6개월 쓰다 보면 자연스럽게 익숙해지듯

XAI도 계속 노출될수록 신뢰도가 올라간다.

 

연구 결과들을 보면

(1). 방사선학

Grad-CAM 히트맵이

의사가 예상한 부위와 일치할 때

⇒ AI 판단을 기존보다 더 신뢰할 수 있게 됨 

(2). 병리학

  • 유방암 진단에서 SHAP과 Grad-CAM을 비교했을 때
  • Grad-CAM : 넓은 영역 히트맵 ⇒ 병리학자에게 부족함
  • SHAP : 픽셀 단위 세밀한 설명 ⇒ 병리학자에게 더 효과적

(3). 응급의학

뇌졸중 탐지에서

  • LIME : 일관성 부족 ⇒ 채택률 저조하지만
  • Grad-CAM + 텍스트 설명 결합 (하이브리드)

⇒ 응급실에서 유용성, 채택률 향상됨

(4). 장기 사용 효과

6개월 동안 AI 지원 진단 사용 후,

초기보다 AI 권고 수용 가능성이 유의미하게 증가함

⇒ 친숙함 + 반복 피드백 = 신뢰 향상 

{3}. 실제 도입을 막는 3가지 장벽

(1). 인지 과부하 - 바쁜 의사한테 논문을 읽으라는 것

  • 위에서도 의사는 말했듯이 XAI 공부 말고도 의학적으로 공부할게 너~~ 무 많다.
  • 패혈증 예측 연구 : 특징 중요도 점수를 해석하는 게 귀찮아서 무시하는 의사들도 있었다.

1. 해결책

  • 꼭 필요한 핵심 정보만 보여주는 단순한 XAI 설계 필요

(2). 시각 제약 - 응급실에서 설명서 읽을 시간이 없다.

응급 상황에서 1분 1초가 생명을 좌지우지하는데

  • SHAP 같은 복잡한 설명은 블랙박스보다 처리 시간이 훨씬 더 걸린다.
  • 실시간 환경에 부적합

1. 해결책

  • 신뢰도 인식 XAI 시스템
  • 확실한 케이스 ⇒ AI가 자율적으로 빠르게 처리
  • 불확실한 케이스 ⇒ 인간 전문가에게 넘김

(3). 법적, 규제적 우려 - AI가 틀리면 책임은 내가 진다.

FDA, EU AI 법을 보면 AI 시스템의 설명 가능성, 책임성을 강조한다.

그러나 AI 설명의 신뢰성을 평가하는 표준화된 기준이 아직 없다.

⇒ 많은 의사들이 여전히 전통 방식을 선호한다는 말이다. 

 

1. 해결책

  • 임상의 참여형 AI 프레임워크
  • 의사들이 AI 훈련, 검증에 직접 참여
  • 신뢰와 책임성 동이 향상

(4). 정리

장벽 비유 문제 해결책
인지 과부함 논문 읽으라는 것 설명이 너무 복잡함 핵심만 보여주는 단순한 설계
시간 제약 설명서 읽을 시간 없음 설명 생성이 느림 신뢰도 인식 XAI 시스템
법적 우려 내가 책임져야 함 표준 기준 없음 임상의 참여형 AI 개발 

[9]. 의사들이 XAI를 실제로 어떻게 받아들이고 있나?

기술이 아무리 좋아도 사용자가 안 쓰면 의미 없다.

{1}. 의사들이 XAI를 신뢰하는 조건 - 새로운 동료 의사를 신뢰하는 과정

신입 의사가 아무리 뛰어나도, 베테랑 의사의 경험, 직관과 다른 말을 하면

처음엔 의심하고 검증하려 하듯 AI 설명도 똑같다.

(1). 신뢰가 상승하는 경우

  • AI 설명이 의사의 진단 추론과 일치할 때
  • Grad-CAM 히트맵이 예상한 해부학적 위치를 강조할 때

(2). 신뢰가 하락하는 경우

  • 설명이 너무 복잡하거나 모호할 때
  • 히트맵이 영상 아티팩트 같은 엉뚱한 곳을 강조할 때
  • AI 설명이 맞아도 법적 책임 때문에 무시할 때

핵심 발견 설명을 제공하는 것만으론 부족하다.

일관되고, 검증되고, 법적으로도 안전한 XAI여야 의사가 믿는다.

{2}. 분야별 실제 수용 연구 결과

음식 취향이 사람마다 다르듯, 의사마다 원하는 설명이 다르다.

(1). 방사선학 (뇌졸중 CT)

  • LIME 기반 설명 : 일관성이 없어서 응급 의사들이 자주 거부
  • Grad-CAM + 텍스트 설명 (하이브리드) : 채택률 향상

(2). 병리학 (조직병리학)

  • Grad-CAM : 넓은 히트맵이기 때문에 병리학자에게 부족하다.
  • SHAP : 픽셀 단위를 세밀하게 설명해서 진단 확신도 향상

(3). 심장학 (ECG 심방세동)

  • 블랙박스 예측 : 해석하기 어려움
  • SHAP 파형 설명 : 더 빠른 의사결정 가능

(4). 장기 사용 효과(12개월 추적 연구)

  • 처음 : XAI에 대한 회의론 높음
  • 12개월 후 : 초기 회의론 45% 감소

익숙해질수록 신뢰도가 올라갔다.

반복 교육 + 피드백 루프가 핵심이다.

{3}. 의사들이 XAI를 받아들이게 하는 4가지 조건 - 병원에 새 시스템 도입을 위한 체크리스트

(1). 단순하고 명확해야 함

  • 복잡한 설명은 오히려 방해된다.
  • 핵심만 간결하게 보여주는 설계가 필요

(2). 기존 업무 흐름에 자연스럽게 녹아들어야 함

  • 의사의 워크플로우를 방해하거나
  • 추가 작업을 만들면 바로 거부당할 것이다.

(3). 빨라야 함

  • 응급 상황에서 느린 XAI는 필요 없다.
  • 빠르고 신뢰도를 고려한 모델이 필요

(4). 법적, 규제 요건을 충족해야 함

  • FDA, GOPR 같은 기준을 충족해야 함
  • 의사가 안심하고 사용 가능하도록  해야 함 

{4}. 의사 피드백이 XAI 개발을 어떻게 바꿨나? - 사용자 리뷰로 개선하는 것

의사들의 피드백은

 

"Grad-CAM만으론 부족해"

"SHAP도 너무 복잡해"

이러한 피드백으로

 

Grad-CAM + SHAP 하이브리드 시스템을 개발

이후, 사용성, 신뢰도 동시에 향상되었다.

 

협업 AI 훈련 프레임워크 :

 

의사들이 AI 훈련, 검증에 직접 참여하여

모델 정확도 상승

의사 신뢰도 상승

 

실시간 피드백 플랫 폼:

의사가 AI 권고에 바로 피드백

AI가 실제 임상 워크플로에 맞게 진화했다. 

{5}. 정리

항목 결과
신뢰 조건 AI 설명이 의사 직관과 일치할 때
가장 선호하는 기법 하이브리드(Grad-CAM + 텍스트 or SHAP)
12개월 후 회의론 변화 45% 감소
채택을 막는 1순위 법적 책임 우려
해결책 의사 참여형 AI 개발 + CME 교육 

 

[10]. XAI 모델 vs 블랙박스 모델 - 투명 유리 자동차 vs 슈퍼카

{1}. 블랙박스 AI - 슈퍼카

엄청나게 빠르고 성능 좋음

근데 엔지 내부가 완전히 막혀 있음

고장 나도 왜 고장 났는지 모름 

{2}. XAI - 투명 유리 자동차

슈퍼카보다 살짝 느릴 수 있음

근데 엔진이 어떻게 돌아가는지 다 보임

문제 생기면 바로 찾아서 고칠 수 있음

 

의료 현장에서는 조금 느려도 왜 그런지 보이는 것을 원한다.

{3}. 실제 성능 비교 

(1). 폐렴 탐지(SHAP vs 블랙박스)

  • 블랙박스 : 정확도 95% 이지만 설명이 없다
  • SHAP : 정확도 94%인데 시각적 설명이 있다.

1% 차이로 설명력을 얻은 것이다.

의사 입장에서 1% 손해는 감수할 만하다. 

(2). 종양 분류 MRI (LIME vs 블랙박스)

  • 블랙박스 : 결과만 출력
  • LIME : 관련 영역 히트맵 제공으로 방사선과 의사가 더 확신 있게 판단 가능하다.

{4}. XAI의 유일한 약점 - 전기차 충전 시간

전기차가 환경도 좋고, 유지비도 싸지만 충전 시간이 오래 걸리듯

XAI는 투명하고 신뢰할 수 있지만 설명을 생성하는 데 계산 비용이 많이 들어간다. 

 

특히 고차원 3D MRI, CT 같은 데이터셋에서 SHAP 설명 생성은 시간이 오래 걸린다.

즉, 실시간 응급 상황에서는 부담이 된다. 

(1). 해결 방법

모델 압축 : AI를 가볍게 만들기

분산 컴퓨팅 : 여러 서버가 나눠서 처리하여 속도 문제는 점점 개선 중임

[11]. XAI 방법 평가 - "좋은 설명"의 기준이 뭔데?

{1}. 핵심

시험 답안이 맞는지 틀린지 판단하려면 

채점 기준이 있어야 하듯

 

XAI 설명이 "좋은 설명"인지 판단하려면

평가 기준이 필요하다

{2}. XAI 평가 기준 9가지 

(1). 임상적 관련성 - 과녁의 중심을 맞췄는가?

AI 설명이 의학적으로 의미 있는 부위를 정확하게 짚어야 한다.

 

예) :

  • 폐렴 X-ray : 폐의 염증 부위를 강조 O
  • 폐련 X-ray : 갈비뼈를 강조 X

(2). 모델 충실도(Fidelity) - 거울이 얼마나 정확하게 반영하는가?

설명이 AI의 실제 판단 과정을 얼마나 정확하게 반영하는가?

왜곡된 거울처럼 실제와 다른 설명을 하면 안 된다.

 

예) :

SHAP : 각 픽셀이 종양 진단에 실제로 얼마나 기여했는지 수치로 표현

(3). 위치 정확도 - 지도에서 정확한 위치를 찍었는가?

"이 부위가 문제입니다"라고 했을 때 실제 병변 위치와 얼마나 일치하는가?

종양 분할처럼 위치가 치료에 직접 영향을 미치는 경우 특히 중요하다.

 

특정 방법 : IoU (겹치는 면접 비율)

  • 0에 가까울수록 엉뚱한 곳을 짚음
  • 1에 가까울수록 정확하게 짚음

(4). 해석 가능성 - AI 전문가가 아닌 의사도 읽을 수 있는 책

수식과 코드로 가득 찬 설명을 하면 안 된다.

전문가가 아닌 사람도 히트맵 + 설명을 보고 이해할 수 있어야 한다.

 

임상의가 바로 이해하고 활용할 수 있어야 한다.

(5). 견고성 (Robustness) - 흔들려도 무너지지 않는 건물

MRI 촬영 기계가 달라도 설명이 크게 바뀌면 안 된다.

 

1. SmoothGrad :

노이즈가 섞인 이미지 여러 장의

살리언시 맵을 평균 내서

안정적인 설명을 생성한다.

(6). 투명성 - 설명 생성 과정도 볼 수 있어야 한다.

"왜 이런 설명이 나왔어?"에 대한 답도 명확해야 한다.

 

의사결정 트리 :

"픽셀 강도가 X 이상이면 '악성'"처럼 규칙이 명확하게 보여한다.

(7). 정량적 평가 - 주관적 느낌이 아닌 자로 측정하기 

  • "설명이 좋아 보여" = 주관적
  • "IoU 0.85, 충실도 점수 0.99%" = 직관적

주요 측정 지표 :

  • IoU : AI 강조 영역과 실제 병변 겹침 비율 측정
  • 포인팅 게임 : 살리언시 맵이 병변 위치를 맞췄는가?
  • 충실도 점수 : 설명이 모델 판단을 얼마나 정확히 반영했는가?
  • 일관성 AUC : 여러 환자에서 설명이 안정적인가?

(8). 윤리, 규제 준수 - 법을 지키면서 운전하기

아무리 좋은 XAI도 HIPAA, GDPR 같은 법적 기준을 어기면 쓸 수 없다.

 

반사실적 설명 활용 :

"나이, 민족이 달랐다면 진단이 바뀌었을까?"

⇒ AI의 차별적 편향 감지 가능

(9). 시간적 일관성 - 연속 드라마의 줄거리가 회차마다 달라지며 안 되듯

MRI, 초음 같은 동적 영상에서 시간이 지나도 설명이 일관되어야 한다. 

 

예) :

심장 초음파 모니터링 시, 여러 프레임에 걸쳐 동일한 이상을 일관되게 강조해야 신뢰 가능하다. 

{3}. 벤치마크 데이터셋

(1). XAI를 평가하는 데 쓰는 표준 데이터셋들 :

  • NIH chestX-ray14 : 폐렴, 폐 질환 XAI 벤치마킹
  • CheXpert : 흉부 방사선 XAI 중요도 맵 평가
  • BraTS : 뇌종양 분할 위치 정확도 평가
  • HAM10000 : 피부 병변 분류 XAI 신뢰성 평가 

{4}. 실제 비교 연구 결과

(1). 흉부 X-ray 폐렴 탐지

  • Grad-CAM : 방사선과 의사 주석과 80% 겹침 But 세밀한 특징 식별은 부조가
  • SHAP : 픽셀 단위 정밀 설명 But 계산 시간이 오래 걸림
  • LIME : SHAP과 비슷한 케이스에서 일관성 부족

(2). 뇌종양 MRI

  • SmoothGrad, Integrated Gradients : 작은 이미지 변화에도 안정적 설명
  • 일반 Grad-CAM, 살리언시 맵 : 입력 변화에 너무 민감, 스캐너 아티팩트에 속아 잘못된 설명 생성 

(3). 응급 뇌졸중 탐지

  • SHAP : 계산 시간이 너무 오래 걸려 응급에 부적합
  • Grad-CAM + 규칙 기반 하이브리드 : 빠르고 직관적으로 채택률 향상

{5}. 기존 베치마킹 프레임워크

  • XAI-Bench : 중요도 기반 XAI 대규모 비교
  • Quantus : 신뢰성, 견고성, 충실도 오픈소스 평가
  • ExplainBench : LIME, SHAP 등 모델 비특이형 벤치마킹 

{6}. 평가 기준 정리 - 9개

기준 비유 핵심 질문
임상적 관련성 과녁 중심 의학적으로 맞는 부위를 짚었나?
충실도 정확한 거울 실제 AI 판단을 제대로 반영하나?
위치 정확도 지도 핀 병변 위치를 정확히 표시했나?
해석 가능성 쉬운 책 비전문가도 이해할 수 있나?
견고성 튼튼한 건물 노이즈, 변화에도 일관된 설명인가?
투명성 투명한 유리 설명 생성 과정이 명확한가?
정량적 평가 자료 측정 객관적 수치로 평가 가능한가?
윤리, 규제 법 준수 HIPAA, GDPR 같은 법률을 따르는가?
시간적 일관성 일관된 줄거리 시간이 지나도 설명이 안정적인가?

 

XAI를 단순 정확도만으로 평가하는 건 부족하다.

임상적으로 유용하고 견고하고, 윤리적이고, 실시간으로 쓸 수 있어야 비로소 의료 현장에서 쓸 수 있는 XAI이다.

[12]. XAI 연구의 격차 - 아직 해결 못한 문제들 

훌륭한 설계도는 있는데 실제 건물은 아직 미완성이다.

 

XAI 기술은 많이 발전했다. 근데 실제 병원에서 쓰려면 아직 메워야 할 구멍들이 많다.

{1}. 6가지 핵심 연구 격차

(1). 맥락별 설명 가능성 부족 - 모든 사람에게 같은 옷을 입히는 것

기존 XAI는 대부분 "범용 설명"을 제공한다. 근데 분야마다 필요한 설명이 다르다.

  • 방사선과 의사 : 픽셀 단위 시각적 설명 필요
  • 종양 전문의 : 환자 수준 위험도, 치료 옵션 필요
  • 심장 전문의 : 파형별 시간적 설명 필요

⇒ 모든 부야에 맞는 맞춤 설명이 아직 없다.

(2). 정적인 설명 -사용자에게 맞게 바뀌지 않음

초등학생과 의대생에게 같은 교재를 주는 것이다.

 

현재 XAI는 설명이 고정되어 있다. 근데 사용자마다 필요한 설명 수준이 다르다.

  • 초보 의사 : 쉽고 단순한 설명 필요
  • 베테랑 의사 : 깊고 세밀한 설명 필요

사용자에 맞게 실시간으로 설명을 조정하는 동적 XAI가 필요하다

(3). 표준화된 평가 기준 없음 - 심판마다 채점 기준이 다른 스포츠 경기

"이 XAI 설명이 좋은 설명이야?"라고 물으면 연구자마다 다른 기준으로 평가를 한다.

충실도, 이해 가능성, 타당성 같은 기준이 있지만 연구마다 들쑥날쑥하게 적용된다.

 

누가 봐도 동일한 기준으로 평가할 수 있는 표준 프레임워크가 필요하다.

(4). 임상 워크플로우와 통합이 어렵다 - 규격이 안 맞는 플러그

XAI 도구가 아무리 좋아도

기존 병원 시스템과 연결이 안 되면 못 쓴다.

 

현실적 문제 :

  • XAI와 전자건강기록 호환성 부족
  • 의사들이 XAI 쓰는 법을 모름
  • SHAP, LIME은 너무 느려서 응급에 못 씀
  • FDA, GDPR 같은 규정을 준수해야 함 

⇒ 병원 시스템에 자연스럽게 끼워 맞출 수 있는 XAI 필요하다

 

1. 실제 사례 :

  • Grad-CAM 히트맵 : 방사선학에선 성공
  • 그러나 임상 시험 검증 부족 + 의사 피드백 부재로 실제 도입은 제한적

(5). 편향과 공정성 문제 - 한쪽으로 기울어진 저울

AI 모델이 편향된 데이터로 학습되면 XAI 설명도 함께 편향된다. 

 

예) :

백인 환자 위주 데이터로 학습하면

  • AI 설명이 유색인종에게 불리하게 작동
  • 근데 설명이 그럴싸해 보여서 편향을 못 알아챔

⇒ XAI 설명 안의 편향을 감지하고 수정하는 연구가 필요함 

(6). 확장성 & 실시간 처리 한계 - 빠른 도로인데 차가 너무 느린 것

SHAP, LIME은 설명을 잘 만들지만 계산이 너무 오래 걸림

3D CT, MRI 같은 대용량 데이터에서 실시간으로 설명 생성은 사실상 불가능이다.

 

1. 해결 방향

  • 모델 압축 : AI를 더 가볍게 만들기
  • 근사 설명 : 빠르되 핵심은 유지
  • 분산 컴퓨팅 : GPU, 클라우드로 나눠서 처리
  • 연합 학습 : 개인정보 보호 + 계산 효율 동시 해결

(7). 윤리, 법적문제 - 법이 아직 기술을 못 따라가는 상황

XAI가 틀린 설명을 했을 때

⇒  누가 책임지나?

 

환자가 AI 설명에 동의해야 하나? AI 설명이 차별적이면 누가 책임지나?

AI 연구자, 윤리학자, 법률 전문가가 함께 머리를  맞대어 풀 수 있는 문제들이다. 

{2}. 정리

격차 비유 문제 해결 방향
맥락별 설명 획일적인 옷 분야별 맞춤 설명 없음 전문 분야별 XAI 개발
정적 설명 같은 교재 사용자 수준 무시 동적, 맞춤형 XAI
평가 기준 제각각 심판 표준 없음 공통 벤치마킹 프레임워크
워크플로 통합 규격 불일치 병원 시스템과 호환 안 됨 상호 운용성 개선
편향, 공정성 기울어진 저울 설명 자체가 편향 가능 공정성 인식 XAI
환장성, 속도 느린 차 실시간 처리 불가 모델 압축, 분산 컴퓨팅 

[13]. XAI의 도전 과제와 미래 전당

XAI = 발사 준비 중인 로켓

기술과 목표가 있다.

근데 발사하려면 아직 해결해야 할 문제들이 있다.

{1}. 현재 직면한 과제들

(1). 데이터 관련 과제 - 재료가 부족한 요리사

아무리 실력 있는 요리사도 재료가 없으면 요리를 못 하듯

XAI 모델도 고품질 데이터가 없으면 개발이 불가능하다.

 

1. 문제

  • 주석 달기 : 전문가 시간, 노력 엄청 필요
  • HIPAA, GDPR : 데이터 공유 엄격히 제한 규정
  • 병원마다 데이터 형식이 달라 호환 안 됨

2. 해결책

  • 연합 학습 : 데이터 공유 없이 협업 학습
  • 합성 데이터 : GAN으로 익명 의료 영상 생성
  • FHIR : 의료 데이터 형식 표준화

(2). 해석 가능성 vs 정확도 딜레마 - 투명한 유리컵 vs 단단한 철컵

1. 투명한 유리컵 (해석 가능 모델)

  • 안이 다 보임 (투명)
  • 근데 잘 깨짐(성능 한계)

2. 단단한 철컵(딥러닝 블랙박스)

  • 절대 안 깨짐(고성능)
  • 근데 안이 안 보임(블랙박스)

⇒  둘 다 완벽한 컵은 없다.

 

3. 특히 응급 상황에서

  • 외상 치료 : 즉각적인 판단이 필요하기 때문에 느린 XAI는 사용하지 못한다.
  • 뇌졸중 감지 : 허혈성인지 출혈성인지 실시간 구분 필수
  • 김정지 예측 : 신속한 설명 없으면 심장 전문의가 못 씀 

4. 편향 문제

  • 정확도 + 해석 가능성 + 공정성
  • 세 가지를 동시에 만족시키는 게 의료 AI의 "삼중 과제"

5. 해결 방향

  • 본 질적으로 해석 가능한 딥러닝 모델 개발
  • 공정성 고려한 훈련 방식 도입
  • *환식도 인식형 AI

→ 확실한 케이스 : AI가 자율 처리

불확실한 케이스 : 인간 전문가에게 넘김

 

? 환식도 인식형 AI

환각 현상을 인지하고, 이를 탐지하거나 스스로 수정할 수 있는 능력을 갖춘 인공지능 

(3). 확장성 & 실시간 처리 - 고속도로에서 거북이 속도로 달리는 차

  • SHAP, LIME : 계산이 너무 오래 걸림
  • 3D MRI, CT : 데이터가 너무 커서 더 느림

1. 상황별 균형점

 

-1. 응급의학, ICU :

  • 세밀한 설명보다 빠른 속도가 중요함
  • Grad-CAM 같은 빠른 기법 필요

 

-2. 종양학, 영상의학 :

  • 속도보다는 세밀한 설명이 중요함
  • SHAP 같은 정밀 기법 사용해야 함

 

-3. 회귀 질환, 맞춤 의학 :

  • 포괄적 근거 제시가 최우선이어야 함
  • 시간이 걸려도 완전한 설명 필요

2. 해결책

  • 모델 압축 : AI를 더 가볍게
  • 분산 컴퓨팅 : GPU, 클라우드로 나눠서 처리
  • 연합 학습 : 기관 간 분산 처리 + 개인정보 보호 

(4). 표준화된 평가 기준 없음 - 심판 없는 스포츠 경기

  • 기존 AI 평가 : 정확도, 민감도, *AUC-ROC 등으로 기준이 명확함
  • XAI 평가 : 해석 가능성, 신뢰성, 공정성, 임상 유용성 때문에 어떻게 측정할지 아직 합의된 부분이 없다.

⇒ 서로 다른 연구가 서로 다른 기준을 써서 어떤 XAI가 더 좋다는 비교가 불가능하다.

 

? AUC-ROC

AI가 "양성"과 "음성"을 얼마나 잘 구분하는지 0~1 사이 점수로 나타낸 것으로, 1에 가까울수록 정확하다.

 

1. 필요한 평가 기준

 

-1. 인간 중심 평가

  • 의사가 직접 설명의 유용성 점수 매기기

-2. 공정성 인식 기준

  • 균등화 확률 : 모든 집단에서 성능이 동일한가?
  • 반사실적 검증 : 인종, 성별 바꿔도 결과가 같은가?

-3. 안정성, 견고성 기준

  • 설명 일관성 : 입력이 조금 바뀌어도 설명이 안정적인가?
  • 적대적 공격 방어 : 누군가 설명을 조작하려 할 때 버티는가?

{2}. 실제 실패 사례 3가지 

(1). IBM Watson for Oncology

문제 : 높은 정확도 But 설명 불가

  • 치료 권고 근거를 의사가 이해 못 함
  • 실제론 전문가 지침에서 도출된 권고였음
  • 임상 신뢰 붕괴로 도입 실패

(2). DeepMind 신장 손상 예측 AI

문제 : 48시간 전에 악화 예측 가능 But 설명 없음

  • "왜 이 환자가 위험한지" 의사에게 못 알림
  • 기존 워크플로와 연결 불가
  • 인상적인 성능에도 실제 활용 안됨 

(3). 코로나19 AI 진단 모델

문제 : 높은 정확도 But 편향된 근거

  • 일부 AI가 폐 이상이 아닌, 병원 표시, 스캐너 종류를 코로나 신호로 오해
  • 정확도가 부풀려진 것

(4). 교훈

  • SHAP, Grad-CAM으로 의사결정 경로 반드시 검증
  • 비의료적 특징에 의존하는지 확인
  • 규제 승인 전 공정성, 투명성 평가 필수

{3}. 미래 해결 방향

(1). 데이터 접근성 강화

  • 연합 학습 : 데이터 공유 없이 협업
  • 합성 데이터 : GAN으로 익명 의료 데이터 생성
  • FHIR : 병원 간 데이터 호환성 표준화

(2). 학제 간 협력

  • AI 개발자 : 견고하고 해석 가능한 모델 설계
  • 임상의 : 실제 의료 요구에 맞는지 검증
  • 정책 입안자 : 공정성, 투명성 규정 수립

세 그룹이 함께 움직여야 제대로 된 XAI가 나옴

(3). 표준화된 평가 프레임워크

  • SHAP, LIME : 정량화 가능한 벤치마크 역할
  • ISO 프레임워크 : 의료기기 기준을 XAI에 적용

⇒ 규제 승인 가속화 + 신뢰 규칙

(4). 교육 및 훈련

임상의 대상 XAI 교육 프로그램 

  • AI 설명 해석법 훈련
  • AI 신뢰성, 안정성 우려 해소
  • 동적 XAI : 초보 의사 = 쉬운 설명 | 베테랑 의사 = 심층 설명

(5). 신흥 기술 활용

  • 생성형 AI (GAN, 확삭 모델) : 데이터 부족 +개인정보 보호 동시 해결
  • 멀티모달 XAI : 영상 + 텍스트 + 유전체 데이터 통합으로 더 풍부한 설명 제공
  • 연합 학습 : 기관 간 안전한 분산 학습

(6). 시범 프로젝트 - 도입 전 테스트 

진단 영상 부서에 XAI 도입 후 평가

측정 지표 : 정확도, 해석 가능성, 의사 만족도

  • 기관 심사 위원회 : 임상의, 윤리학자가 직접 XAI 모델 검증
  • 표준 측정 기준 : 신뢰도 점수, 진단 시간, 오류 감소율 

{4}. 정리

과제 비유 해결책
데이터 부족 재료 없는 요리사 연합 학습 + 합성 데이터
정확도 vs 해석 가능성 유리컵 vs 철컵 하이브리드 XAI + 확신도 인식 AI
확장성, 속도 고속도로 거북이 모델 압축 + 분산 컴퓨팅
평가 기준 없음 심판 없는 경기 표준화 프레임워크 + 공정성 기준
편향, 불공정 기울어진 저울 공정성 인식 훈련 + 반사실적 검증
워크플로 통합 규격 불일치 FHIR 표준화 + 시범 프로젝트 

[14]. 결론

{1}. 핵심 트렌드

(1). 대부분 국소 설명에 집중

전역 설명(모델 전체 이해)은 연구가 적음

지역 설명(9개 별 예측 이해)은 연구가 압도적으로 많음

(2). CNN + 살리언시 맵이 주류

의료 영상 XAI 기법 중

Gard-CAM 같은 살리언시 맵 기열이 가장 많이 쓰임

(3). 연구가 특정 부위에 몰려 있음

많이 연구된 부위 : 흉부, 뇌, MRI, CT

상대적으로 부족한 부위 : 그 외 다수

⇒ 연구 범위 확장 필요

{2}. 핵심 권고사항

의료 XAI가 완성되려면 아래 6가지 퍼즐 조각이 필요함

(1). 전역 설명 방법 개발

지금은 "이 환자 왜 이렇게 진단했어?" 국소 설명만 잘한다.

"이 AI는 전반적으로 어떻게 작동해?" 전역 설명 부분도 개발해야 함

⇒ Attention 메커니즘, 모델 비특이형 프레임워크 탐구

(2). 속도 문제 해결

SHAP, LIME은 좋은데 너무 느림

임상 워크플로에 쓰려면 실시간에 최적화된 기법 개발 필수

(3). 공정성 강화 & 편향 제거

"모든 환자에게 공평한 AI"가 되려면

다양한 데이터셋 + 편향 감지, 완화 모델이 필요

(4). 검증 & 표준화

"이 XAI 믿을 수 있어?"에 답하려면 FDA, GDPR 같은 규정 기준에 맞는 표준화된 임상 검증 프레임워크가 필요

(5). 멀티모달 XAI

영상만 보는 게 아니라 영상 + 임상 기록 + 유전 데이터를 함께 분석

⇒ 복잡한 진단에서 더 포괄적인 설명 가능

(6). 학제 간 협력

AI 연구자 + 임상의 + 윤리학자 세 그룹이 함께 움직여야 함

금융, 자율주행 등 다른 분야의 XAI 성공 사례도 적극 참고해야 함 

 

의료 AI가 실제로 쓰이려면 결국 "설명"할 수 있어야 한다. XAI는 선택이 아닌 필수이다.

느낀 점 :

논문을 읽기 전에는 의료 분야 XAI를 단순히 의사와 환자가 이해할 수 있는 설명을 추가하는 기술이라고 생각했다.

근데 읽다 보니 결국 신뢰, 법적 책임, 윤리, 공정성의 문제였다.

의사가 AI 판단을 신뢰하지 못하면 쓰지 않고, AI가 오진했을 때 책임 소재가 불분명하고, 편향된 데이터로 학습된 AI는 특정 환자 집단에게 불공평한 진단을 내릴 수 있기 때문이다.

 

기술은 이미 많이 발전했는데 실제 병원에서 쓰기엔 표준화된 평가 기준도 없고, 의사 교육도 부족하고, 법적 기준도 이제 막 만들어지는 중이다. 기술보다 제도와 신뢰가 더 느리게 따라오고 있어서 실제 임상 적용까지는 아직 갈 길이 멀다.

 

나는 환자 중심 XAI에 관심이 있다. 의사가 아닌 환자가 AI 판단을 이해할 수 있어야 한다는 것이다.

그중에서 나에게 가장 인상 깊었던 문제는 "설명의 접근성"과 "맞춤형 설명 부재"였다.

현재 XAI는 대부분 의사를 위한 설명에 집중되어 있다. Grad-CAM 히트맵, SHAP 수치 등은 의료 전문가에게는 유용하지만 환자 입장에서는 여전히 블랙박스다.

 

의료 AI가 실제 임상에서 환자에게 직접 영향을 미친다면 그 판단의 근거는 의사만이 아니라 환자 본인도 이해할 수 있어야 한다.

나는 앞으로 이 질문을 중심에 두고 환자와 보호자가 실제로 이해할 수 있는 뇌종양 MRI 기반 XAI를 연구해나가고 싶다. 나이, 교육 수준, 심리 상태에 따라 설명 방식이 달라지는 맞춤형 XAI가 궁극적으로 내가 풀고 싶은 문제다.