본문 바로가기

Deep learning model for differentiating nasal cavity masses based on nasal endoscopy images – 내시경 영상을 활용한 비강 종물 감별 진단 딥러닝 모델

asdf31sd211 2025. 3. 26.

이번 리뷰에서는 2024년 BMC Medical Informatics and Decision Making에 게재된 Tai 외 연구진의 논문을 소개합니다. 이 논문은 비강 내시경 영상을 기반으로 비강 종물 중 대표적인 두 가지 질환인 비용종(nasal polyps, NPs)과 외번 유두종(inverted papilloma, IP)을 구분할 수 있는 딥러닝 모델을 개발한 연구입니다. 두 질환은 내시경 영상상 유사한 형태를 보이기 때문에 임상적으로 감별이 어렵습니다. 이에 저자들은 커리큘럼 학습(curriculum learning)을 활용하여 정밀한 패치 기반 학습 후 전체 영상 학습으로 이어지는 2단계 딥러닝 모델을 개발하였습니다. 해당 모델은 전문 이비인후과 의사들과 비교해도 높은 수준의 정확도를 보이며, 임상에서 비침습적인 보조 진단 도구로 활용될 가능성을 보여주고 있습니다.

연구 배경 및 중요성

비강 내 종물 중 비용종과 외번 유두종은 임상 내시경 소견에서 유사하게 보이기 때문에, 수술 전 병리학적 확진 없이 정확히 감별하기 어렵습니다. 특히 외번 유두종은 인유두종 바이러스(HPV)와 관련되며, 재발률이 높고 일부는 편평세포암으로 전환될 수 있어(5~13%) 정확한 사전 감별이 치료 전략 수립에 매우 중요합니다. 하지만 일반적인 내시경 검사만으로는 진단자의 경험에 의존하게 되며, 오진 가능성도 존재합니다. 따라서 영상 인식에 탁월한 성능을 보이는 딥러닝 모델을 도입해, 보다 정확하고 객관적인 비침습 진단을 가능하게 하는 것이 본 연구의 핵심입니다.

연구 목적 및 배경

본 연구의 목적은 딥러닝을 이용하여 비강 내시경 영상에서 정상, 비용종, 외번 유두종을 효과적으로 감별하는 모델을 개발하고, 해당 모델의 진단 정확도 및 임상 적용 가능성을 검증하는 것입니다. 특히, 소량의 의료 영상 데이터셋에서도 높은 성능을 발휘할 수 있도록 커리큘럼 학습 전략을 채택하였으며, 이를 통해 전문가들의 시각적 판단과 비교 가능한 수준의 성능을 확보하고자 하였습니다.

연구 방법

  • 데이터 수집: 한국 고려대학교 안암병원 (2016~2019년 수술 환자 대상)
  • 대상 분류: 정상(비종물), 비용종(NPs), 외번 유두종(IP) 환자
  • 이미지 수: 정상 490장, 비용종 775장, 외번 유두종 177장 (전체 영상 기준)
  • 패치 이미지 생성: 병변 중심의 256x256 크기 이미지 생성
  • 모델 아키텍처: InceptionResNetV2 기반 2단계 커리큘럼 학습
  • 1단계: 패치 이미지를 이용한 전이학습(ResNet-50 사전학습 가중치 사용)
  • 2단계: 전체 이미지를 이용한 파인튜닝
  • 데이터 증강: 회전, 확대, 이동, 블러링 등 다양한 기법 활용
  • 성능 검증: 5-겹 교차검증 및 전문가 7명과 성능 비교

전체 학습 및 테스트는 NVIDIA RTX GPU 기반 환경에서 수행되었으며, 딥러닝 프레임워크는 Keras와 TensorFlow를 기반으로 하였습니다. 주요 평가지표는 recall, precision, F1-score, accuracy, AUC 등이 포함되었습니다.

주요 발견 및 결과

제안된 커리큘럼 학습 기반 모델은 전체 정확도 82%를 기록하였으며, 특히 비용종 감별에서는 전문가보다 더 나은 성능을 보였습니다. AUC는 비용종에서 0.88, 외번 유두종에서 0.87, 정상에서 0.95로 높은 수준을 기록했습니다. 전문가 그룹과 비교한 결과, 정상 영상에서는 전문가가 더 높은 recall을 보였으나, 비용종 감별에 있어서는 모델의 성능이 더 우수했습니다. Grad-CAM을 통해 시각적 주의 영역도 분석하였으며, 이는 이비인후과 전문의들의 주시 영역과 일치했습니다.

실험 결과 요약

질환 Recall Precision F1-score AUC Accuracy
정상 0.90 0.78 0.84 0.95 0.82
비용종 (NP) 0.82 0.85 0.84 0.88 0.80
외번 유두종 (IP) 0.56 0.81 0.66 0.87 0.85

모델은 특히 비용종의 recall과 AUC에서 전문가보다 높은 수치를 기록하였으며, Grad-CAM 분석을 통해 모델이 주목한 시각 영역도 병변 위치와 일치함을 확인하였습니다.

한계점 및 향후 연구 방향

첫째, 외번 유두종 이미지 수가 적어 학습에 제약이 있었으며, 이는 데이터 불균형 문제로 이어졌습니다. 둘째, 단일 병원 데이터만을 사용했기 때문에 인종, 환경적 다양성이 반영되지 않았습니다. 셋째, 실험에 사용된 이미지 대부분은 명확하고 전형적인 병변을 포함하고 있어 실제 임상과는 차이가 있을 수 있습니다. 향후 연구에서는 다기관, 다양한 질환, 다양한 촬영 조건의 데이터를 포함하여 모델의 일반화 능력을 향상시킬 계획입니다. 또한 CT 영상, 병리 영상 등을 통합한 멀티모달 진단 모델 개발도 예정되어 있습니다.

결론

본 연구는 비강 내시경 영상을 기반으로 한 비용종과 외번 유두종 감별 진단을 위한 딥러닝 모델을 성공적으로 구축하였으며, 커리큘럼 학습 전략을 통해 제한된 데이터에서도 높은 성능을 달성하였습니다. 본 모델은 경험이 적은 의료진에게 유용한 보조 진단 도구로 활용될 수 있으며, 향후 다양한 의료 환경에서 임상 적용 가능성이 기대됩니다.

개인적인 생각

이 논문은 실제 임상에서 자주 마주치는 비용종과 외번 유두종 감별이라는 현실적인 문제를 AI 기술로 풀어낸 좋은 사례라고 생각합니다. 특히 커리큘럼 학습이라는 전략을 도입해 소규모 데이터셋의 한계를 극복한 점이 인상 깊었습니다. 단순한 성능 비교를 넘어 실제 이비인후과 전문의들과의 직접적인 성능 비교를 시도하고, Grad-CAM으로 해석 가능성을 부여한 점에서도 연구 설계의 치밀함이 느껴졌습니다. 앞으로 다양한 병원에서의 검증을 통해, 진정한 임상 보조 도구로 발전하길 기대합니다.

자주 묻는 질문(QnA)

  • Q1. 비용종과 외번 유두종은 어떻게 다른가요?
    비용종은 염증성 질환으로 양성이며 주로 양측성입니다. 반면, 외번 유두종은 일측성이며 HPV와 관련된 재발 가능성이 높은 종양입니다.
  • Q2. 커리큘럼 학습이란 무엇인가요?
    쉬운 단계부터 학습을 시작하고 점차 복잡한 문제로 넘어가는 방식으로, 의료 영상과 같은 복잡한 데이터에 유리합니다.
  • Q3. InceptionResNetV2는 어떤 모델인가요?
    Google에서 개발한 CNN 모델로, 다양한 필터 구조와 잔차 연결이 결합되어 깊은 신경망에서도 성능 저하 없이 학습이 가능합니다.
  • Q4. Grad-CAM이란 무엇인가요?
    딥러닝 모델이 어떤 영역을 보고 판단했는지를 시각적으로 보여주는 기술로, 해석 가능성을 높여줍니다.
  • Q5. 일반 의사도 이 모델을 활용할 수 있나요?
    가능합니다. 모델은 비전문가도 쉽게 병변을 인지하고 감별할 수 있도록 돕는 보조 진단 도구로 설계되었습니다.
  • Q6. 이 연구의 딥러닝 모델은 임상에 바로 사용 가능한가요?
    아직 단일 병원 기반이므로 다기관 검증 및 인증 과정을 거쳐야 임상 적용이 가능합니다.

용어 설명

  • 비용종(Nasal Polyps, NPs): 부비동 점막의 만성 염증으로 인해 생기는 양성 종물입니다.
  • 외번 유두종(Inverted Papilloma, IP): 재발 가능성이 높은 양성 종양으로, 일부는 악성으로 전환될 수 있습니다.
  • 커리큘럼 학습(Curriculum Learning): 학습 난이도를 조절해 점진적으로 모델을 훈련시키는 전략입니다.
  • InceptionResNetV2: Google의 Inception과 Residual 구조를 결합한 고성능 CNN 아키텍처입니다.
  • Grad-CAM: 딥러닝 모델이 주목한 시각적 영역을 보여주는 시각화 기법입니다.
  • Recall: 실제 양성을 얼마나 잘 찾아내는지를 나타내는 민감도 지표입니다.
  • Precision: 모델이 양성이라고 예측한 것 중 실제 양성 비율을 나타냅니다.
  • F1-score: 정밀도와 재현율의 조화 평균으로, 전체 성능을 종합적으로 평가합니다.
  • AUC(Area Under Curve): ROC 커브 하의 면적으로, 분류 성능을 정량화한 지표입니다.
  • Patch 이미지: 전체 이미지 중 병변 부위 중심으로 자른 작은 이미지 단위입니다.

댓글