On the journey of

[논문읽기] Lung Disease Classification Using Deep Learning Models from Chest X-ray Images(2023) 본문

Experiences & Study/Deep DAIV

[논문읽기] Lung Disease Classification Using Deep Learning Models from Chest X-ray Images(2023)

dlrpskdi 2023. 11. 8. 16:36

Original Paper ) https://ieeexplore.ieee.org/document/10075968/

 

Lung Disease Classification Using Deep Learning Models from Chest X-ray Images

In the very recent past, Infectious disease-related sickness has long posed a concern on a global scale. Each year, COVID-19, pneumonia, and tuberculosis cause a large number of deaths because they all affect the lungs. Early detection and diagnosis can in

ieeexplore.ieee.org


이브와 프로젝트를 같이 했던 두 친구가 (좀 많이) 적극적으로 권유했던 Deep DAIV에 Fall Challenge로 들어가게 됐다 !

사실 지원받는다고 링크까지 권유했던 게 컸다 ^_^ 7학기 중간이 지나가는 시점에 뭐 새로하는 사람 나뿐일듯 ㅋ.. 

여러 항목 중 하나를 선택하는 거였는데, 요새 Medical - BIO 분야에 관심이 많아져서 (파알 눈감아) MED-AI를 선택했다. 프로젝트로는 BioSignal 분야를 하게 되었는데, 아직 프로젝트 들어가진 않고 논문 3주 정도 읽은 다음 참여할 예정! :-) 여튼 오늘은 논문읽기 첫 주차의 첫 논문으로, 올해 나온... 논문이다. 


Abstract

 

코로나19를 필두로 폐렴, 결핵 등 폐에 영향을 미치는, 동시에 많은 사망자를 발생시키는 질병들이 지속적으로 창궐하고 있다. 이런 상황에서 조기 발견 및 진단은 조기 치료, 생존으로 이어지는 지름길일 수 있다. 오진단률을 낮춘다면 더욱 유용할 것이기에, 본 논문에서는 '코로나19, 결핵, 폐렴' 진단을 위한 딥러닝 방법을 분석하였다. 

DNN은 흉부 엑스레이(CXR) 이미지에서도 가장 많이 사용되는 방법이고, 이는 위 3개 질병에도 동일하다. 이런 DNN을 평가하고자 Efficient - NETB0, DenseNet169, DenseNet201등을 비교하였다. 

 

Introduction & 선행연구

 

코로나19는 기침 소리, 엑스레이, CT 스캔을 포함한 시각적 데이터를 통해 판별(진단)이 가능하다. 이는 SARS-CoV-2 바이러스에 의한 질병으로, 대부분 가벼운 호흡기 감염에서 그치지만 고령자, 심장 질환자 같은 경우 심각한 질병으로 발전하여 전문적인 치료가 필요하다. 아직까지는 키트가 제일 정확하고 대중적이지만, 방사선 조사 / 미생물학적 문제 / 임상 등의 절차를 통해 보다 정확하게 평가할 수 있다. 

선행연구가 꽤 다양한 편이다. 우선 Mehta & Mehendale는 Covid - 경증 / 중증 / 심각 , 폐렴 , 결핵 , 정상 총 6개 카테고리에서 1229개의 이미지를 수집한 후, cGAN을 통해 사진 수를 늘린 다음 해당 데이터셋을 대상으로 ResNet50, Xception, DenseNet-169를 각각 학습시켜 분류를 정확히 할 수 있도록 하였다. 훈련 및 검증 정확도는 각 98.20% , 94.21%였다. 

2) CoroNet을 활용해 흉부 엑스레이에서 Covid 19를 진단하였던 연구에서는 총 1300장의 흉부 폐렴 & Covid 흉부 엑스레이로 학습하였는데 본 모델은 4개 분류(Covid19, 세균성 폐렴, 바이러스성 폐렴, 정상)에서 89.6%를 달성하였다. 3개 분류(Covid19, 폐렴, 정상)에서는 95%의 정확도를 얻었다. 

3) CNN(아비예프와 이스마일이 제안한) 모델은 폐렴 환자와 정상 CXR을 대상으로 훈련, 두 번째는 Covid19, 폐렴, 정상2차 흉부 엑스레이 사진으로 훈련되었다. 각 98.3%의 정확도, Recall 97.9% , 정밀도 98.3%, F1 98.0%를 달성하였다. 

 

이쯤하여 다음 파트로 넘어는 가지만, 약 20개의 선행연구가 기록되어 있다.

 

연구 방법론

 

여기가 찐 본론이라서 넘어온 것. 데이터 수집~데이터셋 준비 ~작업 절차가 작성되어 있다. 

A. 데이터 수집 : 공개적으로 사용 가능한 3종류의 흉부 엑스레이 이미지 데이터셋인 멘델리 데이터, IEEE DataPort , Covid ChestXray Dataset을 사용하여 이미지를 분류하였다. 다양한 출처에서 수집한 데이터를 결합하여 최종적인 데이터셋을 구성하였다. 그림은 실제로 논문에 있는 다이어그램.

최종적으로 Covid19 / 폐렴 / 결핵 / 일반 4개 클래스로 구성된 최종 데이터 집합이 생성된다. 본 논문에서는 특정 사진 수정, 3채널 컬러 사진 적용, RGB 태그 지정 등의 전처리를 진행하여 보다 고품질, 고화질의 이미지로 훈련시켰다. 또한 2번 뒤집기, 셔플, 크기 조정, 이미지 모드의 범주형 변환 등의 변경절차도 진행하였다. 

그 후 Fine Tuning을 진행하였다. 매개 변수를 사용한 모델 조정은 아래와 같이 이루어졌다. 

Parameter Value
Batch size 30
Epoch당 단계 50
Epoch 30
Optimizer Adam, Adams
활성화함수 Softmax, Relu

 

이를 최종적으로 반영해 모델을 구현하였다. 여러 오픈소스 모델을 적용하였는데

1) EfficientNetB0 : 신경망 자체에서 만든 아키텍처이다. 연구자들은 B1~B7에 이르는 EfficientNet 형제자매들을 만들었으며 그 기본이 B0이다. 총 1100만 개의 훈련 가능 파라미터를 갖춘 아키텍처이며, 지정된 scaling parameter set을 통해 각 차원을 스케일링한다는 특성을 갖는다. 

2) DenseNet169 : DenseNet의 모든 레이어의 특징 맵은 그 앞에 있는 모든 레이어에서 데이터를 받아 오고, 각 계층은 그 위의 계층(상위 계층)으로부터 데이터를 수집한다. 각 레이어는 그 이전의 모든 레이어에서 feature map을 수집하기 때문에 네트워크가 더 압축적이고 채널 수가 적어 계산 및 메모리 효율성이 향상될 수 있다. 

3) DenseNet 201 : 병목 구조와 풀링 레이어가 있어 모델이 단순화되고 속성 구성 요소의 수가 줄어들면 해당 아키텍처의 성능이 향상될 수 있다. 

 

가. EfficientNet B0 아키텍처

나. DenseNet 169의 아키텍처

다. DenseNet 201의 아키텍처

4) 위 3개 모델을 Fine tuning까지 포함하여 학습시킨 결과는 각각 아래와 같았다. 

또한 본 연구는 여기까지의 프로세스를 자동화하여 시간과 비용을 모두 절약할 수 있는 web을 위해 확장될 예정이라고 한다. 99%, 98%가 과적합이 있다 하더라도 무시할 수 있는 정확도는 아니기 때문이다.