IBM 왓슨은 그동안 얼마나 발전했을까?: ASCO 2015에 발표된 초록 분석

몇달 전에 올렸던 IBM의 인공지능 시스템 왓슨이 열어갈 미래 의료 에 대한

후속 글입니다.

 

매년 5월 말~6월 초에 열리는 미국 임상 암학회 (American Society of Clinical Oncology: ASCO)가

시카고에서 열리고 있습니다.

종양학의 대표 학회라고 할 수 있으며 우리나라를 비롯한 전세계 유수의 종양학자들과 의사들이

참여합니다.

전공이 종양학이 아닌 저도 학회를 기다려 왔는데

그 이유는 2013년부터 IBM 왓슨에 대한 초록들이 꾸준히 발표되고 있기 때문입니다.

 

디지털 헬스케어의 다른 분야도 마찬가지이지만

회사측에서 발표하는 (장미빛) 보도 이외에

해당 제품이 정확하게 어떤 수준에 와있는 지에 대한 정보를 얻기 힘든 현실에서

비교적 객관적인 정보를 얻을 수 있는 기회입니다.

이번에도 어김없이 IBM 왓슨을 종양학에 활용한 초록 네편이 발표되었습니다.

그 내용을 통해서 현재 IBM 왓슨의 수준이 어디까지 왔는 지에 대한 단서를 얻고자 합니다.

 

우선 위에 링크한 기존의 제 글이 제법 길어서 읽기에 불편할 것 같아서

2013년과 2014년에 ASCO에서 발펴된 왓슨 관련 초록을 먼저 소개하겠습니다.

 

2013년 ASCO에서는 초기 부터 IBM의 파트너였던 메모리얼 슬론 케터링 암센터 (Memorial Sloan Kettering Cancer Center: MSKCC)에서

한편의 초록을 발표하였습니다.

‘Beyond Jeopardy!: Harnessing IBM’s Watson to improve oncology decision making라는 제목의 연구입니다.

 

폐암을 대상으로 하여 자연어 처리 능력(natural language procesing: NLP)와

기계 학습 능력(machine learning: ML)을 평가했습니다.

525개의 실제 폐암 환자 사례와 420개의 가상 환자 사례를 학습시켰습니다.

그 결과는 아래의 표와 같습니다.

Watson at ASCO 2013

Watson at ASCO 2013

 

초록의 내용을 보면 환자 사례에서 중요한 요소들을 추출해내는 능력인  NLP 능력과

적합한 치료 방법을 제시하는 능력인 ML 능력 모두 향상되는 것으로 나왔다고 하는데

위의 표에서 Batch 1~7결과만 보고 NLP 능력이 향상되고 있는 것인지는 솔직히 잘 모르겠습니다.

하지만 Batch 8~16에서 보여주는 것처럼 300개의 사례를 반복적으로 테스트해보면 정확한 치료 방침을

내놓는 능력이 40%에서 77%까지 상승하는 것을 볼 수 있습니다.

 

‘정확한 치료 방침’의 기준을 MSKCC의 전문가들의 판단으로 잡는 것이

왓슨의 능력을 평가하기에 적절한 지 의문이 들 수있지만

MSKCC와 같은 유수 암센터의 전문가들 다수가 모여서 합의했을 정도의 결과라면

그렇게 보아도 무리가 없을 것 같습니다.

 

77%의 정확도라면 그리 신뢰할만하다고 하기는 힘들어 보입니다.

하지만 반복적인 학습에 따라서 정확도가 빠르게 올라가는 것으로 보아

충분한 학습 과정을 거친다면 그 신뢰도가 더욱 높아질 것이라 생각할 수 있습니다.

 

2014년 ASCO에서는 더 많은 초록들이 발표되었습니다.

 

우선 MSKCC에서는 2013년 연구를 더욱 확장한 결과를 발표했습니다.

Next steps for IBM Watson Oncology: Scalability to additional malignancies 라는 제목의 연구로

대장암, 직장암, 방광암, 췌장암, 신장암, 난소암, 자궁경부암, 자궁내막암에 대한 학습 모델을 만들어

왓슨을 학습시켰고 반복적으로 학습 시켜서 정확한 치료 방침을 내놓는 비율을 조사하였습니다.

Watson at ASCO 2014

Watson at ASCO 2014

반복적인 학습을 통했더니 모든 암에 대해서 정확도가 매우 높아졌다는 결과가 나왔습니다

다만, 2013년 연구 결과와 마찬가지로 동일한 환자 사례를 반복적으로 테스트한 결과라는 점에서

다소 한계가 있을 수도 있겠습니다.

진료 현장에서 의미가 있기 위해서는

동일한 환자 사례를 가지고 학습시켜서 능력을 쌓은 다음에

새로운 사례에 대해서 뛰어난 진단 능력을 보여주어야 할 것인데

아직은 그 수준까지는 미치지 못하는 셈입니다.

 

MSKCC는 Piloting IBM Watson Oncology within Memorial Sloan Kettering’s regional network 이라는

또다른 연구 결과를 발표했습니다.

MSKCC 네트워크 병원의 종양 의사들에게

왓슨이 유방암과 대장/직장암 환자에서 적절한 치료법을 제시하는 능력을 평가하도록 하고

왓슨 시스템을 사용해 본 경험에 대한 피드백을 받았습니다.

 

불과 6명만이 사용하였기 때문에 이 연구에는 분명한 한계가 있는데

사용자들은 왓슨이 적절한 암 치료 옵션 선택에 도움이 되었다고 평가했습니다.

그러나 환자 데이터 입력에 너무 많은 시간이 소요된다고 했는데

불필요한 항목을  20여가지나 입력해야하기 때문이라고 하였고

왓슨이 이미 나와있는 자료로부터 바로 데이터를 수집할 수 있어야할 것이라고 지적했습니다.

또한, 왓슨이 치료 방법들의 우선 순위를 선정한 근거 자료를 더 제시해야한다고 했습니다.

 

즉, 왓슨이 자연어 처리 능력을 가지고 있다고 하지만

아직은 의사가 입력해준 데이터를 인식해야한다고 볼 수 있습니다.

 

한편, 또다른 세계적인 암센터임 MD Andersen에서는 백혈병에 대한 연구 결과를 발표했습니다.

MD Anderson’s Oncology Expert Advisor powered by IBM Watson: A Web-based cognitive clinical decision support tool  이라는 초록에 따르면

왓슨에게 400개의 백혈병 환자 사례를 교육시키고

MD Andersen 종양 의사들의 치료 방법 결정 내용을 기준으로 해서

왓슨이 제시한 치료 방침을 평가했습니다.

전체적으로 왓슨의 정확도는 82.6%에 달했다고 달했습니다.

MSKCC 처럼 동일한 사례를 가지고 반복해서 평가한 것인지

아니면 교육 후 완전히 새로운 사례를 평가하도록 한 것인지가 명시되어 있지 않은데

정확도로 보았을 때 MSKCC와 비슷한 방식이 아닐까 생각됩니다.

 

2013~2014년에 발표된 연구 결과를 보면

아직 왓슨은 자연어 처리 능력이 기대에 미치지 못하며

우수한 학습 능력을 가지고 있지만,

학습 후에 새로운 환자 사례에 적용할 수 있는 능력은

충분히 검증되지 않았다고 할 수 있겠습니다.

 

이제 올해 발표된 초록을 살펴보겠습니다.

IBM의 오랜 파트너인 MSKCC는 올해도 초록을 발표했습니다.

Assessing the performance of Watson for oncology, a decision support system, using actual contemporary clinical cases 라는

제목의 초록은 제목이 시사하는 것처럼

(우리가 기다려왔던) 학습된 능력을 새로운 환자에게 적용할 수 있는 능력을 평가했습니다.

20개의 흉부암 (초록에는 thoracic medical oncologists가 사례를 골랐다고만 했는데 이 초록이 포함된 범주가

Lung cancer-Non-Small Cell Metastatic인 점을 감안하면 비소세포폐암이라고 생각할 수 있습니다.) 1차 치료 환자 사례를 이용했으며

사례들은 모두 분자병리학 검사 결과를 비롯해 진단 자료가 충분히 갖추어져 있었습니다.

해당 사례들은 구조화된 서식 (structured attributes)를 통해서 왓슨에 입력되었습니다.

각각의 사례에 대해서 가능한 옵션을 왓슨과 MSKCC 의료진이

추천 (Recommended), 고려 (For Consideration) 및 비추천 (Not Recommended)으로

나누어서 제시하도록 하였고

왓슨과  MSKCC 의료진이 제시한 것이 일치하는 지 여부를 보았습니다.

 

MSKCC의 ‘추천’ 옵션의 50%가 왓슨의 ‘추천’ 옵션에 들어갔습니다.

MSKCC의 ‘추천’ 옵션 중 25%가 왓슨의 ‘고려’ 옵션에 나타났고 25%는 왓슨의 ‘비추천’에 나타났습니다.

16사례는 전이성 폐암이었는데 MSKCC 의료진이 실제로 사용한 항암 치료제 옵션의 88%가

왓슨의 ‘추천’ 혹은 ‘고려’에 포함되어 있었습니다.

그리고 MSKCC의료진이 ‘추천’한 옵션이 왓슨에서 ‘비추천’으로 나온 경우는

다른 질병을 동반한 고령  환자 사례들로 아직 왓슨이 학습을 하지 않았다고 합니다.

(elderly patients with co-morbidities not yet included in WFO)

 

저자들은 왓슨의 옵션 선택이 증거 기반 의료 기준의 범위 내에 들어온다고 보았고

왓슨이 의료진과의 반복적인 훈련 (iterative training)과 개발을 통해서 정확도를 높일 수 있다고 하였습니다.

(그런데 위에 나온 수치를 보면 과연 ‘증거 기반 의료 기준의 범위 내에 들어온다고’  볼 수 있을 지는 의문입니다.)

다만, 동반된 질환으로 인해서 치료 옵션이 일정하게 확립되지 않은 (heterogenous) 고령 환자의 경우에는

아직도 극복해야할 부분이 있다고 지적하였습니다.

 

MSKCC는 또다른 초록도 내놓았습니다.

Steps in developing Watson for Oncology, a decision support system to assist physicians choosing first-line metastatic breast cancer (MBC) therapies: Improved performance with machine learning  라는 연구에서는 전이성 유방암을 다루었습니다.

이 초록은 이해가 좀 까다로워서 나름 정리해서 말씀드리겠습니다.

뭔가 석연찮은 분들은 원문을 꼭 보시기를 권해드립니다.

 

전이성 유방암 (Metastatic Breast Cancer: MBC) 환자들은 많은 공통된 특성 (연령, 활동 수준, 수용체 발현 여부, 기존 치료법)을 갖고 있음에도

매우 다른 치료를 받게 되는 경우들이 있습니다.

그 치료 방법은 어떤 항암제를 쓸 것인지의 문제일 수도 있고 어떤 호르몬 요법약을 쓸지의 문제일 수도 있습니다.

의사들은 유방암과 관련된 여러 요인들 (암의 위치, 범위, 전이암의 크기, 증상이 심한 정도 등) 각각에 대해서

어떤 가중치를 부여하고 이를 종합하여 환자에게 어떤 치료를 할 지 결정한다고 볼 수 있습니다.

어떻게 가중치를 부여하는 것이 환자의 예후를 예측하고, 치료 방침을 결정하는데 도움이 되는 지를 다루는 연구를 하기도 합니다.

이 논문은 MSKCC의 전문의들이 각각의 유방암 사례에 대해서 치료 방침을 어떻게 결정하는 지 과정을 왓슨에게 학습시킴으로써

전문의들이 생각하는 가중치를 학습하여 치료 옵션을 제시하는 기능을 향상시키고자 했습니다.

 

101개의 만들어진 전이성 유방암 (101 manufacatured MBC) 훈련용 사례를 대상으로 하였습니다.

 

결과적으로 전체 101케이스에 대해서 평가했을 때 학습전 정확도 73.6%에서 학습후 정확도 82.1%로 11.5% 향상되었습니다.

HR및 HER2 상태에 따라서 분석해 보면

HR+HER2+에 대해서는 28.8%, HR+HER2-에 대해서는 9.6%, HR-HER2+는 2.8%향상되었고

HR-HER2-는 -1.4%로 나와 오히려 악화되었습니다.

 

결론적으로 가상의 사례와 의학적 의사 결정 논리를 사용하여 교육시켰을 때

왓슨의 기계 학습 모델은 단순히 규칙에 바탕을 둘 때보다

(즉, 단순히 기존의 가이드라인에 바탕을 두고 결정할 때보다)

MSKCC 전문가들과 더 비슷한 결정을 내릴 수 있었습니다.

 

 

이 실험과 그 결과는 매우 놀랍습니다.

저를 비롯한 많은 사람들이 왓슨은 단순히 기존 연구 결과와 가이드라인에 바탕을 둔 진료만을 할 수 있기 때문에

아직 논문이나 교과서로 정리되지 않은 복잡한 경우에 대해서 치료 방침을 제시하기는 힘들 것으로 보았기 때문입니다.

즉, 최고의 전문가가 경험으로 터득한 일종의 암묵지는 왓슨이 감히 모방할 수 없다고 보았는데

적절하게 학습시키면 그럴 수도 있다는 가능성을 보여준 것으로 보이기 때문입니다.

이렇게 의사 결정 과정에서 가중치를 부여할 수 있는 기능이 발전한다면

향후 왓슨이 스스로 의학적 증거와 가이드라인을 만들어내는 경지에 이를 수 있다는 의미로 생각됩니다.

 

MSKCC는 총 세편의 초록을 내놓았는데 마지막 초록은 초기 유방암에 대한 것입니다.

그 제목은 Integration of multi-modality treatment planning for early stage breast cancer (BC) into Watson for Oncology, a Decision Support System: Seeing the forest and the trees.입니다.

 

전이성 유방암은 항암치료와 호르몬 치료만이 가능한 반면

초기 유방암은 유방의 암에 대한 수술 치료를 기본으로 하며

거기에 더해서 겨드랑이 임파선 절제 수술을 추가로 하거나, 방사선치료를 더하기도 합니다.

유전성일 가능성을 생각하여 임상 유전자 카운셀링을 의뢰해야할 수도 있고

치료 결과와 관련하여 생식 능력 보존과 관련된 의뢰를 해야할 수도 있습니다.

다양한 진료과의 의사가 진료에 참여하는 소위 다학제 진료가 점점 확산되는 추세에세

왓슨이 1차 종양 의사로서 역할을 제대로 할 수 있을 지를 따져보는 것이라 할 수 있습니다.

 

MSKCC의 유방암 전문가들은 왓슨을 학습시켜

왓슨이 임파선 절제 수술 (BS), 방사선치료(RT), 임상 유전자 카운셀링(CG), 생식 보존 의뢰(FP)를

얼마나 정확하게 할 수 있는 지를 평가했습니다.

RT에 대해서는 전문가 의견과 98%, CG에 대해서는 94%, FP에 대해서는 91% 일치했다고 합니다.

그리고 BS에 대해서는 전문가가 수술이 필요하다고 본 8개의 사례 모두에 대해서 수술을 권유하였고

수술을 권유하지 않은 12개의 사례 가운데 7개에서 수술을 권유하기도 하였습니다.

 

결론적으로 저자들은 이 정도면 상당히 우수하다고 평가하고 있습니다.

 

마지막 초록은 MSKCC가 아닌 캐나다 벤쿠버의 BC Cancer Agency (BCCA) Genomic Sciences Centre에서 발표하였습니다.

Implementation of Watson Genomic Analytics processing to improve the efficiency of interpreting whole genome sequencing data on patients with advanced cancers. 라는 제목의 논문입니다.

암 조직에 대한 유전자 분석 결과를 바탕으로 치료에 도움이 될만한 정보와 치료제를 제시해주는 능력을 평가했습니다.

기존에 사람이 직접할 때에는 10일 이내에 끝내기 힘들었던 반면 왓슨은 수분 내에 분석을 마쳤다고 합니다.

(초록에 유전자 분석에 대한 이런저런 이야기들이 나옵니다만 제가 잘 모르고 관심도 없는 분야라 상세히 다루지는 않습니다.)

 

마지막 초록은 많은 데이터를 빠르게 분석한다는 점에서 예상가능했던 내용이라 별도로 언급하지는 않겠습니다.

나머지 세 초록에 대한 생각을 정리해 보겠습니다.

 

기존 초록과 마찬가지로 일정한 사례를 반복 학습 시킨 것인지

아니면 반복 학습 후 새로운 사례에 적용한 것인지 불확실하지만

따로 언급하지 않은 것으로 보아서 일정한 사례를 반복 학습 시킨 결과로 생각됩니다.

즉, 아직은 진료 현장에 적용하기에는 다소 이르다는 생각입니다.

 

2014년 10월 IBM의 발표에 따르면 (링크는 여기에) 종양학에 왓슨을 활용하는 Watson for Oncology를

태국의 범룽랏 병원에서 사용하기로 5년 계약을 맺었다고 합니다.

만약 일정한 사례를 반복학습 시킴으로써 정확도를 높이는 정도라면

범룽랏 병원에서 활용한다는 것이 말이 안되는데

현재 왓슨의 수준은 어느 정도이며 범룽랏에서는 어떤 용도로 어떻게 쓰고 있을 지 궁금합니다.

(궁금해서 범룽랏병원 2014년 연차 보고서까지 뒤져봤는데 왓슨을 도입한다는 이야기만 있을 뿐

자세한 이야기는 없습니다. 참고로 범룽랏병원은 주식 시장에 상장했기 때문에 이런저런 정보들이 좀

나오는 편입니다.)

 

개인적으로 가장 놀라웠던 것은 두번째 초록의 내용입니다.

앞서 언급한 바와 같이

왓슨의 능력은 단순히 기존에 산재된 정보를 정리하는 수준이 아니라

이를 종합해서 새로운 의학 지식을 만들어낼 수도 있다는 점을 시사하기 때문입니다.

 

전체적으로 보았을 때 (발표된 초록의 내용에만 근거하자면)

왓슨이 암 진료 현장에 도입되는 것은 아직은 요원한 일이라는 생각이 듭니다.

기술의 발전을 과소평가했다가 큰 코 다치는 일이 많은 세상입니다만

아직은 의사를 보조하는 용도로 사용하기에도 한계가 있어 보입니다.

물론 왓슨은 계속 발전할 것이며 결국 의사 역할을 상당부분 대체할 것으로 보이기는 하지만 말입니다.

Comments

comments

4 comments

  1. 잘 읽었습니다^^

  2. 너무 잘 읽었습니다.
    감사합니다.

Leave a Reply

Your email address will not be published.