IBM 왓슨의 능력, 어떻게 평가해야 할 것인가?

작년 12월 길병원에서 Watson for Oncology를 도입한 이후 이에 대한 논의가 많습니다.

제 블로그에서 Watson for Oncology와 관련된 연구 결과들을 정리한 바 있는데

작년 말에 인도의 Manipal 병원에서 발표한 초록을 아직 제대로 보지 않아서

이번 기회에 이를 간단히 정리하고 향후 왓슨과 관련된 임상 연구에 대한 생각을 정리하려고 합니다.

참고로 이와 관련해서  최윤섭 박사님께서 좋은 글을 써주신 바 있습니다.

 

그동안 암 치료 영역에서 왓슨에 대한 연구 결과는

주로 미국 임상 암 학회 (ASCO)에서 발표되었습니다.

2013년부터 2016년까지 여러 초록이 발표되었는데

2015년까지의 초록들은 기존 포스팅에서 정리하였습니다.

 

 

2016년에는 호주 연구팀이 한편의 초록을 발표했는데

왓슨의 임상 진료와 관련된 능력을 보는 것이 아니라

의무기록에 대한  자연어 처리 능력을 보는 내용이라 따로 다루지는 않았습니다.

 

작년 말에  인도의 Manipal 병원이 연구 결과를 발표했습니다.

이 병원은 2015년 12월에 왓슨, 정확히는 Watson for Oncology(WFO)를 도입하였습니다.

1년이 지난 2016년 12월에 미국의 샌안토니오 유방암 심포지엄과

싱가포르에서 열린 ESMO (European Society for Medical Oncology) Asia에서

각각 한편씩의 초록을 발표하였습니다.

첫번째 초록은 여기에서 볼 수 있고

(심포지엄의 초록 전체가 있는 pdf 파일인데 Publication number  S6-07입니다.)

두번째 초록은 여기에서 볼 수 있습니다.

첫번째 초록은 유방암 환자에 대해서만 다루고 있는데

이 내용이 두번째 초록에 일부 포함되어 있기 때문에 두 초록의 내용을 함께 살펴보겠습니다.

 

대상 환자는 유방암 (638), 대장암(126), 직장암(124), 폐암(112) 환자로 총 1,000 케이스입니다.

지난 3년간 Manipal 병원에서 치료받은 환자들로

다학제 진료팀 (Manipal multidisciplinary tumor board: MMDT)으로 부터 추천받은 치료 방침과

환자 데이터를 왓슨에 입력해서 나온 치료 방침을 비교하는 내용의 연구입니다.

첫번째 초록에는 지난 3년간 당시에 진료받은 내용과 비교했는지,

아니면 이 연구를 위해서 다학제 진료팀이 새롭게 치료 방침 검토를 했는지 명시하지 않았는데

두번째 초록을 보면 전자에 해당하는 것으로 볼 수 있습니다.

 

왓슨은 치료 방침을 추천 (REC), 고려 (FC: For Consideration), 비추천 (NREC)으로 제시하며

다학제 진료팀이 제시한 내용이 이 가운데 어디에 들어가는 지를 분석하였습니다.

1,000 케이스 전체를 보면

추천 50%, 고려 28%, 비추천 17%였고 5%는 왓슨이 제시한 결과에 나오지 않았다고 합니다.

추천과 고려에 속하는 비율을 합하면 80% 정도가 나오며 저자들은 이를 의미있게 보고 있습니다.

(첫번째 초록에서는 추천과 고려를 합한 것을

진료팀과 왓슨의 의견이 부합하는 것으로 (Concordant) 간주했습니다.)

암종별로 보았을 때 추천으로 나온 비율이 가장 높은 것은 직장암으로 85%였고

가장 낮은 것은 폐암으로 17.8%였습니다.

 

첫번째 초록에 나오는 유방암만 놓고 보면 추천 46.4%, 고려 26.1%, 비추천 21.5%로 나와서

추천과 고려를 합하면 73%이고  6%는 왓슨이 제시한 결과에 없었습니다.

유방암을 비전이성 (514 케이스)과 전이성 (124케이스)로 나누어 보면

비전이성 가운데 80%, 전이성 가운데 45%에서 의견이 부합했다 (concordant)고 하는데

이는 추천과 고려를 합한 수치로 보입니다.

(초록에서 추천으로 나온 것만 따지는 경우가 있고 추천+고려를 합해서 따진 것으로 보이는 경우가 있어서

자세히 보지 않으면 헷갈리기 쉽습니다.

추천+고려를 합한  것은 concordant로, 추천에만 해당하는 것은 WFO-REC으로 명시합니다.)

유방암을 호르몬 수용체 별로 보면

삼중 음성 (Triple negative)인 경우 추천에 속하는 경우가 67.9%로 높았으나

호르몬 수용체 양성, Her2 음성인 경우가 가장 낮아서 추천에 속하는 경우가 35%였습니다.

 

초록에서 추천 + 고려를 합한 (Concordant)비율이

4가지 암 모두에 대해서는 80%, 유방암에 대해서는 73%로 나왔다는 점을 강조합니다.

고려 대상으로 나온 것까지 답을 맞춘 것으로 간주하는 셈인데

다소 후한 기준을 적용하는 것으로 볼 수 있습니다.

참고로 MSKCC에서 2015년 ASCO에 발표한 초록에서도 비슷한 기준을 적용하였습니다.

 

Manipal 병원이 발표한 데이터는 현재까지 왓슨의 치료 성적과 관련해서 가장 많은 케이스에 바탕을 두고 있습니다.

이들이 발표한 초록들의 내용을 보면 암종별로 차이가 있기는 하지만 정확도가 기대만큼 높지는 않다고 볼 수 있습니다.

IBM에서 왓슨을 내놓으면서

암 전문의가 많지 않은 지역 병원의 의사가 암 치료 방침에 도움을 받으면서 쓰기에 좋다는 점을

내세웠는데 그러기에는 부족해 보입니다.

그렇다면 Manipal 병원의 연구 결과는 어떻게 보아야 할까요?

 

우선 연구 방법에서 지난 3년간의 환자 사례를 사용한 후향적 연구라는 점이 눈에 띕니다.

연구를 설계한 다음 과거에 있었던 환자 데이터로 연구하는 것을 후향적 연구,

연구 설계 이후 새롭게 오는 환자를 대상으로 하는 것을 전향적 연구라고 합니다.

후향적 연구의 경우 연구자의 편견(bias)가 개입되거나 교란 변수를 통제하기 힘든 등 단점이 있기 때문에

일반적으로 전향적 연구에 비해서 가치를 인정받지 못합니다.

이런 한계때문에 후향적 연구는 질병의 발생과 질병의 원인,

치료 방법과 치료결과의 관계 등 주로 상관관계를 보는 목적으로 실시되는 경우가 많습니다.

(제가 연구가 싫어서 대학병원에서 나온 사람이라 연구 방법론에 대해 자신은 없습니다.

엄밀한 내용은 따로 찾아보시길 권합니다.)

 

그런데 Manipal 병원에서 발표한 초록에서 후향적 연구를 하는 것은

일반적인 후향적 연구에 비해 훨씬 큰 문제가 있습니다.

과거에 결정한 치료 방침과 (왓슨이 제시해 줄 것이라 생각되는) 최신의 치료 방침이

얼마나 일치하는 지를 보기 때문입니다.

Manipal 병원은 지난 3년간 치료한 결과를 사용했는데

항암 치료 방침이 수시로 바뀌는 것은 아니지만 3년이면 상당한 변화가 있었을 것으로 볼 수 있습니다.

특히, 연구 대상 중 하나이며 정확도가 매우 낮게 나왔던 폐암의 경우

최근에 빠르게 치료 방침이 변하고 있어서

2~3년전에 의사들이 제시한 치료 방침을 최신 가이드라인과 비교하는 것은 문제가 있습니다.

과거의 환자데이터를 사용했다고 해도

해당 시점이 아닌 연구 시점에 의사들이 결정한 치료 방침과 비교한다면

훨씬 타당성이 높아질 것입니다.

 

안타깝게도 Manipal 병원 이전에 발표된 초록들은

이와 관련된 점을 명확하게 밝히지 않는 경우가 많습니다.

후향적 연구 여부를 밝히지 않거나 후향적 연구로 짐작할 수 있어도

얼마나 과거에 결정한 치료 방침을 본 것인 지를 밝히지 않는 경우가 대부분입니다.

 

예를 들어 MD Anderson에서 백혈병 치료 방침 결정 성적을 본 초록의 경우

전반적인 정확도가 82.6%로 나왔는데 후향적 연구 여부를 명확하게 밝히지 않았고

(초록 내용에서 후향적 연구로 짐작할 수 있습니다.)

또,  얼마나 과거의 치료 방침을 사용한 것인지도 나오지 않습니다.

2015년 ASCO에서 발표한 한 초록

비교적 최근인 2014년에 진료를 받은 환자를 대상으로 한다는 점을 밝혔는데

후향적 연구라 해도 비교적 최근에 의사들이 내린 결정을 대상으로 하기 때문에

이와 같은 문제가 적다고 할 수 있습니다.

대신에 대상으로 한 환자 수가 20명 밖에 되지 않아서 연구로서의 의미가 떨어집니다.

 

아직 도입되지는 않았지만 국내 암환자를 독식하고 있는 국내 Big4 병원에서 왓슨을 도입한다면

이와 같이 최근에 진료받은 다수의 환자를 대상으로 해서

어느 정도  의미있는 후향적 연구를 할 수 있지 않을까 하는 생각이 듭니다.

 

Manipal 병원의 초록에 나온 치료 성적과 관련해서 생각해볼 또 다른 이슈는

인도의 의료 상황입니다.

Manipal 병원의 다학제 진료팀이 환자의 경제적 상황이나 우리나라 심평원과 같은 조직의 삭감을 고려해서

주로 유렵과 미국에서 발표된 최신 치료 방침과 다른 결정을 내렸을 수도 있습니다.

그렇다면 순수하게 의료적인 내용만을 보는 왓슨의 판단과 차이가 커질 것 있니다.

검색하다 찾은 한 글을 보면 인도에서 항암치료를 받는 환자의 절반 정도가 두세 싸이클의 항암치료 후에

비용 문제 때문에 치료를 중단한다는 언급이 나옵니다.

이런 상황이라면 의료진이 비싼 신약 보다는 싼 항암제 사용을 추천할 가능성이 높아 질 수 있습니다.

그리고 인도에서 의료보험을 관리하는 기전을 알 수 없어 조심스럽지만

우리나라에 왓슨이 들어올 때 의학적 근거에만 기반하는 왓슨이 ‘심평의학’에 적응할 수 있을 지

냉소적으로 보는 시각이 컸는데 인도 역시 의사가 처방한 ‘비싼’ 약을 모두 보험 처리해주지는 않을 것으로

보여 의사들의 결정에 영향을 미칠 가능성이 있어 보입니다.

 

마지막으로 생각해 볼 것은 왓슨을 도입한 병원 의료진이 제시하는 치료 방침과

왓슨을 비교하는 식의 연구 방법이 얼마나 의미가 있는가 하는 점입니다.

왓슨의 주된 용도가 앞서 언급한 것처럼 암 전문의가 많지 않은 지역 병원의 의사가

암 치료 방침에 도움을 받으면서 쓰는 것이 주된 용도라는 점을 생각한다면

왓슨을 필요로 해서 도입한 병원 의료진이 내린 결정과의 일치도를 보는 연구에

큰 의미를 부여하기 힘들 수 있습니다.

참고로 Manipal 병원은 암전문 병원을 표방하기 때문에 의료진의 수준이 나쁘지 않을 것이라 생각하지만

구글에서 인도의 best hospital로 검색해보면 Manipal 병원은 잘 언급되지 않습니다.

그리고 오해를 피하기 위해서 함께 언급하자면 우리나라의 경우 의료 수준이 높기 때문에

현재까지 왓슨을 도입하고 있는 병원에서는 이런 경우에 해당되지 않으리라 생각됩니다.

물론 대신에 왓슨을 도입하는  것이 큰 의료적인 효용이 없다는 뜻이기도 합니다.

 

Watson for Oncology와 관련된 가장 큰 이슈는

치료 성적과 관련해서 정식으로 학술지에 논문으로 게재된 적이 없다는 사실이라고 생각니다.

2011년부터 의료에 적용하기 위한 많은 노력을 해왔고

2013년부터 여러 초록을 발표했으면서 논문을 내놓지 않는다는 점은

그 능력과 관련해서 많은 사람들의 의심을 사기에 충분합니다.

초록은 연구의 내용을 자세히 다루지 않기 때문에 내용을 평가하기에 적절하지 않으며

앞서 살펴본 것처럼 왓슨에 대한 초록들 역시

후향적 연구 여부 등 중요한 연구 방법을 명시하지 않았기 때문에

마찬가지 입니다.

 

따라서 앞으로 왓슨의 정확도를 증명하기 위한 연구를 하고 이를 논문의 형태로 발표하는 것이 필요합니다.

연구의 형태와 관련해서는 일반적으로 전향적 연구를 하는 것이 맞습니다.

전향적 연구에도 여러가지 형태가 있습니다.

우선 치료 성적을 비교하는 연구를 한다면

환자군을 나누어 한 군은 의사의 결정대로 치료하고 다른 군은 왓슨의 결정대로 치료해서

치료 성적을 비교하는 것도 고려할 수 있겠지만

지금까지 왓슨의 성적을 보면 이런 연구는 윤리적으로 허용되기 힘듭니다.

 

그렇다면 왓슨이 의사를 대체하기 보다는 의사를 도와주는 역할을 한다는 IBM 측 주장대로

환자군 한 군은 의사와 왓슨이 협력해서,

다른 군은 의사만이 진료해서 그 결과를 보는 것도 방법일 수 있습니다.

다만 두 군간에 치료 성적 차이가 크지는 않을 가능성이 높기 때문에

유의미한 차이를 보기 위해서는  엄청난 수의 피험자를 모집해야할 가능성이 높습니다.

 

전향적인 연구를 통해 치료 성적을 보는 것이 녹록치 않기 때문에

(기존의 초록들 처럼) 의사가 제시하는 치료 방침과 왓슨이 치료하는 치료 방침의 일치율을 따지는 연구가

불가피 하지 않나 싶습니다.

이때, 전향적으로 새롭게 병원에 오는 환자를 대상으로 해서 실시하는 것이 가장 바람직할 것이고

그렇지 않다면 과거 환자 데이터를 대상으로 하되

의사들이 지금 시점의 가이드라인에 바탕을 둔 치료 방침을 다시 제시하고

이를 비교하는 것이 필요할 것입니다.

물론, 최고 수준의 병원 의료진들이 내리는 판단을 기준으로 해야할 것입니다.

 

이때, 의료진의 역할도 중요하지만 IBM도 더욱 적극적으로 연구 지원에 나서는 것이 필요합니다.

현재까지 IBM이 연구에 어느 정도의 역할을 했는 지 알 수 없지만

논문이 나오지 않고 있는 것을 보면 기대만큼 지원이 충분하지 않다고 의심해 볼 수 있습니다.

구글이 IBM 보다 늦게 인공지능인 딥마인드를 의료에 적용하기 시작했음에도

2016년 11월에 당뇨성 망막병증 진단에 대한 논문을 JAMA에 실었던 것을 참고할 필요가 있습니다.

특히 해당 연구에서 54명의 안과의사로 하여금 망막사진을 판독하도록 하였는데

이는 결국 상당한 인건비를 투자했다는 의미입니다.

IBM도 과거 환자 데이터를 지금 시점에서 판정하도록 하는데  투자하는 것이 필요해 보입니다.

최근 우리나라에서 빠른 속도로 여러 병원들이 왓슨 도입에 나서고 있는데

이들 대부분이 우수한 병원이라는 점을 감안하면

신뢰받을 수 있는 연구를 할 수 있을 것으로 보입니다.

 

Comments

comments

One comment

Leave a Reply

Your email address will not be published.