의료에서의 예측 모델

인공지능의 발전과 함께 여러 회사들이 다양한 모델을 제시하고 있습니다.

주로 관심을 보이는 영역은 영상을 비롯한 병리 등 이미지 판독 (넓은 의미에서 CAD)와

IBM Watson for Oncology와 같은 진료 지원 시스템 (Clinical Decision Support System: CDSS)입니다.

 

아직 그만큼 주목받고 있지는 않지만 최근 몇몇 회사에서 인공지능을 활용한

질병 발생 가능성 예측 모델을 발표하고 있습니다.

엄밀하게 질병 발생 예측이라기 보다는 위험도 계층화 (Risk stratification)이라고 보는게 맞을 것 같은데

위험도 계층화는 사망이나 사건, 질병 발생 위험에 따라서 환자군을 분류하는 기준입니다.

환자의 위험도에 따라서 현재의 치료 방침을 결정하게 되는데 위험이 높을수록

더욱 철저하게 질병을 치료하거나 (대개 부작용 가능성도 높은) 강한 약을 사용하는 것이 추천됩니다.

예를 들어 뇌졸중 발생 위험이 높은 환자는 아스피린 대신 와파린과 같은 혈액 응고 억제재를 쓰게되고

암 재발 위험이 높은 환자는 수술에 더해서 항암치료하는 것이 권장됩니다.

 

위험도 계층화는 장기간에 걸친 관찰로 얻은 데이터를 회귀 분석을 통해서

분석한 결과인 경우가 많습니다.

예를 들어 (협심증, 심근 경색과 같은) 관상 동맥 질환의 경우

미국 메사추세츠주의 Framingham 마을 주민을 대상으로 1948년 부터 이어오고 있는

Framingham heart study의 결과로 만들어진 Framingham risk score를 통해서

10년 이내 심혈관 질환 위험을 추정하고 그에 따라 치료 방침을 결정하게 됩니다.

인공지능이 발전하면서 단순한 회귀 분석에 비해서 더 정확하게 위험 추정을 할 수 있게 되었고

이에 따라서 다양한 위험 예측 모델이 만들어지고 있습니다.

 

최근 몇몇 회사의 위험 예측 모델에 대한 발표를 듣거나 언론 보도를 통해서 보게 되었는데

임상 의사 입장에서 고려했으면 하는 점들이 떠 올라서 정리해 보고자 합니다.

다만, 의료는 워낙 방대하기 때문에 제가 잘 모르는 영역에 대한 이야기는

일부 잘못된 내용도 있으리라 생각됩니다.

또 제 개인적인 의견이기 때문에 일반화하기 힘든 부분도 있을 것입니다.

큰 개념 위주로 봐주시고 개별적인 영역에 대한 설명은 해당 분야 전문가에게

자문을 구하시기를 바랍니다.

 

우선 어떤 결과 지표를 대상으로 할 것인가하는 점에 대해서 생각해 보겠습니다.

대부분의 예측 모델은 특정 이벤트 혹은 특정 질환으로 인한 사망 가능성을 추정합니다.

예를 들어 앞서 살펴본 Framingham risk score의 경우 원래는 십년간 관상동맥질환 발생 가능성을

예측하는 모델이었는데 이후 뇌혈관 질환, 말초 혈관 질환, 심부전 발생 가능성을 추가하여

심혈관 질환 발생 가능성을 예측하는 모델로 확대되었습니다.

일반 인구 집단을 대상으로 하는 경우도 있고

당뇨병이나 암과 같이 특정 질병이 있는 사람만을 대상으로 할 수도 있습니다.

 

이때, 대상 환자군 and/or 결과 이벤트가 구체적일 필요가 있습니다.

모델을 만든 취지는 결국 이를 바탕으로 의료적인 개입을 해서 결과를 향상시키는 것입니다.

광범위한 환자에 대해서 광범위한 결과를 예측하는 경우

어떤 개입을 통해서 결과를 향상시키기가 막연한 경우가 많기 때문입니다.

 

최근 구글에서 인공지능을 활용해서 입원 후 24시간 이내에 사망할 가능성을 95% 정확도로 예측했다

발표한 것이 이에 해당할 수 있습니다.

사망 가능성이 높은 경우 조기에 중환자실로 보내고 의료진이 좀 더 신경써서 관리하는 정도의 개입을

할 수 있을 뿐 어떤 구체적인 개입과 연결하기 힘듭니다.

농담으로 하는 이야기이지만 만약에 24시간 이내에 사망할 가능성을 매우 정확하게 예측해서

의사가 무슨 짓을 해도 돌아가신다면 그 모델은 의미가 없을 것입니다.

(물론 이 경우에도 의사가 자주 받지만 늘 애매하기 힘들었던 질문,

‘(환자 임종을 지키지만 생활에 너무 방해를 받지 않기 위해서) 미국에 있는 둘째 아들보고 언제 비행기

타고 오라고 해야할까요’에 정확한 답을 주기에는 충분할 수 있습니다.)

 

즉, ‘그래서 어쩌라고’에 대한 답이 나와야 합니다.

예를 들어 메이요 클리닉  의료진이 개발한 패혈증 감지 알고리즘 (Sepsis sniffer algorithm)의 경우

(혈액 내로 세균이 들어오는) 패혈증 가능성을 조기에 예측해주는데

이 경우 패혈증 감지에 유용한 혈액 검사를 자주 실시한다던지 조기에 항생제를 쓴다던지 하는 방식으로

구체적인 개입을 할 수 있기 때문에 의료적인 가치가 높다고 할 수 있습니다.

 

예측한 결과의 성격이 애매해 보여도 구체적인 개입과 연관될 수 있습니다.

구글이 개발한 인공지능 예측 모델의 경우 사망 가능성 외에

30일 이내에 재입원 여부, 병원에 얼마나 오래 입원하게 될지 등도 예상할 수 있다고 하는데

애매해 보이지만 구체적인 요인들과 연관지을 수 있습니다.

예를 들어 30일 이내에 재입원하는 가장 큰 요인은

환자가 퇴원 후 약 챙겨 먹는 등의 자가 관리가 잘 되지 않는 점일 것입니다.

따라서 재입원 위험이 높은 경우 집으로 전화하거나 가정 방문 간호사를 파견하는 등의 방법으로

“쪼음으로써” 그 결과를 향상시킬 가능성이 있습니다.

 

(건강 상의 결과가 아닌) 질병 발생 가능성 예측의 경우에도 비슷한 이슈가 있을 수 있습니다.

건강 검진 결과나 건강 관련 정보를 바탕으로 다양한 질병의 발생 가능성을 예측하는

(인공지능을 포함한) 예측 모델이 등장하고 있습니다.

예측 대상 질환은 당뇨, 고혈압과 같은 만성 질환과 암과 같은 심각한 질환으로 나누어집니다.

 

그런데 만성 질환의 경우 예측의 의미가 제한적인 경우가 많습니다.

왜냐하면 만성 질환 발생 위험에 대한 개입 방법은

체중 감량, 식이 조절와 같은 장기간에 걸친 자가 관리가 대부분인데

게으른 인간의 본성때문에 이를 실천하기가 쉽지 않기 때문입니다.

위험을 예측했을 때의 개입 방법이 잘 알려져 있지만 실행하기 힘들어 의미가 제한됩니다.

예전부터 대사 증후군, 당뇨 전단계 (prediabetes) 등 당뇨 발생 고위험 상태에 대한 진단이

이루어지고 있지만 이렇게 진단을 받아도 건강 관리에 나서는  사람은 적은 것이 현실입니다.

만성 질환의 경우에는 질환 발생 가능성을 더 정확하게 알려주는 것 보다는

어떻게 더 효과적으로 개입해서 위험을 줄일 것인지가 더 중요할 수 있습니다.

 

암과 같은 중증 질환은 어떨까요?

중증 질환의 경우 발생 빈도가 낮기 때문에 양성 예측도 (검사 결과가 양성으로 나온 사람 가운데

실제 질병이 발생할 가능성)가 낮다는 문제가 있습니다.

예전에 포스팅한 진단, 검사에 대한 고찰과 첫번째 책인 의료, 미래를 만나다에서 다루었지만

굳이 찾아보기 귀찮아하실 분들을 위해서 다시 정리해 보겠습니다.

 

HIV 검사를 놓고 생각해 보겠습니다.

HIV 선별 검사로 널리 사용되는 ELISA 검사는

민감도 (HIV 감염된 사람 중 검사에서 양성으로 나온 비율)이 99.7%,

특이도 (HIV 비감염된 사람 중 검사에서 음성으로 나온 비율)이 98.5%입니다.

여기에 우리나라 15~49세 인구의 HIV 유병율 0.1%를 적용하고

어떤 이유로 인해 별 이유 없이 백만명의 사람들이 HIV에 대한 ELISA 검사를 받았다고 하면

아래 그림과 같은 상황이 생깁니다.

HIV 검사 결과

여기서 주목할 것은 HIV 검사 양성으로 나온 사람은 총 1만 5,982명이며

이 중 실제 HIV에 감염된 사람은 997명입니다.

즉 이 경우 HIV 검사의 양성 예측도 (검사에서 양성으로 나온 사람 중 HIV에 실제 감염된 사람 비율)

은 997/15,982 =  6.2% 정도밖에 되지 않습니다.

민감도, 특이도가 매우 높은 검사이지만 유병율이 낮은 인구 집단을 대상으로 사용되면

이런 결과가 나옵니다.

개별 검사의 정확도는 민감도와 특이도를 가지고 판단하는데

이렇게 어떤 인구 집단을 대상으로 하는 지에 따라서 양성 예측도는 큰 차이가 나타날 수 있습니다.

건강검진을 받은 일반적인 사람을 대상으로 암 발생 여부를 예측했을 때

암 발생 위험이 높다고 나온 사람들 중 다수는 사실 암 발생 가능성이 그리 높지않을 것입니다.

 

물론 ‘일반인’들은 이런 복잡한 내용은 모르는 경우가 많습니다.

따라서 이 경우 의료적인 의미보다는

암 발생 가능성이 높다는 것을 심각하게 받아들여서

건강 습관을 바꾸도록 유도하는데 사용할 수 있을 것입니다.

 

두번째는 예측 시기에 대한 문제입니다.

앞서 살펴본 ‘결과 지표의 종류’와 마찬가지로 정확도와 개입 가능성에 대한 고려가 필요합니다.

기간이 짧을수록 정확도는 높아질 것입니다.

하지만 의료적으로 의미있는 개입을 할 수 있을 가능성은 줄어들 것입니다.

구글과 같은 24시간 전 사망 예측의 경우 의미있는 개입을 하기에는 늦을 가능성이 있습니다.

예측 모델을 바탕으로 한 임상 시험을 해서 예측 하지 않은 환자 대비 환자의 생존률이 높아졌다는 등의

결과를 입증하기 전에는 임상 현장에서  활용하기에 한계가 있어 보입니다.

 

반대로 기간이 너무 길어지는 경우 발생 위험을 과소 평가하게될 가능성이 높습니다.

의료진이 사용하는 모델의 경우 과소 평가로 인한 위험이 적겠지만

만성 질환과 같이 환자 스스로의 개입이 중요한 경우 이슈가 될 수 있습니다.

 

세번째로 고려할 점은 예측 정확도 향상만으로 진료 현장에서 받아들여지기 쉽지 않다는 점입니다.

단순히 의료인이 보수적인 것만으로 설명하기 힘든 부분이 있습니다.

 

우선 널리 쓰이는 기존의 위험도 계층화 모델이 있는 경우

의료의 기존 시스템과 긴밀하게 엮인 경우가 많기 때문에 그렇습니다.

진료 시에 중요하게 참고하는 가이드라인이나 연구를 할 때 비교 대상이 되는 기존 연구 결과가

모두 기존 모델에 바탕을 두고 있기 때문에 섣불리 새로운 모델을 도입하기가 힘듭니다.

마치 QWERTY 자판이 가장 효율적인 자판이 아님에도 기존에 가장 많은 사람들이 쓰는 자판이라는

이유만으로 널리 쓰이는 것과 마찬가지입니다.

 

반대로 기존의 예측 모델이 진료 현장에서 활용되지 않는 경우에도

더 정확한 새로운 모델의 도입이 여의치 않을 수 있습니다.

그 이유는 여러가지가 있을 수 있는데 제 생각에 가장 중요한 이유는 그럴만 하기 때문입니다.

무책임해 보이는 표현인데 구체적으로는 앞서 살펴본 것과 같이

개입 가능성의 문제,  즉 ‘그래서 어쩌라고’의 문제가 있을 가능성이 높습니다.

어떤 개입을 할 수 있을지가 확실치 않은 상황에서

단순히 ‘기존에 이런 예측 모델이 있었는데 우리가 인공지능을 써서 더 정확한 모델을 만들었습니다’고

이야기 하는 것으로는 부족하다는 것입니다.

 

글을 쓰다보니 이래도 안되고 저래도 안된다는 내용이 되어가는 것 같은데

저에게 ‘그래서 나보고 뭘 만들라는 거냐’고 말씀하실 분들이 있으실 것 같습니다.

 

제가 생각하는 대안 중 하나는 진단 툴이 아닌 커뮤니케이션 툴로서의 예측 모델입니다.

사실 지금까지 다룬 내용은 주로 의사가 활용하는 예측 모델에 대한 것이었습니다.

의사가 약이나 검사를 처방할 때 활용하는 모델이라는 뜻입니다.

하지만 그게 전부는 아닙니다.

환자와 커뮤니케이션 하는 도구로서의 예측 모델이 있을 수 있습니다.

앞서 얘기한 ‘환자를 쪼으는 수단’이 커뮤니케이션 툴의 한가지 형태일 것입니다.

 

예전 포스팅 진단, 검사에 대한 고찰의 마지막 부분에서 이에 대해서 다루었는데

핵심이 되는 부분만 간단히 인용해 보겠습니다.

 

체지방 측정기인 인바디가 대표적인 사례인데

동아비지니스리뷰 잡지에 실린 인바디 케이스 스터디에 보면 이런 내용이 나옵니다.

인바디는 … 건강검진센터를 주로 공략했다

인바디를 사용하면 신체 부위별 체성분 분석이 가능하므로

환자와 의사 간 이야깃거리가 훨씬 많아진다는 점을 특히 강조했다

예를 들어, “전체적으로 건강하시긴 한데 복부 비만이 좀 있으시네요

하체가 많이 부실하신데요다리 운동에 좀 더 신경 쓰셔야 할 것 같아요” 

좀 더 구체적으로 상담할 수 있어

건강검진에 대한 고객들의 만족도를 높일 수 있다고 병원을 설득했다

 

커뮤니케이션 도구로서의 효용을 인식하게 되면서 인바디는 기기 개발 못지 않게 검사 결과지를

소비자와 커뮤니케이션 하는 도구로 잘 사용할 수 있도록 하는데 노력을 기울였다고 합니다.

 

즉, 인바디는 예측 정확도를 높이는 것 못지 않게 그 결과를 (주로 의사나 의료진이) 환자에게 어떻게

전달할 수 있을 지에 초점을 맞추어 성공을 거두었다는 것입니다.

앞서 살펴본 암 발생 가능성 예측의 경우 예측 정확도가 다소 떨어진다고 해도

사람들이 심각하게 받아들이는 질병인 만큼 환자에게 의미있게 전달할 수 있을 것입니다.

당뇨병 발생의 경우 지금 가지고 있는 나쁜 습관 가운데 한가지를 바꿀 때마다

당뇨병 발생을 줄일 수 있는지를 보여주는 등의 방법을 통해서

의사가 환자와 의미있는 의사소통을 하도록 도울 수 있을 것으로 보입니다.

 

질병과 관련된 예측 모델 개발과 관련된 고려 사항을 몇가지 적어보았습니다.

정리하면 의료진이 주 대상인 모델의 경우 ‘그래서 어쩌라고’에 대한 답이 중요합니다.

그 답을 확실히 하기 위해서는 구체적인 상황에 대한 모델을 만들거나

궁극적으로 해당 모델을 활용해서 진료하는 경우 성적이 좋아진다는 것을 입증하는 것이 필요합니다.

환자를 대상으로 하는 경우 ‘그래서 어쩌라고’에 대한 기대가 덜한 경우가 많습니다.

특히 커뮤니케이션 툴로서의 가치를 적극적으로 고려할 필요가 있습니다.

이 경우에도 단순히 어떤 예측 결과만을 제시하기 보다는

가급적 환자가 구체적으로 무엇을 해야하는 지에 대한 가이드를 함께 제시하는 것이 중요할 것입니다.

Comments

comments

Leave a Reply

Your email address will not be published.