Big Data
Big Data

‘저희는 데이터를 모읍니다’에 대한 고찰

이런 저런 기회에 디지털 헬스케어를 포함한 스타트업 분들을 만나게 됩니다.

제품에 대한 이야기를 나누다가

비지니스 모델이 잘 안나올 것 같은 경우로 생각되어

앞으로 무엇을 할 것인가하고 물으면

많은 분들이 ‘저희는 데이터를 모을 것입니다’라는 이야기를 합니다.

인공지능, 딥러닝이 핫해진 이후로 이런 이야기를 자주 듣는 것 같습니다.

현재 제품의 효용은 제한적이지만 모은 데이터를 인공지능으로 돌려서

어떤 가치를 만들어 내겠다는 의미로 보입니다.

 

그냥 그렇구나 하고 넘어가곤 했는데

다시 곰곰이 생각해 보면 모은 데이터가

회사 분들이 생각하는 만큼의 가치가 있을까 하는 생각이 들게되는 경우가 있습니다.

해당 사용자에게 자신의 데이터를 보여주는 정도의 의미는 있지만

많은 사용자의 데이터를 모음으로써 추가적인 가치가 만들어지지

않는 경우가 많아 보였습니다.

 

구글 검색의 경우 더 많은 사용자가 검색하고

구글이 내놓은 검색 결과 중 마음에 드는 것을 고르면서

검색 정확도가 높아집니다.

그렇기 때문에 네트워크 효과가 생기게 되어

빨리 많은 고객을 확보한 쪽이 앞도적으로 유리해 집니다.

이를 데이터 네트워크 효과 쯤으로 볼 수 있습니다.

이 경우 전체 데이터의 가치는 개별 데이터의 총합을 넘어설 수 있습니다.

 

그런데 많은 스타트업들 특히 디지털 헬스케어, 사물 인터넷을 하는 회사들이

데이터를 수집할 때 사용자가 많아져도 기존 사용자가 누리는 가치가

늘어나지 않을 것 같은 경우가 자주 보입니다.

데이터 네트워크 효과가 없으면

‘사용자 증가 -> 데이터 증가 -> 사용자 가치 증가 -> 다른 사용자 유입’으로

이어지는 선순화 구조가 만들어지지 않기 때문에

사업 확장 속도가 느리고 선발 주자로서의 장점이 희석될 가능성이 높습니다.

또, 전체 데이터의 가치는 개별 데이터의 총합 수준에 머물게 됩니다.

 

처음 이 글을 쓰기 시작했을 때 데이터 네트워크 효과라는 말을 들어본 적이 없어서

제가 처음 만들어낸 표현인가 하는 생각을 했는데

구글에 검색해 보니 (아니나 다를까) 이말을 쓰는 분들이 있었습니다.

Firstmark capital이라는 VC에서 일하는 Matt Turck라는 분이 작년 1월

개인 블로그에 The Power of Data Network Effects라는 글에서 다룬 것이

효시가 아닌가 싶습니다.

이 글에서는 데이터 네트워크 효과를 이렇게 정의하고 있습니다.

데이터 네트워크 효과는 보통 기계 학습의 도움을 받아서 제품이 사용자로부터

더 많은 데이터를 얻을수록 더 똑똑해 지는 것을 의미한다.

바꾸어 말하면, 더 많은 사용자가 제품을 더 많이 사용해서

더 많은 데이터를 제공하게 되면 제품이 더 똑똑해지는 것을 말한다.

 

이런 데이터 네트워크 효과에 대해서 살펴보고자 합니다.

우선 데이터 분석 툴로 중요성이 점점 커지고 있는 인공지능의 특성에

대해서 살펴 보겠습니다.

인공지능의 중요한 부분인 기계 학습은 크게 아래의 세가지로 나뉩니다.

  • Supervised learning: 데이터가 있고 그에 대한 해답이 있어 이를 학습시킴
  • Unsupervised learning: 데이터만 있고 해답은 없는 상태로 비슷한 것끼리 모으는 Clustering 등 실시
  • Reinforcement learning: (정답은 없지만) 목표를 제시하여 이를 달성하도록 학습시킴

이들 가운데 많은 회사들이 적용하고 있는 분야는 Supervised learning입니다.

답을 제시하고 학습시키기 때문에 학습 성능이 우수합니다.

답을 모으는 것이 생각보다 수월치 않고 경우에 따라서 많은 비용이 들어가기 때문에

답이 필요없는 unsupervised learning에 대한 연구가 활발하게 이루어지고 있지만

아직은 본격적으로 제품 성능 향상에 이용될 정도는 아닌 것 같습니다.

그리고 Reinforcement learning은 단기간에 목표 달성 여부를 확인 가능한 경우에

적용이 용이하다는 한계가 있어서 알파고가 바둑을 학습하는데 이용되었습니다.

그리고 자율주행차도 이를 통해서 학습을 하고 있습니다.

 

현재 Supervised learning이 주로 이루어는 점을 감안할 때

인공지능의 학습을 통해서 제품의 성능을 향상시키기 위해서는

기본적으로 ‘답’을 알 수 있어야 한다고 볼 수 있습니다.

 

답이 필요하고 주어지는 경우

앞서 구글 검색을 언급했는데

구글, 페이스북, 아마존 등 테크 기업들은

사용자의 취향 (검색 결과, 마음에 드는 상품이나 영화 등)에 대한 데이터를 수집합니다.

구글은 검색 결과, 페이스북은 뉴스피드, 아마존은 쇼핑 추천을 제시하는데

이 가운데 사용자가 선택한 것을 정답으로 볼 수 있습니다.

이를 인공지능에 학습시키면 어떤 특징을 가진 소비자가

어떤 것을 선호할 지를 예측하는 것이 가능해 집니다.

더 많은 사용자가 사용할 수록 더 많은 취향 데이터를 수집할 수 있으며

이를 통해서 더 정확하게 추천해줄 수 있게 됩니다.

이렇게 소비자 취향과 관련된 서비스를 제공하는 경우

소비자가 제품을 쓰는 과정을 통해서 자연스럽게 ‘답’이 만들어지기 때문에

별다른 어려움 없이 이를 수집할 수 있게 됩니다.

 

비슷한 또 다른 경우로 상담 서비스가 있습니다.

예를 들어 다이어트 앱인 눔의 경우를 생각해 보겠습니다.

(저는 이 회사의 자문을 하고 있습니다.)

눔은 앱의 메신저를 통해서 전문 코치가 다이어트와 관련된 조언을 제공해줍니다.

이때 코치의 조언을 일종의 ‘답’으로 볼 수 있습니다.

사용자가 남긴 이야기와 코치가 조언한 내용을 인공지능으로 학습시키면

사용자에게 어떤 조언을 해주는게 좋을 지를 알려줄 수 있을 것입니다.

이렇게 학습이 진행될 수록 코칭의 효율이 높아지 수 있습니다.

초기에는 코치 한명이 60여명의 회원에게 코칭을 제공할 수 있었는데

효율이 높아지면서 지금은 코치 한명이 220명에게 코칭을 제공할 수 있게 되었습니다.

이 경우도 코칭이라는 서비스의 흐름 속에서 자연스럽게 답이 주어지는 것으로 볼 수 있습니다.

 

명함 관리 서비스인 리멤버도 여기에 해당합니다.

리멤버는 명함을 앱에 입력해주는 서비스입니다.

사람이 직접 입력하기 때문에 정확하다는 장점을 내세워

큰 인기를 끌고 있습니다.

OCR (optical character recognition·광학 문자 판독) 방식을 사용해서 1차 입력한 내용을

사람이 점검하고 수정하는 방식으로 이루어지는데

사람이 수정한 내용이 ‘정답’으로 작용하게 됩니다.

OCR로 입력한 것을 사람이 수정한 내용을 인공지능에 학습시키면

OCR 판독 정확도가 점차 향상되어

점차 사람이 개입할 필요가 적어질 것입니다.

 

디지털 헬스케어, 사물 인터넷 영역에서는

어떤 수치를 측정하고 이에 바탕을 두고 중재를 가하는 경우가 해당됩니다.

코웨이에서 개발중인 매트리스를 생각해 보겠습니다.

센서로 수면 시 호흡수·심박수·뒤척임·수면시간 등의 측정해

수면 패턴과 수면 중 발생한 현상 등을 분석합니다.

이에 바탕을 두고 매트리스 형상 및 경도를 자동 조절해

좀 더 편안한 수면을 취할 수 있도록 도와준다고 합니다.

이때, 스마트 매트리스를 통해서 수집할 수 있는 데이터는

  • 수면 패턴 및 수면 현상 (과정 변수)과
  • 매트리스 형상 및 경도 (중재 혹은 개입)
  • 매트리스 조절에 따른 수면 양상 변화 (결과 변수)

로 나눌 수 있습니다.

여기서 과정 변수와 결과 변수는 기본적으로 동일한 데이터이지만

‘중재’에 대한 내용이 개입되면서 과정과 결과로 나누어 볼 수 있습니다.

이 데이터로 인공지능을 학습시키면

사용자가 늘어나서 데이터가 늘어날 수록

맞춤형 수면 관리가 가능해질 것입니다.

 

(제가 자문하는) 웰트 스마트벨트도 여기에 해당합니다.

웰트는 다른 웨어러블과 마찬가지로 걸음걸이 수(과정 변수)를 측정합니다.

그리고 벨트는 허리둘레를 측정할 수 있기 때문에

결과 지표를 함께 수집할 수 있습니다.

기본적으로 걸음걸이 수가 늘면 허리 둘레가 줄어들 것이지만

어느 정도 걸을 때 어느 정도로 줄어들 수 있을 지 등

두 데이터간의 정밀한 관계는 아직 밝혀져 있지 않습니다.

두 데이터를 딥러닝을 통해서 학습을 시키면

개인별 맞춤 건강 관리에 도움이 될 수 있습니다.

 

이렇게 제품 사용 과정에서 자연스럽게 답을 수집하는 게 되면

인공지능을 통해서 사실상 실시간으로 제품 성능을 향상시킬 수 있습니다.

이때, 데이터 네트워크 효과를 통해서

사용자 증가가 제품 성능 향상으로 이어져

다시 새로운 사용자를 유입할 수 있게되는 선순환 구조가 생겨나게 되어

회사는 빠르게 성잘할 수 있을 것입니다.

 

이렇게 답이 자연스럽게 주어지지 않는 경우는 어떻게해야 할까요?

특히 사물인터넷, 디지털 헬스케어 영역에서 이런 경우가 많습니다.

 

답이 주어지지 않아 답을 추가하는 경우

의료 인공지능으로 유명한 IBM Watson for oncology(이하 WFO)와 관련해서

길병원에서 국내 최초로 도입한 후 나온 이야기 중 하나가

IBM에 사용료 내고 환자 데이터도 주면 손해 아니냐는 것입니다.

그런데 과연 WFO을 만든 IBM 입장에서 길병원 환자 데이터는 어떤 가치가 있을까요?

우선 전제가 되는 것은 길병원의 경우 WFO과 EMR이 연동되지 않는다는 점입니다.

이후에 WFO을 도입한 다른 병원들도 비슷할 것으로 봅니다.

이 경우 WFO을 사용하기 위해서는 EMR에 있는 환자 데이터를 수동으로 입력해야 합니다.

WFO가 이에 바탕을 두고 암 치료 방침을 제시해주며

의료진은 그 내용을 환자에게 설명하고 상의하여 최종 치료 방침을 결정하게 됩니다.

이 때 의료진은 굳이 WFO에 최종 결정한 치료 방침을 입력할 필요가 없습니다.

WFO은 암 환자의 특성 데이터는 수집했지만 그에 따른 답을 알지 못합니다.

이렇게 모은 데이터는 WFO 학습에 사용하기 힘듭니다.

‘사용자가 많아져 데이터가 늘어날수록 WFO의 수준이 높아진다’는 명제가 성립하지 않게 됩니다.

 

WFO가 답을 (=해당 병원에서 최종 결정한 치료 방침) 알 수 있다고 해도

가치를 부여하기가 힘듭니다.

그게 믿을 수 있는 답이라는 확신이 없기 때문입니다.

WFO 자체가 의학 교과서와 논문을 바탕으로 해서

뉴욕의 메모리얼슬론케터링 암센터 (MSKCC) 의료진의 판단을 학습한 결과물인데

애당초 MSKCC 의료진의 판단은 모두 맞는 것이냐는 지적을 비켜가기 힘듭니다.

그런데 WFO를 사용하는, 즉 MSKCC보다 의료 수준이 떨어질 가능성이 높은, 병원에서

제시한 치료 방침을 온전히 정답으로 신뢰하기는 힘들 것입니다.

(주의: 길병원을 비롯해 WFO를  도입한 국내 병원의 의료 수준을 비하하려는 것이 아니지만

그렇게 비칠 것 같습니다. ㅠㅠ)

IBM 입장에서는 WFO를 사용하는 병원이 입력한 결과를 바탕으로 학습시켰을 때

오히려 알고리즘의 수준이 저하될 가능성을 걱정해야 할 수 있습니다.

 

많은 회사들이 관심을 가지고 있는 딥러닝을 활용한 영상 판독 역시 마찬가지입니다.

아직 진료 현장에서 사용할만한 제품이 나온 것은 아니지만

이런 판독 시스템은 믿을 수 있는 해답이 달린 정제된 데이터의 학습을 통해서 만들어집니다.

판독 시스템이 출시된 후 해당 제품을 쓰는 사용자들이 인공지능의 도움을 받아서 판독하고

입력한 결과는 신뢰할 수 없기 때문에 제품의 정확도 향상에 쓰기는 힘들다고 보는게 맞을 것 같습니다.

인공지능 판독 시스템의 업그레이드는 일부 유명 대학병원과의

지속적인 협업을 통해서 이루어질 가능성이 높습니다.

 

의료 인공지능, 특히 의료인을 대상으로 하는 인공지능은

이렇게 더 많은 사용자가 제품을 사용한다고 해서

자동으로 제품 성능이 향상되지 못하며

별도의 학습 과정이 필요합니다.

이는 의료에서 수집해야 하는 ‘정답’의 성격이

일반적인 테크 기업들이 대상으로 하는

소비자 대상 제품이나 서비스와 다르기 때문일 것입니다.

 

앞서 살펴본 것처럼 테크 기업들은

사용자의 취향 (검색 결과, 마음에 드는 상품이나 영화 등)에 대한 데이터를 수집합니다.

이때 사람들이 해당 서비스를 사용한 결과를 해답으로 볼 수 있습니다.

이를 인공지능에 학습시키면 어떤 특징을 가진 소비자가

어떤 것을 선호할 지를 예측하는 것이 가능해 집니다.

 

이에 비해 의료에서의 인공지능, 특히 의료인이 사용하는 인공지능은

일반적인 의료인이 알만한 지식이 아닌

이를 뛰어넘는 수준의 지식을 학습해야 합니다.

그 지식은 최고 수준의 전문가들이 내리는 판단인 경우가 많습니다.

의료인이 사용하는 인공지능은 네트워크 효과가 없는 경우가 많다고 볼 수 있습니다.

따라서 인공지능 사용자를 많이 확보하는 것 못지않게

지속적으로 시스템 업그레이드를 함께할 파트너를 확보하는 것이 중요합니다.

 

의료에서의 인공지능이 데이터 네트워크 효과를 갖기 위해서는

‘해답’을 수집할 방법을 생각해 보아야 합니다.

예를 들어 영상 판독 시스템이 전자 의무 기록 (EMR)과 연동된다고 가정해 보겠습니다.

X-ray에서 폐암을 진단하는 판독 시스템이 있다면

이는 유명 대학병원과의 협업을 통해서 만들어졌을 것입니다.

제품으로 출시되어 일반 종합 병원에서 이를 사용할 때

영상 정보와 그 병원에서 일하는 의사가 판독한 결과를 수집하는 것으로는

시스템의 성능을 향상시키기 힘듭니다.

이때 암 진단을 확정할 수 있는 조직 검사 결과를 함께 수집할 수 있다면

이는 유명 대학병원 의사의 ‘의견’ 보다 훨씬 정확한 정답이 될 것입니다.

 

이렇게 외부 시스템과의 연동을 통해서 의미있는 ‘정답’을 확보할 수 있습니다.

애플, 삼성 등 대기업들이 앞다투어 디지털 헬스케어 플랫폼 구축에 나서면서

데이터의 결합을 통해 다양한 ‘정답’을 확보하는 것이 가능해 질 수 있습니다.

문제는 생각보다 플랫폼 구축 속도가 빠르지 않다는 점입니다.

게다가 개별 회사 입장에서는 플랫폼에 데이터를 넘겨주기는 하지만

다른 회사 제품이 측정한 데이터를 넘겨 받는 것은 여의치 않을 수 있습니다.

따라서 디지털 헬스케어 회사들은 향후 상당 기간

독자적으로 의미있는 ‘해답’에 해당하는 데이터를 확보하는 것이 필요합니다.

 

소비자 대상 제품의 경우

소비자로 하여금 ‘답’을 입력하도록 할 수 있습니다.

육아 앱으로 유명한 열나요의 사례를 생각해 보겠습니다.

 

아이들이 열났을 때 체중 등 기본적인 정보와 함께 체온을 입력하면

해열제 사용 등 대처 방안을 알려줍니다.

그리고 해열제를 쓰고 나서의 체온을 입력하면

해열제를 더 쓸 것인지 등 이후의 대처까지 알려줍니다.

 

이렇게 수집한 데이터를 어떻게 활용할 수 있을까요?

우선 사용자가 해열제를 사용해서 충분히 열이 떨어졌을 때까지 체온 데이터를 잘 입력했다면

체온 데이터가 과정 변수이자 결과 변수가 될 수 있습니다.

그리고 사용한 해열제의 종류와 양이 문제 해결을 위한 중재 (intervention)이 됩니다.

즉, 열나요 앱이 수집한 데이터는

  • 열나는 패턴 및 함께 발생한 증상 (과정 변수)
  • 해열제의 종류 (중재 혹은 개입)
  • 해열제만으로 열이 떨어진 경우/ 그렇지 않는 경우 (결과 변수)

로 나누어 생각해 볼 수 있습니다.

이 데이터를 잘 학습시키면

열나는 패턴에 따라서 어떤 해열제를 쓰는게 좋을지

또는 열나는 패턴에 따라서 해열제에 잘 들을지 그렇지 않을지를

알 수 있을지도 모릅니다.

하지만 기존 의료 지식을 가지고 보면

현실적으로 이것만으로 의학적으로 의미있는 결과가 나오지 않을 가능성이 높아 보입니다.

따라서 체온 정보를 과정 변수로 하고

다른 결과 변수와 함께 살펴보는 것을 고려해야 합니다.

 

현재 열나요 앱은 위의 데이터에 더해서

아이가 진료를 받고나서 어떤 진단을 받고

어떤 약을 처방받았는 지를 기록하도록 되어 있습니다.

굳이 번거럽게 그런 정보를 입력하는 사람의 비율이 많이 높지는 않지만

앱 사용자 수를 늘리고 데이터 수집 기간을 늘리면

충분히 의미있는 결과 변수를 확보할 수 있습니다.

이런 결과 변수와 체온 정보, 해열제를 먹었을 때의 반응 간의 상관 관계를 분석하면

어떤 발열 특성이 있을 때 독감이 원인일 가능성이 높은 지에 대한 알고리즘을

만들어 낼 수 있을 것입니다.

실제 열나요는 이런 작업을 진행하고 있는데

만들어진 알고리즘의 민감도, 특이도에 따라서 (저의 앞 포스팅 참조)

발열 특성과 증상을 가지고 독감 가능성이 높은 지 혹은 독감이 아닐 가능성이 높은 지를

어느 정도 정확하게 이야기하는 것이 가능할 수 있습니다.

 

웨어러블의 경우에도 학습을 위한 추가 데이터 수집이 필요합니다.

웨어러블은 걸음걸이 수 정도를 측정하는 경우가 많은데

이 것만으로 인공지능 학습을 통해 가치있는 알고리즘을 만들어내기 힘듭니다.

만약 소비자가 체중 데이터를 입력한다면 이는 의미있는 결과 지표가 될 수 있습니다.

예를 들어 어떤 특징을 가진 사람은 어느 정도 걸음을 걸으면

어느 정도 체중을 감량할 수 있는 지를 알게 되어

사용자의 적절한 운동을 독려할 수 있을 것입니다.

이때 체중은 소비자가 앱에 직접 입력하거나

전자 체중계와의 데이터 연동을 통해서 얻을 수 있을 것입니다.

 

문제는 과연 소비자들이 얼마나 열심히 ‘정답’을 입력해줄까 하는 점입니다.

열나요 앱을 쓰는 사람들 중에 적지 않은 사람들은

병원에 가기 전에 자가 진단 및 대처를 위한 도구로 쓸 가능성이 있는데

병원에 갔다 온 다음에 굳이 앱을 열어서 어떤 진단을 받고

어떤 약을 처방받았는 지를 입력하지 않을 가능성이 있습니다.

 

소비자가 당장 필요성을 느끼지 않는 데이터를 입력하게 만드는 것은

쉽지 않습니다.

열나요의 경우 진단명을 입력한 비율은 예상보다는 높았는데

이는 병원에 가서 약을 처방받아서 복용해도

바로 열이 떨어지지는 않는 경우가 많아서

의사의 진료 이후에도 열나요를 사용하는 경우가 있기 때문입니다.

 

소비자 대상 디지털 헬스케어에서 추가 데이터의 수집은

보통 앱을 통해서 이루어지게 됩니다.

다른 앱과 소비자의 관심과 시간을 놓고 경쟁해야 하는 상황에서

소비자로 하여금 추가로 데이터를 입력하게 만드는 것은

앱의 사용성을 떨어뜨려서 결국 앱 사용을 포기하게 만들 가능성이 높습니다.

따라서 앱 제작 초기부터 어떤 ‘해답’을 얻을 것인가를 고민하고

이를 소비자가 자연스럽게 입력할 수 있도록 하는 것이 중요합니다.

(물론 말로는 쉽지만 실제 이렇게 하는 것은 여전히 어려운 일입니다.

무책임 죄송)

 

그나마 열나요와 같은 디지털 헬스케어 앱은

앱 자체가 핵심 상품이기 때문에 이를 쓰는 과정에서

자연스럽게 데이터를 입력할 가능성이 있습니다.

이에 비해서 하드웨어 제품의 경우 굳이 앱을 열어보지 않는 경우가 많아서

앱에 데이터까지 입력하는 소비자의 비율은 훨씬 낮을 것입니다.

하드웨어 회사들은 하드웨어로 측정한 값을 제공하는 데 머물지 않고

앱을 통해서 유용한 가치를 제공함으로써 더 많은 소비자가 앱을

사용하도록 만들어서 그중 일부가 ‘해답’을 입력하게 만드는 것이

필요할 수 있습니다.

 

별도의 답이 없어도 되는 경우

수집한 데이터가 과정 변수이자 결과 변수가 된다면

해답을 따로 고민할 필요가 없어집니다.

작년 CES에서 IBM 왓슨과 메드트로닉이 공동 발표한

지속형 혈당 측정계 (Continuous glucose monitor: CGM) 사용자에서

저혈당 발생을 예측하는 알고리즘을 생각해 보겠습니다.

 

메드트로닉은 많은 환자들의 CGM 데이터를 수집할 수 있습니다.

이를 왓슨으로 분석해서 저혈당 발생 전에 나타나는

특징적인 혈당 변화를 찾아냈습니다.

이 경우 혈당치라는 단일한 데이터를 저혈당 발생 전 변화 (과정 변수)와

저혈당 발생 (결과 변수)로 나누었다고 할 수 있습니다.

이렇게 되면 단일한 데이터로 충분히 인공지능을 학습시킬 수 있습니다.

 

수집하는  연속 데이터의 범주를 확장시킨다면

좋은 결과를 얻을 가능성이 높아질 것입니다.

의료 인공지능 분야의 대표적인 회사 중 하나인 뷰노가

얼마 전에 세종병원과 함께 발표한 심정지 발생 전 예측 알고리즘이 여기에 해당합니다.

입원 환자의 호흡수, 심장박동수, 산소포화도, 혈압 등의 생체신호를 분석해서

24시간 후에 심정지 발생 가능성이 높은 경우를 알려줍니다.

이 경우 호흡수, 심장박동수, 산소포화도, 혈압 등의 생체 신호는

과정 변수이자 결과 변수로 작용합니다.

(심정지 때 이들 수치는 0이 될 것입니다.)

이런 알고리즘은 심장의 전기적인 움직임을 측정하는

심전도 하나의 변수만으로도 어느 정도 구현하는 것이 가능할 수 있어 보이는데

이렇게 많은 연속 변수를 사용함으로써 정확도를 높일 수 있을 것입니다.

 

특수한 경우이기는 하지만 명함 관리 앱 리멤버의 경우

별도의 해답이 없이도 효율을 향상시킬 수 있는 측면이 있습니다.

리멤버는 앞서 살펴본 것처럼 타이피스트가 입력하는 과정을 통해서

OCR 판독 정확도를 높일 수 있는데

또 다른 방식으로 효율을 높일 수 있습니다.

OCR 기술을 활용해서 입력 요청이 들어온 명함이

이미 입력된 명함과 같은 것이면 컴퓨터가 자동으로 입력할 수 있게 한 것입니다.

이 경우 해답없이 데이터 수집만으로 효율을 높인 것으로 볼 수 있습니다.

실제 리멤버는 과거에는 명함 입력 완료까지 평균 2~3시간 정도가 걸렸지만,

평균 15분 정도로 대기 시간을 줄일 수 있었다고 합니다.

 

기타 데이터 네트워크 효과

지금까지는 어느 정도 ‘정답’의 성격이 드러난 경우를 살펴보았는데

그렇지 않아서 사람이 개입해서 분석을 하는 경우를 생각해 보겠습니다.

 

우선 데이터에 컨텍스트를 추가하는 것을 고려할 수 있습니다.

예전 포스팅 디지털 헬스케어 데이터의 해석과 활용에서 다루었던 내용을

다시 살펴보겠습니다.

 

웨어러블 데이터를 활용하면 사용자가 움직이는 패턴을 알 수 있습니다.

이를 시간대 별로 놓고 보면 몇시에 어떤 맥락의 행동을 하는 지 짐작할 수 있을 것입니다.

Activity tracking

위의 그림은 저의 하루 활동량 시계열 자료입니다.

7시경에 출근해서 점심시간 전에 걸어다니면서 일을 하고

점심 식사는 밖에 나가서 한 후 오후 내내 앉아서 일하다가 6시경 퇴근했다고 이야기할 수 있을 것입니다.

다양한 센서가 수집한 정보를 더하는 경우

사용자가 어떻게 살고 있는 지에 대한 자세한 맥락을 읽어내는 것이 가능할 것입니다.

만약 제가 병원 밖에서 점심 식사를 하기로 하고 병원 밖으로 나가고 있다는 사실을 알 수 있다면

주위 식당에서 할인 쿠폰을 보낸다던 지 하여 제 발걸음을 이끌 수도 있을 것입니다.

식당에 설치한 비콘을 통해서 식당 인근에 있을 때 유도하는 방법도 있겠지만

활동량 측정계 데이터는 병원 건물을 나설 때 쯤  그 사실을 알고 대응할 수 있게 해줄 것이기 때문에

보다 먼저 고객을 이끌 수 있을 것입니다.

 

컨텍스트 파악과 관련하여 흥미로운 또 다른 사례는

지진이 발생했을 때 인근 지역에서 활동량 측정계 조본 사용자들에게 나타난 데이터입니다.

2014년 8월 새벽 샌프란시스코 인근에 진도 6.0 규모의 지진이 발생하였습니다.

조본에서는 사용자들의 당일 수면 데이터를  정리하여 공개하였습니다.

지진 발생 직전 샌프란시스코 인근 주민 90%가 수면중이었고

새벽 3시 20분에 지진 발생 당시 상당 수 주민이 잠에서 깨었습니다.

진앙에서의 거리에 따라 3개 지역으로 나누어 보면

가장 가까운 지역 주민은 거의 80%가 잠에서 깨었고 거의 절반이 다시 잠들지 못했습니다.

가장 먼 지역 주민은 20% 정도가  잠에서 깨었습니다.

지진계를 통해서 지진의 정확한 위치와 발생 시간, 세기를 알 수 있기 때문에

지진 발생 여부를 알기 위해서 활동량 측정계의 수면 데이터를 사용할 필요는 없습니다.

하지만 특정 지역 주민이 갑자기 잠에서 깨어났다는 사실을 실시간으로 알 수 있다면

무엇인가 큰 일이 벌어졌다는 것을 짐작할 수 있고

그 지역에 경찰을 보내거나 CCTV 감시를 강화하여

어떤 문제가 생겼는 지 조사에 나서는 계기가 될 수 있을 지도 모르겠습니다.

 

이런 컨텍스트는 인공지능만으로 파악하기는 힘듭니다.

따라서 사람이 개입하여 컨텍스트를 부여하는 것이 필요합니다.

그렇기 때문에 인공지능을 통한 실시간 데이터 분석은 힘들지만

학습시킬 ‘답’이 없는 상태에서 유효한 대안이 될 수 있을 것입니다.

 

다음으로는 다소 특수한 경우이기는 하지만

스마트폰 GPS로 수집한 위치 정보를 결합시켜서

가치를 만들어낼 수도 있습니다.

앞서 살펴본 열나요 앱을 놓고 생각해 보겠습니다.

매우 많은 부모들이 앱을 사용하게 되면

열나는 아이들의 빈도가 높은 지역을 알 수 있게 될 것입니다.

만약 거주 지역 근처에 열나는 아이들이 많다면

아 우리 동네에 감기 같은 것이 돌고 있으니 애를 조심시켜야 하겠구나

하고 알 수 있을 것입니다.

그리고 여기에 부모들이 입력한 진단명 데이터가 합해진다면

우리 동네에 수족구에 걸린 애들이 많던데

우리 애가 열나는 걸 보니 수족구를 의심해야할 지도 모르겠구나하고

생각할 수도 있을 것입니다.

 

제 책에서 다루었던 스마트 체온계 회사 킨사(Kinsa)의 경우

이를 한단계 더 진화시켰다고 할 수있습니다.

킨사는 FDA 승인을 받은 스마트 체온계로 소매가가 29달러 99센트이다.

이 회사는 플루언시(Fluency )프로그램을 통해 선정된

20개 유치원과 초등학교 학생의 가정에 체온계를 무료로 보내줍니다.

체온 데이터를 익명 처리하고 학교 단위로 종합해 제공함으로써

부모들은 학교에 열나는 아이가 많은지 알고 자녀 건강 관리에 신경을 쓸 수 있게 해줍니다.

 

물론 열나요와 킨사의 사례는

동일 지역내에서 전파될 수 있는 감염병을 대상으로 하기 때문에

이렇게 지역 정보가 의미를 가질 수 있습니다.

따라서 다소 예외적인 경우이기는 하지만

다른 회사들도 스마트폰을 통해서 자연스럽게 수집할 수 있는 데이터에

관심을 가질 필요가 있습니다.

 

기존에 의학적으로 잘 알려지지 않은 사실을 측정하는 경우

사용자가 많아져서 해당 사실의 분포를 알 수 있는 것만으로도

가치가 있을 수 있습니다.

스마트 생리컵인 룬컵이 여기에 해당할 수 있습니다.

생리량의 정상 범위는 의학적으로 어느 정도 알려져 있지만

인종간 국가간에 상당한 차이가 날 수 있어서

일반적으로 적용하기는 애매할 수 있습니다.

또, 생리대나 탐폰을 쓰는 여성들은 정확한 생리량을 알기 힘들어서

대강 추정하고 넘어갈 가능성이 높습니다.

따라서 생리컵을 사용해서 많은 여성들의 정확한 생리량과

그 변동을 알 수 있다면

여성의 생리가 정상 범위 안에 있는지 무엇인가 이상이 있는지를

추정하는 것이 가능할 수 있습니다.

이렇게 정상의 분포를 알고자 하는 경우 굳이 내 데이터를 제공하지 않고

남들이 내놓은 데이터를 보고자 하는 무임 승차가 있을 수 있습니다.

하지만 생리컵을 쓰지 않는 여성은 자신의 생리량을 제대로 알기가 힘들기 때문에

이 경우에는 그런 무임 승차를 예방할 수 있을 것입니다.

 

지금까지 데이터 네트워크 효과에 대해서 살펴보았습니다.

제가 인공지능 및 데이터에 대한 전문가가 아니기 때문에

잘못생각한 부분이 있을 지도 모르겠습니다.

또, 업계에 계신 분들은 다 알고 있는 것을

길게 늘여쓰기만 했다고 생각하실 지도 모르겠습니다.

 

중요한 것은 많은 스타트업들이 주장하는 것처럼

막연히 모은 데이터에서 가치를 만들어내는 것은

생각보다 힘들 수 있다는 점입니다.

이를 극복하기 위한 방안을 여러가지 생각해 보았는데

스타트업 입장에서는 녹록치 않은 경우가 많습니다.

하지만, 장기적으로 회사의 생존과 성장을 담보하기 위해서는

진입장벽을 확보하는 것이 중요하며

데이터 네트워크 효과를 갖추는 것은

그러기 위한 강력한 무기가 될 수 있다는 것을 염두에 두고

초기부터 데이터 전략을 수립할 필요가 있습니다.

 

 

 

Comments

comments

Leave a Reply

Your email address will not be published.