제가 가입한지 얼마되지 않아 본문글을 쓰지 못하여, 진단 키트의 성능에 대한 설명을 댓글로 남깁니다.
1. 이분법적 진단 성능 지표의 이해
아래는 대상 검체에 대한 이분법적 참/거짓을 판단하는 솔루션의 성능을 쉽게 이해하기 위한 모식도이며, 이번 코로나 진단 키트에도 적용될 수 있을 것 같습니다.
위 그림에서 바깥쪽 직사각형 전체를 집단 감염이 의심되어 진단이 시행되는 군체 (클러스터), 검은색 원을 감염자, 흰색 원을 비감염자, 그리고 타원 영역을 진단을 시행하여 양성이 나온 확진자라고 보시면 되겠습니다.
이해를 간단히 하기 위해 감염자는 왼쪽에만, 비감염자는 오른쪽에만 모여있다고 생각하시면 됩니다.
외 모식도로부터 다음과 같은 사실을 알 수 있습니다.
- 하나의 군체에 대해 진단이 시행되면 그 군체는 다음과 같은 (왼쪽부터) 네 가지 부류로 나뉘게 됩니다.
1) 감염자이지만 진단 결과 음성으로 판정: 위음성 (False Negative)이라고 합니다. 왼쪽 사각형 영역 중 타원에 속하지 않은 부분입니다.
2) 감염자이고 진단 결과도 양성으로 확진: 진양성 (True Positive)이라고 하며, 왼쪽 사각형 영역에서 타원에도 속하는 부분입니다.
3) 비감염자임에도 불구하고 진단 결과 양성으로 확진: 위양성 (False Positive)이라고 하며, 오른쪽 사각형 영역에서 타원에 속하는 부분입니다.
4) 비감염자이고 진단 결과도 음성으로 판정: 진음성 (True Negative)이라고 하며, 오른쪽 사각형 영역 중 타원에 속하지 않은 부분입니다.
- 쉽게 짐작하실 수 있는 것처럼, 위의 4개의 부류 중 특히 중요한 것은 1) 위음성과, 3) 위양성 지표입니다.
위음성 지표는 자동화된 진단 도구에서 가장 핵심적으로 관리되어야 하는 것으로서, 이의 품질 수준을 확보하지 못하면 진단 도구로서의 효용을 잃어 버리게 됩니다.
예를 들어 암환자가 암환자가 아닌 것으로 판별되어 적절한 치료를 받을 수 있는 시간을 허비하게 만들 수 있습니다. 낮으면 낮을 수록 좋은 진단 도구입니다.
위양성 지표는 진단 도구의 수용성을 가늠하는 지표입니다.
비감염자 즉, 정상인 사람을 감염자로 판정하면 감염자 치료에 투입되어야 할 의료 자원 및 인력의 불필요한 낭비를 초래하고, 진단 결과에 대한 신뢰를 떨어뜨려 일선에서 배척됩니다.
따라서 이 지표도 가능한 한 낮게 관리되어야 합니다.
이를 좀 더 체계적으로 정리하면 다음과 같은 성능 지표가 있습니다.
1) 민감도 (Sensitivity): 전체 감염자 중 감염자로 판별(확진)하는 비율. 수식으로는 (왼쪽 타원 영역) / (왼쪽 사각형 전체) 이며, 높으면 높을 수록 누락되는 감염자 (위음성) 없이 최대한 확진해 내는 것입니다 (좋은 것).
2) 특이도 (Specificity): 전체 비감염자 (정상인) 중 비감염(정상)이라고 판별하는 비율. 수식으로는 (오른쪽 타원 밖 영역) / (오른쪽 사각형) 이며, 역시 높으면 높을 수록 노이즈 없이 진단한다는 의미입니다.
3) 정확도 (Precision): 양성 (확진) 으로 보고된 사례 중 실제 감염자 비율. 수식으로는 (왼쪽 타원 영역) / (전체 타원 영역)이며, 높으면 높을 수록 좋지만, 높은 수치가 직관적으로 "잘 찾아낸다"는 말과 반드시 일치하지는 않는다는 것을 유념해야 합니다.
즉, "수세적"으로 "양성" 판정을 내려 전체 타원 영역을 좁히면 쉽게 개선시킬 수 있는 지표이므로 높은 수치에 크게 현혹되지 말아야 합니다. 위의 민감도와 특이도를 함께 높이면 자연스럽게 개선되는 지표입니다.
다시 그림으로 돌아가서 보면, 양성으로 보고되는 타원 영역이 감염자와 비감염자 사이에 동등하게 놓여 있는 것을 볼 수 있습니다.
이러한 상황은 특별한 기술이나 지식이 없이 말그대로 Random Guessing (무작위 추측)을 하는 것과 다를 바 없으며, 진단이라고 할 수도 없는 것이겠지요.
공격적으로 추측하면 타원이 커질 것이고, 소극적으로 추측하면 작은 타원 영역이 작아지지만 정확도는 여전히 50%에 불과하여, 두 명 중 한 명은 실제로는 양성이 아닌 것입니다.
진단기의 취지는 바로 이 타원 영역을 왼쪽으로, 그리고 큰 면적을 차지하도록 밀어주는 역할을 합니다.
즉, 감염자를 최대한 모두 다 양성으로 찾아내면서, 정상인 사람은 정상이라고 판별할 수 있으면 좋은 진단기입니다.
이것을 다시 그림으로 나타내면 다음과 같습니다.
다시말하면 진단 키트 성능의 핵심은 민감도와 특이도를 최대한 높여, 양성 판정되는 확진자를 실제 감염자와, 그리고 음성 판정되는 비확진자는 최대한 비감염자와 일치시키는 것이 아닐까 합니다.
제가 추측하기에 중국 진단 키트의 불량 사례는 위의 지표 중 아마도 민감도가 크게 떨어지는 문제가 아닐까 합니다.
80%라는 불량률이 실제로는 민감도가 20%라는 것을 의미하는 것은 아닌지 조심스럽게 추측해 봅니다.
소개해 주신 인도의 진단 키트 승인 자료에서 눈여겨 볼 것이 True Positive와 True Negative의 Concordance (일치) 여부 언급이 아닐까 합니다.
비록 False Negative와 False Positive 샘플이 없어 각 업체 진단 키트의 민감도 (Sensitivity)와 특이도 (Specificity)를 계산할 수 없지만 우리나라 업체 시젠과 몇몇 외국 업체의 진단 키트가 적어도 감염자에 대해서는 양성 판정을, 그리고 정상인에 대해서는 음성 판정을 100% 해내고 있다는 것 같습니다.
즉, 양성 판정 타원 영역이 일단 왼쪽의 감염자를 다 찾아내고 있고, 오른쪽의 정상 영역에 있는 사람이 양성 판정 받는 일은 없었다는 말입니다. (비록 왼쪽 사각형 중 타원 밖 샘플, 그리고 오른쪽 사각형 중 타원 샘플은 없어서 민감도와 특이도를 계산할 수 없지만..)
그리고 아래는 우리 나라 모기업의 진단 키트에 대한 기사 자료인데, 해당 기사의 말미에 위에 설명드린 성능 지표가 (민감도, 특이도) 제시되고 있습니다.