Pentru a înțelege acest concept vom defini mai întâi conceptele de sensibilitate și specificitate a unui fenomen.
Atunci când construim un model studiem legătura dintre predicție și răspuns. Pornind de la aceste concepte, putem avea patru posibilități când realizăm un model (inițialele codurilor provin din engleză TP – true positive, TN – true negative, FP – false positive, FN – false negative):
- TP – Predicție pozitivă, răspuns pozitiv
- TN – Predicție negativă, răspuns negativ
- FP – Predicție pozitivă, răspuns negativ
- FN – predicție negativă, răspuns pozitiv
Atunci vom defini:
- Sensibilitatea = TP/(TP+FN) (cazurile de predictii pozitive supra cazurile cu răspunsuri pozitive)
- Specificitatea = TN /(TN+FP) (cazurile de predictii negative supra cazurile cu răspunsuri negative)
Curba ROC (Receiver Operating Characteristics) este o curba bidimensională în care pe axa Y avem sensibilitatea și pe axa X avem specificitatea. Această curba ne ajută să măsurăm eficiența unui model. Cu cât aria de sub curbă este mai mare (maximul este 1) cu atât modelul este mai bun.
- Aria > 0,9 – excelent
- 0,9 > Aria > 0,8 – foarte bun
- 0,8 > Aria > 0,7 – bun
- 0,7 > Aria > 0,6 – corect (fair)
- Aria < 0,6 – modelul se respinge
Curba ROC se folosește în medicină și de aceea exemplul ce-l voi da va fi din acest domeniu:
Fie un test (prin test se poate înțelege o serie de analize, rezultatul unui scor sau chiar prezența sau absența unor simptome) aplicat la 30 de pacienți. Fiecărei valori îi asociem o valoare binară 0 sau 1 corespunzătoare faptului că nu este prezentă boala, respectiv este prezentă. (Datele de mai jos sunt fictive și au rolul de a ajuta la înțelegerea folosirii acestui instrument).
Pentru realiza curba ROC vom da un clic pe Analyze – ROC Curve și se va deschide fereastra:
În fereastra Test Variable vom pune variabila scor iar la State Variable vom pune prez_boala. In fereastra Value of State Variable vom pune valoarea ce indică prezența bolii – în cazul nostru valoarea 1. Vom da un clic pe OK și vom obține fereastra Output:
Primul tabel conține o statistică descriptivă: număr de cazuri pozitive și număr de cazuri negative
Ultimul tabel conține informații despre semnificabilitatea curbei.
Aria este 0,950 deci modelul este excelent, lucru pe care-l putem observa și din analiza valoarii p = 0,000 (Asymptotic Sig). Ultimele 2 rubrici ale tablelului ne dau marginile intervalului de încredere.