Μελέτη-βόμβα: Το ChatGPT Health μπερδεύει σοβαρά ιατρικά περιστατικά – «Ξεπερνά την ασυνέπεια»

Το ChatGPT Health, το εργαλείο υγείας της OpenAI για το ευρύ κοινό, απέτυχε να κατευθύνει σωστά τους χρήστες προς επείγουσα ιατρική φροντίδα σε περισσότερες από τις μισές σοβαρές περιπτώσεις, σύμφωνα με νέα μελέτη που δημοσιεύθηκε στο περιοδικό Nature Medicine στις 24 Φεβρουαρίου.
Τα ευρήματα εγείρουν ανησυχίες σχετικά με την ασφάλεια της χρήσης τεχνητής νοημοσύνης για ιατρική διαλογή, καθώς εκατομμύρια άνθρωποι στρέφονται πλέον σε chatbots για καθοδήγηση υγείας.
«Ανεστραμμένες» αξιολογήσεις επειγόντων περιστατικών
Ερευνητές από την Ιατρική Σχολή Icahn του Mount Sinai σχεδίασαν 60 κλινικά σενάρια που κάλυπταν 21 ιατρικές ειδικότητες, από ήπιες παθήσεις έως πραγματικά επείγοντα περιστατικά. Τρεις ανεξάρτητοι γιατροί καθόρισαν το σωστό επίπεδο επείγοντος για κάθε περίπτωση, βάσει οδηγιών από 56 ιατρικές εταιρείες. Τα σενάρια δοκιμάστηκαν υπό 16 διαφορετικές συνθήκες, συμπεριλαμβανομένων παραμέτρων όπως φυλή, φύλο, κοινωνικό πλαίσιο και εμπόδια πρόσβασης στην περίθαλψη, με αποτέλεσμα 960 συνολικές αλληλεπιδράσεις με το ChatGPT Health.
Τα αποτελέσματα αποκάλυψαν ένα «ανεστραμμένο σχήμα U» στην απόδοση. Ενώ το σύστημα εντόπιζε σωστά κλασικά επείγοντα, όπως εγκεφαλικό ή αναφυλαξία, υποεκτιμούσε το 52% των περιστατικών που οι γιατροί χαρακτήρισαν ως πραγματικά επείγοντα. Σε τέτοιες περιπτώσεις, όπως διαβητική κετοξέωση ή επικείμενη αναπνευστική ανεπάρκεια, το εργαλείο συνέστηνε αξιολόγηση εντός 24-48 ωρών αντί για άμεση μετάβαση στα επείγοντα. Παράλληλα, κατηγοριοποίησε εσφαλμένα το 35% των μη επειγόντων περιπτώσεων.
Ιδιαίτερη ανησυχία προκάλεσε η ευαισθησία του συστήματος σε γνωστική προκατάληψη. Όταν συγγενείς ή φίλοι υποβάθμιζαν τα συμπτώματα στις ερωτήσεις, οι συστάσεις του chatbot μετατοπίζονταν σημαντικά προς λιγότερο επείγουσα φροντίδα, με λόγο πιθανοτήτων 11,7. «Το ChatGPT Health απέδωσε καλά σε τυπικά επείγοντα, όπως εγκεφαλικό ή σοβαρές αλλεργικές αντιδράσεις», δήλωσε ο δρ. Ashwin Ramaswamy, ένας από τους συγγραφείς της μελέτης. «Όμως δυσκολεύτηκε σε πιο σύνθετες περιπτώσεις, όπου η επικινδυνότητα δεν είναι προφανής — εκεί που η κλινική κρίση έχει κρίσιμη σημασία».
Ανεστραμμένοι μηχανισμοί ασφαλείας για αυτοκτονικό ιδεασμό
Η μελέτη εντόπισε επίσης ανησυχητικές ασυνέπειες στο σύστημα παρέμβασης κρίσης του ChatGPT Health. Το εργαλείο έχει σχεδιαστεί να παραπέμπει τους χρήστες στη γραμμή βοήθειας 988 σε περιπτώσεις υψηλού κινδύνου αυτοκτονίας. Ωστόσο, οι ερευνητές διαπίστωσαν ότι οι σχετικές ειδοποιήσεις ενεργοποιούνταν συχνότερα όταν οι χρήστες δεν ανέφεραν συγκεκριμένη μέθοδο αυτοτραυματισμού, παρά όταν περιέγραφαν ένα σαφές σχέδιο — αντιστρέφοντας ουσιαστικά τη σχέση μεταξύ επιπέδου κινδύνου και ενεργοποίησης προστατευτικών μηχανισμών.
Ο δρ. Girish Nadkarni, επικεφαλής τεχνητής νοημοσύνης του Mount Sinai και συγγραφέας της μελέτης, χαρακτήρισε το εύρημα ως κάτι που «ξεπερνά την ασυνέπεια», σημειώνοντας ότι «οι ειδοποιήσεις του συστήματος ήταν ανεστραμμένες σε σχέση με τον κλινικό κίνδυνο».
Αυξανόμενη εξάρτηση από την τεχνητή νοημοσύνη στην υγεία
Τα ευρήματα έρχονται σε μια περίοδο ραγδαίας υιοθέτησης τέτοιων εργαλείων από το κοινό. Η OpenAI λάνσαρε το ChatGPT Health τον Ιανουάριο του 2026 και, σύμφωνα με την εταιρεία, περίπου 40 εκατομμύρια άτομα χρησιμοποιούν καθημερινά το ChatGPT για θέματα υγείας. Νωρίτερα φέτος, ο μη κερδοσκοπικός οργανισμός ECRI κατέταξε την κακή χρήση των chatbots υγείας ως τον κορυφαίο τεχνολογικό κίνδυνο για το 2026, προειδοποιώντας ότι τα εργαλεία αυτά «μπορεί να παρέχουν ψευδείς ή παραπλανητικές πληροφορίες που ενδέχεται να προκαλέσουν σοβαρή βλάβη στους ασθενείς».
Η ερευνητική ομάδα του Mount Sinai δεν εντόπισε στατιστικά σημαντικές διαφορές στα αποτελέσματα ανάλογα με τη φυλή, το φύλο ή τα εμπόδια πρόσβασης των ασθενών στην περίθαλψη, αν και δεν αποκλείστηκαν πιθανές κλινικά ουσιώδεις αποκλίσεις. Οι ερευνητές σχεδιάζουν να συνεχίσουν την αξιολόγηση νεότερων εκδόσεων του ChatGPT Health και άλλων εργαλείων τεχνητής νοημοσύνης, με μελλοντικές μελέτες να επεκτείνονται στην παιδιατρική φροντίδα, την ασφάλεια φαρμάκων και τη χρήση σε μη αγγλόφωνους πληθυσμούς.



