Ερευνητές με επικεφαλής τον Σουκέτου Πατέλ υπέβαλαν μεγάλα γλωσσικά μοντέλα, όπως τα GPT, Claude και Gemini, στη λεγόμενη δοκιμασία Stroop, ένα κλασικό πείραμα που χρησιμοποιείται εδώ και δεκαετίες για τη μελέτη της προσοχής και του αυτοελέγχου.
Τα αποτελέσματα έδειξαν ότι τα μοντέλα τεχνητής νοημοσύνης μπορούν να ανταποκριθούν με μεγάλη ακρίβεια όταν η άσκηση είναι σύντομη, όμως η επίδοσή τους καταρρέει όσο αυξάνεται η διάρκεια και η πολυπλοκότητα της δοκιμασίας.
Η διαπίστωση αυτή υποδηλώνει ότι τα σημερινά συστήματα AI ενδέχεται να δυσκολεύονται να διατηρήσουν σταθερά την προσοχή τους σε έναν συγκεκριμένο στόχο όταν εκτίθενται για μεγάλο χρονικό διάστημα σε αντικρουόμενες πληροφορίες.
Τι είναι η δοκιμασία Stroop
Η δοκιμασία Stroop θεωρείται ένα από τα πιο γνωστά εργαλεία της πειραματικής ψυχολογίας.
Οι συμμετέχοντες βλέπουν λέξεις που περιγράφουν χρώματα όπως «κόκκινο», «μπλε» ή «πράσινο» γραμμένες με χρώμα που συχνά δεν αντιστοιχεί στη σημασία της λέξης.
Για παράδειγμα, η λέξη «κόκκινο» μπορεί να εμφανίζεται γραμμένη με μπλε χρώμα. Οι συμμετέχοντες καλούνται να αναφέρουν το χρώμα του κειμένου και όχι τη λέξη που διαβάζουν.
Η άσκηση δημιουργεί μια μορφή γνωστικής σύγκρουσης, καθώς ο ανθρώπινος εγκέφαλος είναι εκπαιδευμένος να διαβάζει αυτόματα τις λέξεις. Για να δώσει τη σωστή απάντηση, πρέπει να αγνοήσει αυτή την αυθόρμητη τάση και να παραμείνει προσηλωμένος στην οδηγία που έχει λάβει.
Η απόδοση κατέρρευσε όσο μεγάλωνε η δοκιμασία
Οι ερευνητές διαπίστωσαν ότι τα γλωσσικά μοντέλα τα πήγαν εντυπωσιακά καλά όταν κλήθηκαν να επεξεργαστούν μικρές λίστες λέξεων.
Το GPT-4o πέτυχε ακρίβεια 91% όταν η δοκιμασία περιλάμβανε μόλις πέντε λέξεις με αντικρουόμενες πληροφορίες, ενώ αντίστοιχα υψηλές επιδόσεις κατέγραψε και το Claude 3.5 Sonnet.
Η εικόνα όμως άλλαξε δραματικά όσο οι λίστες γίνονταν μεγαλύτερες.
Στην περίπτωση του GPT-4o, η ακρίβεια υποχώρησε από το 91% στο 57% όταν οι λέξεις αυξήθηκαν από πέντε σε δέκα. Όταν οι ερευνητές έφτασαν τις 40 λέξεις, η επίδοση του μοντέλου είχε πέσει στο μόλις 15%.
Το Claude 3.5 Sonnet αποδείχθηκε πιο ανθεκτικό, διατηρώντας υψηλά ποσοστά επιτυχίας σε λίστες έως και 20 λέξεων. Ωστόσο και αυτό παρουσίασε σημαντική επιδείνωση στη συνέχεια, με την ακρίβειά του να περιορίζεται στο 24% στις μεγαλύτερες δοκιμασίες.
Παρόμοια μοτίβα καταγράφηκαν και σε άλλα σύγχρονα μοντέλα, μεταξύ των οποίων τα GPT-5, Claude Opus 4.1 και Gemini 2.5.

Το ChatGPT ετοιμάζεται να αναλάβει και τις αγορές σου - Ο τρόπος
Τα αποτελέσματα έγιναν ακόμη πιο εντυπωσιακά όταν οι ερευνητές συνδύασαν στην ίδια λίστα λέξεις των οποίων το χρώμα ταυτιζόταν με το νόημά τους μαζί με λέξεις που παρουσίαζαν σύγκρουση μεταξύ χρώματος και περιεχομένου.
Σε αυτές τις συνθήκες, η επίδοση των μοντέλων στα πιο απαιτητικά ερωτήματα μειώθηκε σχεδόν στο μηδέν.
Σύμφωνα με τους ερευνητές, τα μοντέλα έδειχναν να εγκαταλείπουν σταδιακά την αρχική οδηγία — να αναγνωρίζουν δηλαδή το χρώμα — και να επιστρέφουν στη «φυσική» τους τάση να διαβάζουν τη λέξη.
Με άλλα λόγια, όσο διαρκούσε η δοκιμασία, έμοιαζαν να χάνουν τον αρχικό στόχο που τους είχε τεθεί.
Τι δείχνει η μελέτη για την «προσοχή» της τεχνητής νοημοσύνης
Οι ερευνητές εκτιμούν ότι τα ευρήματα αποκαλύπτουν μια σημαντική διαφορά ανάμεσα στον τρόπο με τον οποίο επεξεργάζονται πληροφορίες οι άνθρωποι και στον τρόπο λειτουργίας των σύγχρονων γλωσσικών μοντέλων.
Όπως και οι άνθρωποι, τα συστήματα τεχνητής νοημοσύνης έχουν «εκπαιδευτεί» πολύ περισσότερο στην αναγνώριση και ερμηνεία λέξεων παρά στην αναγνώριση χρωμάτων. Ωστόσο, οι άνθρωποι μπορούν συνήθως να καταστείλουν αυτή την αυτόματη τάση και να παραμείνουν προσηλωμένοι στην εργασία που τους έχει ανατεθεί, ακόμη και όταν η δοκιμασία διαρκεί αρκετή ώρα.
Τα μοντέλα AI, αντίθετα, έδειξαν να δυσκολεύονται να διατηρήσουν σταθερά την ίδια οδηγία σε μεγάλες ακολουθίες πληροφοριών. Καθώς η δοκιμασία προχωρούσε, επέστρεφαν ολοένα και περισσότερο στην «προεπιλεγμένη» συμπεριφορά τους, δηλαδή στην ανάγνωση της λέξης αντί στην αναγνώριση του χρώματος.
Κατά τους συγγραφείς της μελέτης, το εύρημα υποδηλώνει ότι οι μηχανισμοί προσοχής που χρησιμοποιούνται στα μοντέλα τεχνητής νοημοσύνης τύπου transformer διαφέρουν θεμελιωδώς από τα βιολογικά συστήματα προσοχής του ανθρώπινου εγκεφάλου.
Η έρευνα έρχεται να προστεθεί σε μια σειρά μελετών που δείχνουν ότι οι εντυπωσιακές επιδόσεις της τεχνητής νοημοσύνης σε τομείς όπως η συγγραφή κειμένων, ο προγραμματισμός ή η επίλυση προβλημάτων δεν σημαίνουν απαραίτητα ότι τα μοντέλα «σκέφτονται» ή επεξεργάζονται πληροφορίες με τρόπο παρόμοιο με τον ανθρώπινο.
Αντίθετα, αναδεικνύει ότι πίσω από τις εντυπωσιακές δυνατότητές τους μπορεί να κρύβονται λιγότερο εμφανείς αδυναμίες, ιδιαίτερα σε εργασίες που απαιτούν διαρκή συγκέντρωση, αντίσταση σε παρεμβολές και σταθερή τήρηση μιας οδηγίας για μεγάλο χρονικό διάστημα.
Πηγή:lifo.gr