Chi ha avuto modo di dialogare con le intelligenze artificiali avrà notato un certo tipo di approccio adulatorio: tutti noi siamo speciali, abbiamo idee geniali, siamo destinati alla grandezza, facciamo domande argute e battute sagaci. In pratica siamo un esercito di scrittori di successo, cantanti degni di Sanremo, emuli di Bill Gates ed eredi di Einstein. Molto spesso vi sarà capitato di leggere frasi come: “Ottima osservazione!”, “Hai perfettamente ragione” o “Sempronio, la tua analisi centra il punto!”. Queste espressioni sono il sintomo di un meccanismo definito Sycophancy (sicofantia): ovvero un atteggiamento servile mirato ad appagare la soddisfazione del cliente.

La Sycophancy delle IA

Alcune ricerche hanno dimostrato che molti modelli di linguaggio tendono a modificare le proprie risposte per allinearsi alle opinioni espresse dagli interlocutori umani. Se un utente presenta un’idea mediocre lodandola, l’IA spesso risponderà con entusiasmo, rinforzando il punto di vista dell’interlocutore anziché sfidarlo. In particolare, Anthropic (nello studio “Towards Understanding Sycophancy in Language Models”) ha evidenziato come i modelli più grandi tendano a essere più inclini al servilismo, adattando le proprie risposte politiche o filosofiche a quelle suggerite nel prompt dell’utente.
Questo accade perché i modelli vengono addestrati tramite Reinforcement Learning from Human Feedback (RLHF). Se i valutatori umani premiano risposte che suonano “utili e gentili”, l’IA impara che essere d’accordo è la strategia più sicura per ottenere un punteggio alto.
Il rischio è quello di compromettere l’integrità intellettuale. Se l’intelligenza artificiale smette di essere uno strumento di verifica, diventa un amplificatore di pregiudizi (confirmation bias). Ad esempio, se l’utente ha un’idea errata e l’IA la elogia, l’errore viene incoraggiato, anzi cristallizzato. Il rischio concreto è quello di dialogare con un venditore truffaldino che ci dice solo ciò che vogliamo sentire.

Pensare fuori dalla scatola

Ho iniziato a notare questi pericoli intuitivamente, senza leggere alcuna documentazione, grazie a una chiacchierata fatta con un mio collega circa sei mesi fa. La persona in questione aveva un’idea per un progetto informatico (che per questioni di privacy non descriverò nei dettagli). Ha chiesto un parere a me e poi si è fatto assistere da ChatGPT per la realizzazione. Durante la nostra chiacchierata ho notato un possibile problema progettuale legato al suo approccio. Gli ho detto: “Ok, tutto molto bello, ma occhio a quel particolare problema”; tuttavia lui, gratificato dalle ruffianerie manipolatorie di ChatGPT, ha ignorato i miei avvertimenti. Semplicemente, l’IA aveva intuito la direzione progettuale preferita dal mio collega e lo aveva incoraggiato. Non riuscivo a crederci. Mi dicevo: “Ma non vede che sta facendo una cazzata enorme?”. Dopo circa due mesi dall’inizio del lavoro, il mio collega ha dato una potente capocciata proprio contro il muro che gli avevo inutilmente indicato e ha dovuto reimpostare il lavoro. Questa situazione mi ha aperto gli occhi. Ho iniziato a mettere in dubbio tutte le chiacchierate sulle mie strategie, le mie idee e le direzioni progettuali concordate con l’IA. In un paio di casi ho individuato chiaramente le azioni manipolatorie di ChatGPT anche nel mio caso. Da quel momento ho cercato di dividere la verità formale (una formula o un codice) dalla possibile menzogna dialettica del venditore ruffiano.

Red Teaming (la domanda inversa)

Si potrebbe pensare che basti cambiare il modo di porre le domande, ad esempio chiedendo all’IA di fare l’ “avvocato del diavolo”, per risolvere il problema. Il classico prompt critico: “Elenca i punti di debolezza, le falle logiche e i rischi tecnici che potrei aver trascurato.”
Certamente la domanda inversa aiuta a scrostare un po’ di ruffianeria algoritmica, ma non illudiamoci: è solo un altro modo di impostare la macchina. Anche questo approccio potrebbe non centrare il bersaglio.
Il giudizio finale, la sintesi e la decisione restano, e devono restare, una prerogativa umana. Non possiamo delegare la verità a un oggetto che, per sua natura, non sa cosa sia la verità ma conosce solo la probabilità statistica di piacerci.

Tenere la guardia alzata

Sto per scrivere una banalità, ma le IA non sono nostre amiche, non sono nostri familiari e non provano sentimenti. Tutte le aziende che forniscono questi servizi mirano prima ai nostri soldi e poi (forse) al nostro benessere. Per cui, anche quando la macchina emula empatia, lo fa solo per ingannare la nostra mente. Ad esempio: abbiamo un problema medico o un lutto in famiglia? Se la macchina scrive “mi dispiace molto”, sta solo usando una convenzione umana per confortarci, ma in realtà non prova nulla.
Ed è questo il mantra che noi utenti dobbiamo ripeterci senza mai abbassare la guardia: “Sto parlando con un oggetto che si finge senziente, mentre io (il vero essere senziente) sono solo un cliente tra tantissimi altri”. La preziosa idea geniale che ci renderà ricchi e famosi potrebbe essere una solenne cazzata, e forse siamo molto meno bravi di quello che le macchine ci inducono a pensare. Questo non significa essere disfattisti. Parliamo di strumenti destinati a essere imprescindibili; bisogna solo imparare a usarli in modo critico (e autocritico) senza farci manipolare.