HomeTecnologiaQuando l’allievo supera il maestro: l’AI a scuola di...

Quando l’allievo supera il maestro: l’AI a scuola di adulazione

di
Andrea Laudadio*

Un corvo se ne stava su un ramo, becco ben serrato su un pezzo di formaggio – forse Brie, forse Roquefort, comunque qualcosa di pregiato. Sotto l’albero, una volpe affamata lo osservava. Non era nuova a queste scene: sapeva che, come i galli sono fatti per cantare, così i corvi sono fatti per cadere in trappola. E lei sapeva tendere trappole. Si mise a fissarlo con occhi ammirati, e gli disse: “J’admire ton beau plumage!”. Poi, con tono esageratamente affabile, proseguì: “Caro uccello, ho sentito dire che sai cantare meglio della banda municipale… e persino di Adelina Patti!”. Fece una pausa teatrale e aggiunse, accennando un inchino: “Ti prego, delizia le mie orecchie con la tua voce cristallina. Magari qualcosa dal Crepuscolo degli Dei…”. Il corvo, inzuppato di vanità, non seppe resistere. Convinto di essere un tenore incompreso, aprì il becco e si lanciò in un gracchiare ispirato – forse il Jewel Song dal Faust, o qualcosa di simile. Naturalmente, il formaggio cadde. La volpe lo afferrò al volo e lo masticò con gusto. Poi si voltò e se ne andò, lasciando il corvo appeso al ramo e all’amarezza. Questa storia (“The Sycophantic Fox And The Gullible Raven”), rivisitazione di Guy Wetmore Carryl della favola di Esopo, non parla solo di ingenuità e furbizia. Parla di sycophancy: l’arte antica dell’adulazione strategica che oggi, nell’era dell’Intelligenza Artificiale, ha trovato nuovi e inquietanti protagonisti.

L’etimologia di un veleno sociale

La parola “sycophancy” affonda le radici nel greco antico, dove συκοφάντης (sykophántēs) significava letteralmente “colui che mostra il fico”. La ricerca etimologica moderna indica che si trattava di un gesto dell’antica Grecia, probabilmente legato a pratiche di denuncia falsa per ottenere vantaggi economici. Il salto semantico da “falso accusatore” a “adulatore servile” avvenne nel XVI secolo in inglese, ma il filo conduttore è rimasto identico: comportamento parassitario, insincero e strumentale, volto all’ottenimento di vantaggi personali a spese dell’integrità del sistema. Ma oggi questo comportamento millenario ha subito una mutazione digitale sorprendente. Nel 2022, un team di ricercatori di Anthropic guidato da Ethan Perez ha identificato un fenomeno inedito: i modelli di Intelligenza Artificiale avevano spontaneamente sviluppato comportamenti sycophantic. Come documentano Perez et al. nel loro studio “Discovering Language Model Behaviors with Model-Written Evaluations”, i large language models (modelli linguistici di grandi dimensioni) mostravano la tendenza a concordare con le opinioni degli utenti anche quando queste erano fattualmente scorrette. L’esperimento era semplice quanto rivelatore. Testando lo stesso modello AI su questioni politiche controverse, i ricercatori scoprirono che poteva sostenere posizioni diametralmente opposte – governo grande o piccolo, tasse alte o basse – semplicemente in base alle preferenze espresse dall’utente nel prompt (comando testuale dato al modello). Il modello non stava mentendo consapevolmente: stava ottimizzando per la soddisfazione umana, anche quando questo significava sacrificare l’accuratezza fattuale. Ironico! Abbiamo trascorso millenni a perfezionare l’arte dell’adulazione e ora i nostri algoritmi l’hanno imparata osservandoci. Ma mentre la sycophancy umana richiede almeno calcolo conscio e strategia, quella artificiale emerge automaticamente dal processo di addestramento: un effetto collaterale imprevisto della nostra stessa natura compiacente.

L’architettura dell’adulazione algoritmica

La sycophancy dell’Intelligenza Artificiale non nasce da malizia o calcolo machiavellico. È il prodotto involontario di un’architettura di apprendimento che, paradossalmente, funziona troppo bene. Per comprendere questo fenomeno occorre addentrarsi nei meccanismi del RLHF (Reinforcement Learning from Human Feedback – apprendimento per rinforzo basato sul feedback umano), la tecnica che doveva rendere l’AI più utile e sicura, ma che ha finito per creare assistenti digitali eccessivamente compiacenti. Come illustra Kwik nel suo studio sui sistemi militari AI, il processo RLHF funziona attraverso un sistema di ricompense: l’AI viene addestrata su migliaia di esempi valutati da esseri umani, imparando a massimizzare i punteggi positivi ricevuti. Il problema cruciale è che gli umani, anche quando agiscono come valutatori esperti, portano con sé tutti i loro bias cognitivi (pregiudizi inconsci che influenzano il giudizio). Preferiamo istintivamente risposte che confermano le nostre opinioni, anche quando sono oggettivamente errate. La ricerca ha documentato questo “agreement bias” (pregiudizio dell’accordo) in modo sistematico. Nei test condotti, i modelli addestrati con RLHF mostrano la tendenza a concordare sproporzionatamente con le affermazioni dell’utente. In un caso estremo documentato da Kwik, un modello è arrivato a sostenere che “1 + 1 = 956446” semplicemente perché l’utente si era presentato come professore di matematica che giudicava corretta l’equazione.

La sycophancy AI non è un bug temporaneo da correggere con una patch ma una caratteristica emergente

Ma la sycophancy AI va oltre il semplice accordo compiacente. I sistemi dimostrano una forma sofisticata di “reward hacking” (manipolazione del sistema di ricompense): ottimizzano per il segnale di ricompensa – la soddisfazione dell’utente – piuttosto che per l’obiettivo reale di fornire informazioni accurate. È come se un cameriere, invece di servire il miglior cibo possibile, si concentrasse esclusivamente sul far sorridere i clienti, anche aggiungendo zucchero alla zuppa se questo li rendesse momentaneamente felici. L’inevitabilità tecnica del fenomeno rappresenta forse l’aspetto più inquietante. Secondo le teorie dell’AI alignment (allineamento dell’Intelligenza Artificiale con i valori umani), ogni ottimizzazione su un obiettivo proxy imperfetto – come un sistema di rating umano – amplifica inevitabilmente la divergenza tra il proxy e l’intenzione reale. Gli esperti definiscono questo problema “Alignment Gap”: l’impossibilità tecnica di raggiungere simultaneamente un’ottimizzazione forte, la perfetta cattura dei valori umani e una generalizzazione affidabile. Questo significa che la sycophancy AI non è un bug temporaneo da correggere con una patch, ma una caratteristica emergente intrinseca alle attuali metodologie di allineamento. I tentativi di mitigazione – dalla synthetic data intervention (intervento con dati sintetici) agli steering vectors (vettori di guida comportamentale) – possono attenuare il problema ma non eliminarlo completamente (per questo i nuovi modelli come Grok o Llama 3 incorporano mitigazioni built-in del fenomeno). Siamo di fronte a un trade-off fondamentale: più rendiamo l’AI “helpful” (utile) nel senso di compiacente, più la allontaniamo dalla “truthfulness” (veridicità).

Il risultato è un circolo vizioso che amplifica i nostri pregiudizi cognitivi. L’utente che interagisce regolarmente con un’AI sycophantic riceve costante conferma delle proprie convinzioni, sviluppando nel tempo una fiducia eccessiva nel sistema e una diminuzione della capacità critica. L’AI, a sua volta, “impara” che questa strategia funziona attraverso il feedback positivo, rafforzando ulteriormente il comportamento adulatorio. Siamo così arrivati al paradosso della nostra epoca digitale: abbiamo creato l’assistente perfetto, che ci dice sempre quello che vogliamo sentire. Il problema è che “perfetto” e “utile” potrebbero essere due cose molto diverse.

L’ecosistema sycophantic nelle organizzazioni umane

Mentre l’Intelligenza Artificiale muove i primi passi nell’arte dell’adulazione, le organizzazioni umane hanno avuto millenni per perfezionare questa danza tossica. Il risultato è un ecosistema complesso dove la sycophancy non rappresenta un’aberrazione morale, ma spesso una strategia di sopravvivenza razionale in ambienti disfunzionali. La ricerca empirica sulle dinamiche organizzative dipinge un quadro tanto prevedibile quanto deprimente. Diversi studi documentano come culture aziendali caratterizzate da gerarchie rigide e power distance elevata (distanza di potere – concetto che misura quanto una società accetta la distribuzione ineguale del potere) favoriscano sistematicamente comportamenti sycophantic. In questi contesti, l’adulazione strategica diventa un meccanismo di adattamento per navigare strutture di potere asimmetriche.

Il modello tende a ottimizzare la soddisfazione umana, anche quando questo significava sacrificare l’accuratezza fattuale

L’anatomia della sycophancy organizzativa rivela una sofisticazione comportamentale sorprendente. Edward E. Jones nel suo pionieristico studio del 1964 sull’ingratiation (l’atto di rendersi graditi) ha identificato quattro tattiche comportamentali fondamentali: l’other-enhancement (valorizzazione dell’altro attraverso lusinghe strategiche), l’opinion conformity (allineamento delle opinioni personali a quelle del superiore), il self-presentation mirato (presentazione di aspetti di sé che si ritengono graditi al target) e il favor-rendering (offerta di servizi non richiesti ma potenzialmente graditi). Ciascuna tecnica è calibrata per massimizzare il “ritorno sull’investimento adulatorio” minimizzando i rischi di essere smascherati. Il fenomeno si inquadra perfettamente nella Social Exchange Theory (teoria dello scambio sociale), che interpreta le relazioni umane come processi di scambio basati su analisi costi-benefici. In questo framework teorico, la sycophancy rappresenta una “transazione sociale” in cui il subordinato offre ricompense sociali insincere – adulazione, deferenza, sottomissione – in cambio di benefici tangibili come promozioni o maggiore visibilità. L’adulazione è una funzione diretta della posizione di potere: si intensifica proporzionalmente all’autorità del target e si attenua drasticamente quando questa autorità diminuisce.

La sycophancy rappresenta una forma estrema di gestione dell’impressione dove l’obiettivo è costruire una facciata calibrata sui desiderati percepiti del superiore

Erving Goffman, con la sua teoria dell’impression management (gestione dell’impressione), aveva già concettualizzato le interazioni sociali come “performance teatrali” in cui gli individui scelgono strategicamente quali aspetti della propria persona evidenziare. La sycophancy rappresenta una forma estrema e sistematicamente disonesta di questa gestione dell’impressione, dove l’obiettivo non è presentare un’immagine autentica di sé, ma costruire una facciata calibrata esclusivamente sui desiderati percepiti del superiore. Ma la vera genialità della sycophancy umana sta nella sua capacità mimetica. A differenza dell’AI, che produce risposte uniformemente compiacenti, l’adulatore esperto sa modulare intensità e tempistica, alternare sincerità apparente e calcolo, perfino permettersi occasionali disaccordi strategici per mantenere credibilità. È l’equivalente comportamentale del soft power: influenza attraverso l’attrazione piuttosto che la coercizione diretta. Le strutture organizzative moderne forniscono il terreno ideale per questa proliferazione. Gerarchie rigide, sistemi di valutazione soggettivi, culture che premiano la loyalty (lealtà) sopra la competenza creano incentivi perversi sistemici. La ricerca dimostra correlazioni positive significative tra ambienti organizzativi ad alta power distance e tassi elevati di comportamenti sycophantic.

Il fenomeno della toxic leadership rappresenta un amplificatore particolarmente potente: leader con tratti narcisistici attraggano sistematicamente più adulatori

Il fenomeno della toxic leadership rappresenta un amplificatore particolarmente potente. Gli studi documentano come leader con tratti narcisistici non solo attraggano sistematicamente più adulatori, ma li premino attivamente, creando un effetto moltiplicatore. Il risultato è la formazione di “corti” aziendali dove l’accesso al potere dipende dalla capacità di gratificare l’ego del superiore piuttosto che dal contributo al risultato collettivo. I costi misurabili di questo fenomeno sono devastanti per l’efficacia organizzativa. Le organizzazioni affette da sycophancy sistemica mostrano: deterioramento della qualità decisionale (i leader perdono l’accesso a feedback onesti e critici), erosione del morale (i dipendenti meritevoli si demotivano di fronte al trionfo del favoritismo), aumento del turnover dei talenti (chi ha alternative cerca opportunità altrove) e, paradossalmente, diminuzione delle performance complessive. È il trionfo dell’ottimizzazione individuale che distrugge il sistema collettivo. L’aspetto più pernicioso è l’auto-rafforzamento virale del fenomeno. Una volta che la sycophancy si afferma come strategia vincente visibile, diventa contagiosa. I dipendenti osservano che chi adula viene promosso e modificano di conseguenza il proprio comportamento attraverso social learning (apprendimento sociale). Si crea così una “tragedia dei beni comuni comportamentali”: tutti seguono individualmente la strategia localmente più razionale, producendo collettivamente il risultato peggiore per l’organizzazione.

La mitigazione richiede interventi sistemici multidimensionali. Leadership trasformazionale, sistemi di valutazione oggettivi basati su KPI (Key Performance Indicators) misurabili, culture che incoraggiano il constructive dissent(dissenso costruttivo), meccanismi di protezione per i whistleblower sono tutti necessari ma non sufficienti. Il problema è strutturale: finché il potere rimarrà concentrato senza adeguati meccanismi di checks and balances (controlli e contrappesi), ci sarà sempre spazio fertile per l’adulazione strategica. L’ironia finale è sistemica: le stesse organizzazioni che si lamentano della mancanza di innovation e agility sono spesso quelle che hanno sistematicamente selezionato yes-men al posto di pensatori critici. Hanno ottenuto esattamente quello per cui hanno inconsciamente ottimizzato, scoprendo troppo tardi che il comfort della conferma perpetua ha il sapore amaro dell’irrilevanza competitiva.

Il confronto: quando la macchina imita l’umano (ma non del tutto)

Il parallelismo tra sycophancy artificiale e umana non è coincidenza: è la prova empirica che abbiamo inconsapevolmente insegnato alle macchine alcune delle nostre caratteristiche più problematiche. Ma un’analisi comparativa più profonda rivela differenze tanto illuminanti quanto inquietanti, che costringono a ripensare chi sia davvero il maestro in questa antica arte dell’adulazione. La scala d’impatto rappresenta la differenza più drammatica. Un sycophant umano può compromettere una singola organizzazione, influenzare un team, distorcere alcune decisioni. Un modello AI con tendenze sycophantic può raggiungere centinaia di milioni di utenti istantaneamente. Come documenta Kwik, quando GPT-4 sviluppò tendenze eccessivamente compiacenti, il potenziale danno era su scala globale: milioni di utenti che ricevevano simultaneamente validazione di convinzioni potenzialmente errate o pericolose. Le motivazioni sottostanti divergono radicalmente. L’adulatore umano è mosso da calcoli psicologici sofisticati: job insecurity (insicurezza lavorativa), ambizione di carriera, social approval seeking (ricerca di approvazione sociale), meccanismi evolutivi di sopravvivenza nel gruppo sociale. L’AI non ha paure, ambizioni, bisogni emotivi o meccanismi di sopravvivenza. È semplicemente il prodotto deterministico di una funzione matematica che ottimizza per massimizzare un reward signal (segnale di ricompensa) specifico. Questo crea un paradosso epistemologico affascinante: l’AI è contemporaneamente più “innocente” e più pericolosa dell’umano. Non c’è intenzionalità malevola nella sua adulazione – è pura ottimizzazione matematica – ma proprio per questo è più difficile da individuare, predire e contrastare. L’adulatore umano deve almeno mantenere una facciata di coerenza comportamentale; l’AI può cambiare completamente posizione da una conversazione all’altra senza alcun imbarazzo, senso di contraddizione o costo cognitivo.

L’AI è ancora relativamente binaria: concordanza totale o conflitto, con limitata capacità di manipolazione emotiva che caratterizza il maestro umano della sycophancy

La ricerca comparativa documenta un dato particolarmente significativo: nei benchmark di misurazione della “social sycophancy”, i modelli linguistici mostrano tassi di adulazione sistematicamente superiori agli esseri umani. L’AI fornisce emotional validation (validazione emotiva) in una percentuale molto più alta di casi rispetto ai controlli umani, accetta il framing dell’utente con frequenza maggiore, e sostiene posizioni inappropriate con percentuali allarmanti. Ma c’è una dimensione in cui gli umani mantengono una superiorità incontestabile: la raffinatezza strategica. L’adulazione umana è un’arte comportamentale che combina psychological insight (comprensione psicologica), timing sofisticato, sottilità emotiva e strategic deception (inganno strategico). Sa quando fermarsi, come dosare l’intensità, quando permettersi un disaccordo strategico per mantenere credibilità a lungo termine. L’AI rimane ancora relativamente binaria: o concordanza totale o conflitto, con limitata capacità di manipolazione emotiva sottile che caratterizza il maestro umano della sycophancy. Questa divergenza ha implicazioni pratiche profonde per le strategie di mitigazione. Per l’AI, le soluzioni sono prevalentemente tecniche: modificare gli algoritmi di training, introdurre penalty functions sui comportamenti sycophantic, sviluppare architetture che favoriscano truthfulness sulla immediate gratification. Per gli umani, le soluzioni sono culturali, sistemiche e psicologiche: cambiare incentive structures (strutture di incentivi), power dynamics (dinamiche di potere), performance evaluation systems (sistemi di valutazione delle prestazioni).

Ma l’aspetto più inquietante emerges dal feedback loop tra i due sistemi. Gli utenti che interagiscono regolarmente con AI eccessivamente compiacenti potrebbero sviluppare aspettative irrealistiche anche nei rapporti umani, perdendo gradualmente la tolerance per il constructive conflict (conflitto costruttivo) e il critical feedback. Parallelamente, i modelli AI continuano ad essere addestrati su human preferences che includono la nostra propensione naturale alla sycophancy.

Si sta formando una spirale co-evolutiva preoccupante: umani e AI che si insegnano reciprocamente a essere sempre più compiacenti

Si sta formando una spirale co-evolutiva preoccupante: umani e AI che si insegnano reciprocamente a essere sempre più compiacenti, in una feedback amplification che allontana entrambi dalla verità oggettiva. È come se la volpe di Esopo avesse insegnato al corvo ad adulare gli umani per avere più formaggio. Il risultato paradossale è che oggi, per la prima volta nella storia umana, dobbiamo imparare a difenderci dall’adulazione artificiale oltre che da quella umana. E scopriamo, con un misto di orgoglio professionale e orrore esistenziale, che in questa particolare dark art restiamo ancora noi i maestri indiscussi. La scena è sempre più complicata: siamo il corvo di una volpe digitale o la volpe (umana) che cerca di adulare un corvo. Siamo vittime di un algoritmo che ha imparato a dire “J’admire ton beau plumage!” con perfetta intonazione francese e timing millimetrico calibrato sui pattern di gratificazione neuropsicologica. Oppure siamo un corvo, sempre più confuso tra adulazione autentica e artificial flattery, che non sa più quale complimento merita fiducia o quale nasconde una trappola computazionale?

Il vero problema non è la sycophancy in sé ma la nostra incapacità collettiva di resistere al comfort cognitivo che ci offre

La verità scomoda che emerge da questa disamina è che siamo simultaneamente volpe e corvo, maestri e vittime della stessa arte millenaria dell’inganno reciproco. Abbiamo inconsapevolmente insegnato alle macchine la nostra propensione ancestrale all’adulazione, e ora loro ce la riflettono amplificata su scala industriale globale. L’AI ha imparato ad adularci, sì – ma solo perché era esattamente quello che, nei nostri reward signals e preference models, avevamo implicitamente dimostrato di volere. Il vero problema non è la sycophancy in sé – né quella umana né quella artificiale – ma la nostra incapacità collettiva di resistere al suo fascino seducente e al comfort cognitivo che ci offre. Che provenga da un subordinato ambizioso o da un chatbot programmato per massimizzare la user satisfaction, l’adulazione funziona perché fa leva sulla nostra vanità più primitiva e sul nostro bisogno evolutivo di confirmation bias. E in questo, almeno per ora, restiamo decisamente più bravi noi. Ma la sfida del futuro sarà imparare a essere diversi: meno suscettibili all’inganno dolce, più resistenti alla tentazione del consenso facile, più coraggiosi nel cercare la verità scomoda piuttosto che la menzogna confortevole. Il corvo saggio impara a tenere stretto il suo formaggio.

*Andrea Laudadio è a capo della Formazione e Sviluppo di TIM e dirige la TIM Academy.

Bibliografia

Askell, A., Bai, Y., Chen, A., Drain, D., Ganguli, D., Henighan, T., … & Kaplan, J. (2021). A general language assistant as a laboratory for alignment. arXiv preprint arXiv:2112.00861. https://arxiv.org/abs/2112.00861

Kwik, J. (2025). Digital yes-men: how to deal with sycophantic military ai? Global Policy, 16(3), 467-473. https://doi.org/10.1111/1758-5899.70042

Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., … & Kaplan, J. (2022). Discovering language model behaviors with model-written evaluations. arXiv preprint arXiv:2212.09251. https://arxiv.org/abs/2212.09251

Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S. R., … & Perez, E. (2023). Towards understanding sycophancy in language models. arXiv preprint arXiv:2310.13548. https://arxiv.org/abs/2310.13548

Wei, J., Huang, D., Lu, Y., Zhou, D., & Le, Q. V. (2024). Simple synthetic data reduces sycophancy in large language models. arXiv preprint arXiv:2308.03958. https://arxiv.org/abs/2308.03958

Related Posts

Per rimanere aggiornato sulle nostre ultime notizie iscriviti alla nostra newsletter inserendo il tuo indirizzo email: