IA, Deep Research e rischio di desertificazione delle fonti online

Qualche giorno fa ho scambiato due chiacchiere con un ex collega su come le IA hanno condizionato la nostra vita. Ormai in moltissimi, informatici e non, le usano quotidianamente. Ma come getiscono le informazioni? E soprattutto: cosa potrebbe succedere se le fonti da cui queste IA attingono iniziassero lentamente a desertificarsi?
No, non mi riferisco al mondo post-apocalittico di Ken il Guerriero, dove ci sono solo sabbia, rovine e bande di teppisti con la cresta che leccano i coltelli. Anche se, a pensarci bene, come metafora non è nemmeno malaccio. Ma andiamo con ordine.
Quando pensiamo a come funziona un Intellignza Artificiale, la tentazione è immaginarla come un tizio dotato di supervelocità, magari con mantello d’ordinanza, che vive in una biblioteca sterminata contenente tutto lo scibile umano. A ogni domanda, il nostro eroe corre allo scaffale giusto e pesca la risposta esatta in una frazione di secondo.
Peccato che il super bibliotecario non esista. Un modello linguistico non “sa” le cose nello stesso modo in cui le sappiamo noi. Durante l’addestramento impara schemi, relazioni, strutture linguistiche, idee e contesti. Da questa base riesce a generare risposte spesso molto utili. Ma questa conoscenza interna non è infinita, non è sempre aggiornata e, soprattutto, non coincide automaticamente con Internet in tempo reale.

Il knowledge cutoff e la ricerca di nuove fonti

Nella fase iniziale della diffusione dei chatbot si parlava spesso di “data di aggiornamento” o “knowledge cutoff”: il modello era stato addestrato fino a un certo periodo e, se gli si chiedeva qualcosa di successivo, poteva non saperlo. Questo concetto esiste ancora. Per esempio, mentre sto scrivendo questo articolo, maggio 2026, ho chiesto a ChatGPT quale fosse la sua knowledge cutoff e mi ha risposto: agosto 2025.
Molti modelli moderni, però, possono integrare la propria base di conoscenza con ricerche online. Per questo non bisogna confondere ciò che il modello “ricorda” dal suo addestramento con ciò che può verificare cercando informazioni aggiornate sul web. Se chiedo a ChatGPT di spiegarmi un concetto generale, può rispondere molto bene anche senza cercare online. Se invece gli chiedo il prezzo attuale di un abbonamento, una sentenza recente o un aggiornamento di WordPress, allora la ricerca online diventa essenziale.

Search e Deep Research

Naturalmente, il fatto che una IA possa cercare online non significa che ogni risposta sia automaticamente una ricerca approfondita. Un conto è chiedere al salumiere quanto costa un etto di mortadella, un altro è chiedergli quale distributore lo rifornisce, con quali margini, quali tasse e in che modo arriva al prezzo finale per il pubblico (ovviamente i salumieri usano le tecniche di Nanto, ma questo è un altro discorso).
Una ricerca normale, o search, serve a recuperare un dato aggiornato, controllare una notizia, verificare una fonte o aggiungere un riferimento. La Deep Research, invece, è più articolata: una ricerca in più fasi, in cui il sistema non si limita a trovare due o tre pagine, ma costruisce un percorso, confronta fonti diverse, valuta eventuali contraddizioni e produce una sintesi ragionata.
Tra parentesi, il termine Deep Search viene usato spesso in modo informale, ma non è una definizione universale. Ogni azienda tende a chiamare queste funzioni a modo suo: OpenAI e Google parlano di Deep Research mentre Claude distingue tra Web Search, cioè la normale ricerca online con fonti, e Research, la funzione più approfondita in cui conduce più ricerche collegate tra loro.
Ma qui arriva la parte delicata. Le IA possono sbagliare, fraintendere, sintetizzare male una fonte, dare troppo peso a una pagina poco affidabile o presentare come solido un quadro che è ancora incerto. OpenAI stessa (da brava multinazionale paracula) lo ricorda in tutte le chat con il suo disclaimer: ChatGPT può commettere errori. Le informazioni importanti vanno verificate.

Tecniche efficaci di ricerca (ovvero la trasmigrazione attraverso Satori)

Quando ho sviluppato Mystic Lotto, la mia fantastica app per estrarre sei numeri fortunati da giocare al Superenalotto, che sicuramente tutti avrete scaricato — non farlo porta una sfiga terribile, io vi ho avvertito — ho avuto un problema tecnico. A progetto quasi finito, l’annuncio AdMob partiva ma non restituiva eventi. ChatGPT continuava a riportarmi verso la stessa soluzione, apparentemente corretta ma di fatto obsoleta.
Dopo un paio di settimane, caratterizzate da notti insonni e un certo numero di improperi non documentabili, ho avuto la giusta intuizione. Non gli ho chiesto semplicemente “risolvimi il bug”, ma una ricerca mirata su Stack Overflow, Reddit, forum tecnici e siti specializzati, alla ricerca di altri developer che avessero incontrato lo stesso problema.
Il punto era proprio questo: la procedura vecchia era molto più presente online della soluzione nuova. La ricerca generica riportava sempre verso la strada sbagliata. Una ricerca più precisa, invece, ha permesso di trovare l’indizio giusto e pubblicare l’app.
Da allora, cerco di usare le ricerche assistite senza cedere troppo il controllo. L’IA può farmi risparmiare tempo e aiutarmi a vedere connessioni che avrei trovato dopo un’ora di ricerche manuali, ma il punto centrale resta sempre lo stesso: l’essere umano deve sempre supervisionare il flusso.

Il pericolo della desertificazione delle fonti

E siamo arrivati al paragone con il mondo di Ken di cui ho parlato all’inizio. Da dove arriva la conoscenza che le IA riorganizzano, sintetizzano e ci restituiscono? O per meglio dire, prendono senza pagare?
La risposta sembra scontata, ma vale la pena ripeterla: dietro ogni risposta utile c’è quasi sempre una stratificazione di contenuti umani. Documentazioni tecniche, blog specialistici, forum, tutorial, discussioni, esperienze personali, errori risolti da qualcuno prima di noi e così via. Il web, nel suo caos, è stato per anni una gigantesca memoria collettiva: imperfetta, rumorosa, piena di spam, ma anche ricchissima di competenze.
Se però il modello economico che ha sostenuto questo immenso bacino di dati si rompe, il rischio è evidente: meno traffico ai siti originali, meno incentivi per chi scrive contenuti di qualità, più materiali generati automaticamente, più contenuti derivativi costruiti su altri contenuti derivativi. Una specie di fotocopia della fotocopia della fotocopia, sempre più sbiadita. Un po’ come la procedura sbagliata della mia app, riportata nella maggior parte delle fonti che ChatGPT consultava di default. Ed è qui che nasce il rischio di un vero collasso informativo. Le IA potrebbero finire per consumare il patrimonio informativo del web più velocemente di quanto l’ecosistema riesca a rigenerarlo.

Chi da quest’incubo nero ci risveglierà? Chi mai potrà?

E dopo aver citato la sigla del celebre anime nel titolo del paragrafo, parliamo di speranza. Perché sì, il rischio di desertificazione delle fonti esiste, ma non è detto che il finale debba per forza essere quello di un mondo online ridotto in rovine: qualche contromisura è possibile.
La prima riguarda gli accordi tra piattaforme IA e produttori di contenuti. Se un assistente artificiale usa in modo sistematico articoli, archivi, giornali o contenuti specialistici, prima o poi bisognerà trovare un equilibrio più sostenibile. Non basta “prendere, sintetizzare e andare via”. Servono forme di licenza, compensi, partnership o revenue sharing che permettano a chi produce di continuare a farlo. Altrimenti il rischio è che le fonti migliori vengano oscurate o, più semplicemente, smettano di essere aggiornate.
Una parte della conoscenza online potrebbe spostarsi sempre di più verso spazi meno aperti: forum privati, gruppi professionali, newsletter a pagamento, corsi, membership, archivi riservati. È una soluzione comprensibile, perché chi produce valore cerca un ritorno economico. Però ha anche un lato negativo: se troppa conoscenza finisce chiusa in recinti privati, il web aperto diventa più povero. E un web aperto più povero significa IA meno aggiornate, meno verificabili e più dipendenti da contenuti riciclati.
Naturalmente non la vedo facile. Per contrastare davvero la desertificazione delle fonti servirebbe una combinazione di soluzioni: accordi economici più equi, citazioni delle fonti più trasparenti, traffico di ritorno, licenze e utenti più consapevoli. Significherebbe anche che qualcuno, da qualche parte, dovrebbe rinunciare a una fetta dei propri guadagni immediati per non impoverire l’ecosistema da cui quegli stessi guadagni dipendono. Ma quando si parla di soldi, sappiamo tutti che l’Hokuto Shinken della ragionevolezza tende a non funzionare come si deve.
Però l’alternativa potrebbe essere peggiore: un deserto web pieno di contenuti automatici costruiti su altri contenuti automatici, con poche fonti originali e sempre meno persone motivate a condividere sapere pubblico.
Magari il web del futuro premierà meno chi produce tonnellate di materiale ottimizzato per gli algoritmi e più chi ha davvero qualcosa da dire. Sarebbe una piccola luce accesa in mezzo al deserto. Non proprio la luce dell’Orsa Maggiore, forse. Ma in tempi complicati ci si accontenta.

Futuri post-apocalittici nell’era delle IA

Bruno Doper

Recent Posts

Futuri post-apocalittici nell’era delle IA

Le intelligenze artificiali si drogano?

Le IA e i pericoli della manipolazione

Categorie

Tag