Le cose che non diventano dati

Tradizioni orali, pratiche incarnate, codici territoriali, forme di sapere non testuale o non lineare, tutto ciò che non è convertibile in token viene escluso. Non perché irrilevante, ma perché eccede la logica della codifica: non funziona su segmenti lineari, non produce output testuali stabili, non si presta alla predizione statistica. Una narrazione orale non è una sequenza, è un campo relazionale che si attiva nel tempo, tra corpi e generazioni e vive solo nel momento della trasmissione. Una pratica incarnata, come una danza rituale, una tecnica agricola ancestrale, un gesto cerimoniale, non è mai completamente rappresentabile in dati, perché non ha un testo da tradurre,  ha una presenza da abitare.

Secondo le ultime statistiche pubblicate da Common Crawl, i documenti web classificati come in lingua inglese rappresentano il 44,3 % del totale, mentre l’inglese è parlato, come madrelingua o seconda lingua, da circa il 20 % della popolazione globale. L’hindi, con oltre 600 milioni di parlanti, circa 7,5 % del mondo, compare in appena 0,19 % delle pagine raccolte. Il tamil, con più di 86 milioni di parlanti, vale appena lo 0,04 %. L’italiano è presente per oltre il 2 %. Quasi la totalità delle lingue della terra viene scartata, non per errore, ma per design.

Perché questi dati non sono neutrali e non restano confinati nel dominio statistico ma alimentano direttamente l’addestramento dei modelli linguistici generativi più diffusi, GPT, Claude, Gemini, molti altri, che usano Common Crawl, o sue varianti filtrate, come uno dei corpus principali. Anche se il gruppo dei dati viene deduplicato, filtrato e ripesato, la gerarchia linguistica originaria rimane intatta. I modelli, come ormai sappiamo bene, non imparano tutte le lingue allo stesso modo: apprendono in modo massiccio dall’inglese e solo marginalmente da tutto ciò che esce dal paradigma occidentale standard. Non è un problema di performance, ma di epistemologia: ciò che si impara di più viene trattato come norma, ciò che si apprende poco viene trattato come eccezione da tradurre. Di fatto, l’intelligenza artificiale generativa non apprende le lingue del mondo, apprende a tradurre il mondo nell’unica lingua che la struttura può comprendere. Le lingue subalterne non solo non parlano, vengono parlate da una macchina che non ne conosce né la grammatica né la geografia, né, e questo è quello che qui mi interessa, la corporeità da cui sono nate.

E fin qui nulla di nuovo se non i dati aggiornati di Common Crawl.

Però è proprio qui che la disuguaglianza digitale si trasforma in cancellazione cognitiva: ciò che non è rappresentato nei dati non viene appreso, e ciò che non viene appreso smette di esistere come possibilità. Tradizioni orali, pratiche incarnate, codici territoriali, forme di sapere non testuale o non lineare, tutto ciò che non è convertibile in token viene escluso. Non perché irrilevante, ma perché eccede la logica della codifica: non funziona su segmenti lineari, non produce output testuali stabili, non si presta alla predizione statistica. Una narrazione orale non è una sequenza, è un campo relazionale che si attiva nel tempo, tra corpi e generazioni, e vive solo nel momento della trasmissione. Una pratica incarnata, come una danza rituale, una tecnica agricola ancestrale, un gesto cerimoniale, non è mai completamente rappresentabile in dati, perché non ha un testo da tradurre: ha una presenza da abitare. Un sapere territoriale, tramandato tra suolo, vento, animali, variazioni di stagione e memoria intergenerazionale, non si piega alla logica del dataset perché non separa mai conoscenza e contesto, non generalizza, non scala.

Le AI generative, anche quando chi le fa dice che sono plurilingue o culturalmente inclusive, non mette in discussione l’infrastruttura epistemica su cui si fondano: assume che il sapere sia qualcosa da estrarre, disincarnare, riorganizzare secondo pattern. Il problema non è l’inclusione linguistica, una dashboard di 100 lingue non cambia nulla, ma il fatto che il criterio stesso di cosa vale la pena apprendere è già definito dal paradigma computazionale. L’AI apprende ciò che può essere tokenizzato, e tutto ciò che non si presta alla tokenizzazione viene relegato al silenzio. Non siamo di fronte a un errore di rappresentazione, ma a un processo attivo di sostituzione sistemica. Le forme di vita che non si conformano al modello non vengono negate apertamente, vengono inglobate come folklore, adattate come eccezioni, digerite come curiosità culturali, mentre il pensiero che le ha generate, il pensiero altro, viene messo fuori campo..

E se questa cancellazione non si limitasse alle lingue umane? Se il problema non fosse solo ciò che non viene scritto, ma ciò che non parla in codice umano? L’infrastruttura cognitiva su cui si fondano le AI generative non sa nemmeno immaginare una forma di intelligenza che non sia linguistica, sequenziale, simbolica. I saperi vegetali, animali, ecosistemici, le intelligenze diffuse, lente, simbiotiche, non solo non vengono addestrate ma non vengono nemmeno riconosciute come sapere. Non sappiamo raccogliere dati sulle piante, figuriamoci apprendere da loro. Il gesto della radice, il linguaggio delle micorrize, la memoria degli alberi, il silenzio intelligente del muschio o la cooperazione degli insetti non entrano nei corpus perché non si piegano alla semantica lineare della predizione. Il problema, allora, non è solo antropocentrico: è logocentrico, computazionalista, cieco alla vita.

Ma non tutto è già scritto nel codice; parlare di cancellazione e silenzio rischia di sembrare inevitabile, ma non lo è. Le infrastrutture non sono neutre, ma nemmeno immutabili: dietro ogni corpus ci sono scelte politiche concrete, quali lingue includere, quali corpus privilegiare, come pesare i dati, quali modelli open sostenere, quali comunità ascoltare. È qui che si gioca la posta: non sulla correttezza della rappresentazione, ma sulla redistribuzione del potere epistemico. La battaglia è aperta, e riguarda chi decide cosa può essere appreso e da chi.

Rimane che ciò che si perde, nel silenzio dei corpus, non è solo un contenuto: è la forma del sapere che non vuole farsi contenere. È il ritmo lento di un canto Tuareg che non viene mai scritto, ma si adatta al vento e alla sabbia; è il sapere di una comunità che non archivia, ma ricorda nel corpo; è ciò che non cerca di essere salvato, ma rifiuta di essere tradotto

Immagine: Mem-i Alan Destanı, 2015, di Ahmet Güneştekin. Dà forma visiva a un sapere orale e non codificato, incarnando la resistenza alla cancellazione epistemica operata dalle AI generative. L’opera stratifica memoria, mito e territorio in una grammatica non traducibile in dati. È la rappresentazione di un pensiero altro, che rifiuta di farsi contenere.