La capacità di simulare la lingua, come nel caso di ChatGPT, non rappresenta solo un avanzamento tecnico nel processamento macchinico del linguaggio naturale. È piuttosto un passaggio di civiltà che scardinerà economie, imprese e mercati.
di Cosimo Accoto
In un periodo in cui è sempre più intenso il dibattito sui sistemi basati sull’intelligenza artificiale, come ChatGPT e altri, affrontare la questione dei linguaggi sintetici, simulativi e inflattivi equivale a fronteggiare un passaggio di civiltà epocale e non episodico. Un passaggio molto commentato al momento, ma poco esplorato e compreso nella sua portata. Tecnicamente, il dispositivo che istanzia un “modello linguistico su larga scala” (LLM o large language model) è un assemblaggio socio-tecnico generativo fatto di abilità diverse connesse a molteplici architetture computazionali e risorse informative. La capacità di simulare il linguaggio nella sua forma testuale, di aggiustarlo in modalità contestuale, di archiviare conoscenza e informazione, di eseguire istruzioni e compiti linguistici, di sintetizzare temi con affinamento scalare, di originare sequenze di argomentazioni e tentativi di ragionamento per step, di articolare risposte e costruire dialoghi sono il frutto di un’orchestrazione complessa fatta di programmi software, dati e archivi informativi, algoritmi di apprendimento profondo anche a rinforzo umano, modelli matematico-stocastici della lingua. Si tratta, dunque, di un insieme di tecnicalità e operatività ingegneristico-computazionali intrecciate (training on code, transformers, pre-training modeling, instruction tuning, words tokenization, reinforcement learning con human feedback…) in grado di sequenziare statisticamente il linguaggio naturale umano. Il tutto, in molti dicono, per bilanciare e contrastare l’hype del momento – senza relazione di senso col reale. Vale a dire, cioè, senza che quel linguaggio macchinico sappia in realtà nulla del mondo e senza che abbia una qualche comprensione dei suoi significati. L’espressione usata, “pappagalli stocastici”, evoca questa scrittura simulativa verosimile, ma insensata.
Dentro le meccaniche di un LLM
Ma cos’è, in ultima istanza, un large language model? Possiamo dire che un LLM è un sequenziatore linguistico-probabilistico a bassa crossentropicità. Dunque, ridotto ai suoi minimi termini, è un modello matematico della distribuzione di probabilità delle parole di una lingua scritta che si sforza di minimizzare la crossentropia (cioè lo scarto tra due potenziali distribuzioni di frequenza) massimizzando, di conseguenza, la sua capacità performativa come text predictor. Come ha raccontato Binder (Language and the Rise of Algorithm, 2022), questo approccio è il frutto di un lungo percorso nella storia moderna del processamento del linguaggio naturale (NLP) che, partendo a inizio Novecento dalle catene di Markov applicate alla letteratura (sequenza di vocali e consonanti di un romanzo) e passando per i lavori di Shannon e Weaver a metà anni Cinquanta sulla misura dell’entropia e la distribuzione delle probabilità (n-grams e sequenza probabilistica di parole nella lingua), arriva a inizio anni Duemila con Bengio e colleghi all’applicazione delle reti neurali artificiali per il processamento del linguaggio naturale (neural NLP). Anche con importanti sviluppi recenti come l’impiego dei trasformatori (transformers) in grado di incorporare nell’analisi probabilistica del linguaggio la dimensione contestuale delle parole nelle frasi.
È molto importante, però, comprendere bene tecnicamente qual è il lavoro tecnico-operativo – invisibile ai più – dei modelli linguistici computazionali. E capire la loro relazione e differenza con il linguaggio naturale umano. Riprendendo le avvertenze di Shanahan (Talking About Large Language Models, 2022), quando si interroga un sistema di questo tipo chiedendo di completare una frase (ad esempio, “l’autore della Divina Commedia è …”) e ottenendo una determinata risposta (“…Dante”), in questo dialogo noi e la macchina intendiamo due cose molto diverse. Noi vogliamo sapere chi ha scritto nella realtà storica il famoso poema. La macchina, invece, intende “quale parola è statisticamente più probabile che segua nella sequenza della frase “l’autore della Divina Commedia è…”? Dentro gli archivi informativi con cui è alimentato il modello troverà che “Dante” è la parola più frequentemente associata nella sequenza di parole della frase in questione. Nel caso di specie e più filosoficamente, dunque, con la sua interrogazione, l’umano intende dire e chiede di conoscere un elemento di concreta “verità storica” del mondo. Dal suo canto la macchina, invece, intende processare e può solo restituire un risultato di pura “probabilità linguistica” del testo.
Lingua, pensiero, mente e mondo
Tuttavia, e qui è il punto critico, l’umano – preso tra antropomorfismi e sociomorfismi – immagina che la macchina comprenda la domanda e che arrivi alla risposta nello stesso modo in cui fa lui. Dunque, per non rimanere vittime di hype (ma anche per non perdere delle opportunità di business), occorre distinguere – come mostra un lungo studio sulla “dissociazione tra linguaggio e pensiero nei LLM” (Mahowald, Ivanova e altri, 2023) – le competenze linguistiche “formali” dalle competenze linguistiche “funzionali”. Le prime (quelle formali) si riferiscono alla capacità del processamento macchinico del linguaggio naturale in grado di riconoscere la struttura sintattica di una lingua, le sue regole grammaticali, le sue regolarità nella costruzione delle frasi. E, quindi, poi di riprodurla e simularla probabilisticamente. Le seconde (quelle funzionali) riguardano le capacità proprie del cervello umano di costruire un linguaggio che è in relazione col mondo e che ci consenta cognitivamente di agire in esso impiegando la percezione e i sensi, la comunicazione e gli altri, il ragionamento e le interazioni.
I successi raggiunti dai LLM nelle competenze formali non devono trarci in inganno rispetto alle seconde che, ad oggi, rimangono lontane da quelle umane. Da qui anche la necessità e l’importanza di nuove pratiche disciplinari come il prompt engineering e design. Interrogazioni, istruzioni, dati, esempi sono di norma gli input impiegati per sollecitare la macchina a produrre, attraverso un modello matematico ottimizzato su token linguistici, l’output desiderato (una conversazione, un testo, un riassunto …). Per una buona produzione dell’output, l’ingegneristica dello spunto (prompt engineering) necessita di avere una qualche comprensione del meccanismo/modello impiegato dalla macchina, oltre che una qualche conoscenza del dominio disciplinare di riferimento.
In ogni caso, ad oggi potenzialità e meraviglie, ma anche limitazioni, allucinazioni, inventive, errori lessicali, sintattici, semantici e retorici di ChatGPT et similia sono conseguenti a questa peculiare modalità operativa di processamento computazionale, probabilistico e simulativo, della lingua. In prospettiva, si stanno però già prefigurando e testando integrazioni di capacità elaborative neuro-simboliche e funzionali nei modelli linguistici a larga scala per ovviare alle attuali, evidenti limitazioni.
Solo pappagalli stocastici?
In questo frangente, qualcuno velocemente viene riproponendo il ban platonico delle arti imitative (“della cosa imitata l’imitatore non sa nulla che valga nulla” scriveva Platone nella Repubblica) nella sua versione contemporanea degli stochastic parrot, dei pappagalli probabilistici, come anticipavo. Altri ingenuamente si stupiscono delle nuove meraviglie tecnologiche simulacrali e del grado di verosimiglianza raggiunto e via via sempre più affinato a superamento di soglie un tempo immaginate invalicabili (e tra l’altro siamo in attesa, dopo GPT-3, di GPT-4 di molte magnitudini superiore). Di volta in volta, l’umano fronteggia questa presa di parola della macchina o con palese sufficienza (non c’è comprensione del senso) o con facile entusiasmo (una svolta nella generazione del linguaggio). Sono tuttavia visioni filosofiche deboli del momento e del passaggio strategico che viviamo perché cercano di depotenziare o banalizzare l’impatto culturale spaesante dell’arrivo dei linguaggi sintetici. Che non riguarda la questione di assegnare e riconoscere o meno intelligenza, coscienza, senzienza alle macchine. Piuttosto e in prospettiva, l’arrivo del “linguaggio sintetico” (come scrivono Bratton e Aguera Y Arcas, The Model is The Message) scardina e decostruisce (Gunkel) in profondità gli apparati, i domini e i dispositivi istituzionali del discorso, della parola e del parlante così come della scrittura e dell’autorialità.
La presa di parola della macchina sarà un’operazione più profonda e spaesante nel lungo periodo (e disruptive su industrie e mercati: dall’educazione all’intrattenimento, dal giornalismo al marketing). Anche le big tech, Google in primis, sono in allarme rosso. Più culturalmente e strategicamente, dobbiamo però marcare meglio questa discontinuità. In primis, il fatto che non ci sia “comprensione di senso” (punto da approfondire e da non dare per già facilmente sciolto) non significa, ad esempio, che non ci sia comunque produzione/circolazione di senso e di impatto per l’umano coinvolto nell’assemblaggio sociotecnico. Il senso circola sempre in qualche forma attraverso l’intelligenza, o non intelligenza, dell’umano che leggerà (anche inconsapevole di ingannarsi sul processo simulativo in atto). La cosiddetta “intelligenza artificiale” non è pensabile in sé e per sé (come mero artefatto tecnico) come spessissimo viene intesa, ma sempre con altri e per altri (come assemblaggio sociale). E, qui, antropomorfismi e sociomorfismi sono sempre all’opera con i loro pregi (empatia e efficienza) e i loro rischi (intrasparenza e manipolazione).
Macchine che prendono la parola
D’altro canto, dire che è una svolta nella produzione del linguaggio lascia inesplorata la natura di questa operazione senza precedenti di “strutturalismo sperimentale”, come l’ha definita Rees nel suo Non-Human Words (2022). Quindi, sostenere a proposito dei LLM che si tratta di meri pappagalli stocastici significa non comprendere la portata culturale epocale di questo passaggio alla “parola non-umana”. La prerogativa storica della parola (simulata) ai soli umani mostra segni di cedimento. Passaggio che la teoria letteraria e la filosofia continentale avevano anticipato. Ad esempio, tutta la riflessione sulla “morte dell’autore” con Barthes (La mort de l’auteur) e Foucault (Qu’est-ce qu’un auteur?) come ci ha ricordato il filosofo Gunkel in una sua serie di post su Twitter a fine 2022. In questa prospettiva, precisa Gunkel, la parola/scrittura della macchina rappresenterebbe la fine dell’autorialità (per come l’abbiamo conosciuta, trasformata e operazionalizzata storicamente finora) e l’inizio di un nuovo percorso/discorso della parola, del linguaggio, della scrittura, della proprietà intellettuale e così via. Con tutte le sue opportunità e tutte le sue inquietudini, vulnerabilità e rischi. Dunque, continua Gunkel, non sarebbe la fine della scrittura, ma la fine dell’autore (nella sua forma storica attuale).
Ma, insieme all’autorialità che entra in questione e in crisi, siamo anche all’avvio più complessivamente di una nuova era inflazionaria della parola (e dei media più in generale). Che, come tutti i passaggi mediali inflattivi, scardina per un verso e istituzionalizza per l’altro nuovi ordini del discorso, nuovi regimi di verità e falsità, nuove logiche e dinamiche di economia politica e di potere. Come ha scritto Jennifer Petersen nel suo How Machines Came to Speak (2022) «…molti impieghi dei bot e dell’apprendimento automatico ristrutturano il discorso, riorganizzando le posizioni di chi parla, del testo e del pubblico – e, così facendo, cambiano ciò che significa essere un soggetto parlante … il momento attuale potrebbe essere un’occasione per ripensare alcuni dei nostri assunti fondamentali sul discorso». La parola è potere. Come direbbe Foucault, in che forme sorprendenti e arrischiate verremo allora parlati dalla nuova lingua sintetica?
Imprese e nuove uncanny valley
Quel che è certo è che con i linguaggi sintetici non siamo di fronte solo a nuovi problemi tecnologici, ma anche e soprattutto a nuove o rinnovate provocazioni culturali e sorprendenti paradossi (tra il dentro e il fuori del testo, tra il linguaggio e la sua relazione col mondo, tra la presa di parola della macchina e l’esperienza dell’umano che viene parlato). E, se i problemi tecnici richiedono una soluzione ingegneristica, le provocazioni intellettuali ci sollecitano piuttosto all’innovazione culturale. Di questa le imprese hanno un urgente bisogno per attraversare, abitare e prosperare in queste nuove uncanny valley.
Cosimo Accoto è filosofo tech, research affiliate e fellow (MIT Boston), adjunct professor (UNIMORE). È autore di un’originale trilogia filosofica sulla civiltà digitale (Il mondo in sintesi, Il mondo ex machina, Il mondo dato). Startup advisor e instructor, Accoto ha pubblicato su Economia & Management (SDA Bocconi), Harvard Business Review Italia, Il Sole 24Ore, Sistemi & Impresa, Aspenia, MIT Sloan Management Review Italia.