What's in a Topic Model: I fondamenti del text mining negli studi letterari

Fabio Ciotti

Authorship

1. Fabio Ciotti

Università di Roma Tor Vergata

Work text

This plain text was ingested for the purpose of full-text search, not to preserve original formatting or readability. For the most complete copy, refer to the original conference program.

Introduzione
Nel 1975 William A. Wood, ricercatore alla Bolt Beranek and Newman (una delle culle di Internet), pubblicò un articolo dal titolo “What's in a link” . Il lavoro, che determinò una svolta nella storia dell'Intelligenza Artificiale e in particolare della Knowledge Representation, consisteva in una serrata e argomentata critica della nozione di rete semantica (in tutte le sue varie accezioni, dal primo modello proposto da Ross Quillian alla più avanzata nozione di
conceptual dependencies di Roger Shank), il concetto centrale di gran parte delle teorie di semantica computazionale. Il problema secondo Wood era che quella nozione non era fondata teoricamente (Wood, 1975): “there is currently no 'theory' of semantic networks. The notion of semantic networks is for the most part an attractive notion which has yet to be proven. Even the question of what networks have to do with semantics is one which takes some answering.”

Nel suo titolo questo paper allude, immodestamente, al lavoro di Wood poiché si propone di affrontare, con lo stesso atteggiamento critico, i fondamenti teorici di una nozione e di un metodo che sono oggi molto diffusi negli studi letterari computazionali: quella di topic modeling, ovvero l'individuazione statistico/probabilistica dei cluster lessicali che caratterizzano un insieme di testi, e l'analisi delle loro distribuzioni (Underwood, 2012a; Blei, 2013). Occorre chiarire che quando parliamo di fondamenti teorici ci riferiamo al ruolo che tale nozione può giocare nel contesto di una teoria del testo e di una metodologia della critica letteraria, e non ai suoi aspetti puramente matematici, che sono ovviamente saldamente basati sulla statistica e sulla teoria della probabilità bayesiana (Blei, 2012).

Il distant reading e l’interpretazione
Come noto le tecniche di topic modeling rientrano nell'insieme più generale di metodi e approcci all'analisi computazionale dei testi letterari che Mario Moretti, con una formula di notevole successo coniata in antinomia con il metodo critico tradizionale, ha definito “distant reading” (Moretti 2013b: 48):
what we really need is a little pact with the devil: we know how to read texts, now let’s learn how not to read them. Distant reading: where distance, let me repeat it, is a condition of knowledge: it allows you to focus on units that are much smaller or much larger than the text: devices, themes, tropes— or genres and systems.
Tra i numerosi ricercatori che, con interesse se non addirittura con entusiasmo, hanno adottato questi metodi si nota talvolta una specie di atteggiamento riduzionista secondo cui i fenomeni letterari possono essere ridotti senza residui a fenomeni quantitativi misurabili e analizzabili in virtù di metodi puramente numerici e statistici (Jockers, 2013):
Close reading is not only impractical as a means of evidence gathering in the digital library, but big data render it totally inappropriate as a method of studying literary history […] massive digital corpora offer us unprecedented access to the literary record and invite, even demand, a new type of evidence gathering and meaning making.
A questo atteggiamento ovviamente si oppone una posizione che rivendica la radicale irriducibilità della letterarietà e/o dell'ermeneutica letteraria, la loro natura qualitativa. La tesi che intendo difendere in questo paper è la seguente: un metodo quantitativo o computazionale riveste interesse come strumento critico letterario nella misura in cui fornisce dati osservativi che possono essere correlati a termini o nozioni teoriche rilevanti per la teoria e la critica letteraria. In particolare, ritengo che le teorie semiotiche del testo letterario rappresentino una fonte di modelli e teorie di enorme utilità in ambito computazionale.
L'interpretazione di un testo letterario consiste nella creazione ed elaborazione di una serie di nozioni intenzionali adottate per spiegarne il funzionamento: nozioni come quella di storia, personaggio, eroe, autore e lettore, descrizione. Possiamo dire che la scuola semiotica nella teoria e nella critica letteraria ha adottato verso queste nozioni la stessa strategia che la corrente funzionalista nella teoria della mente ha avuto verso i termini della psicologia del senso comune: ne ha fornito una spiegazione in termini di concetti (come quella di attante, funzione narrativa, fabula, intreccio, isotopia) e modelli formali più rigorosi. Questi concetti non negano la natura intenzionale dell'interpretazione, ma non la intendono come un fenomeno irriducibile, bensì ne tentano una spiegazione al livello del progetto, per usare i termini del filosofo Daniel Dennet (Dennet, 1990). Lo stesso Eco ha descritto questo doppio livello esplicativo introducendo la distinzione tra interpretazione semantica e interpretazione critico/semiotica (Eco, 1990: 29):
L’interpretazione semantica o semiosica è il risultato del processo per cui il destinatario, di fronte alla manifestazione lineare del testo, la riempie del significato. L’interpretazione critica o semiotica è invece quella per cui si cerca di spiegare per quali ragioni strutturali il testo possa produrre quelle (o altre alternative) interpretazioni semantiche.
D'altronde è lo stesso Moretti (che in questo mostra una accortezza teorica e una conoscenza del campo letterario non riscontrabile in altri autori) a suggerire questa via in uno dei suoi migliori saggi teorici adottando la nozione epistemologica di “operazionalizzazione” come processo di traduzione di un termine teorico in una procedura sperimentale (Moretti, 2013a):
Operationalizing means building a bridge from concepts to measurement, and then to the world. In our case: from the concepts of literary theory, through some form of quantification, to literary texts.

Topic model e loro possibili interpretazioni
Accettando il suggerimento metodologico di Moretti, quale nozione teorica della teoria letteraria viene operazionalizzata dal concetto statistico di
topic model? O per usare un linguaggio più caro ai praticanti delle tecniche di
text mining, di quale fenomeno letterario funge da “proxy” un topic model?

Dal punto di vista tecnico il
topic modeling è una tecnica di text mining non supervisionata. Esistono diversi algoritmi di topic modeling, ma ad oggi il più diffuso è quello noto come Latent Dirichlet Allocation (LDA), fondato su un approccio probabilistico bayesiano. In modo intuitivo possiamo dire che alla base di LDA vi è un semplicistico modello generativo del testo: quando un autore scrive un testo in prima battuta sceglie l’insieme degli argomenti (topic) di cui vuole parlare e poi determina la proporzione con cui ciascun argomento sarà presente. Ammettiamo ora che ogni possibile topic possa essere caratterizzato come un insieme di parole con una data distribuzione: una specie di sacchetto di parole dove le parole possono essere ripetute in ragione diversa a seconda delle loro rilevanza rispetto all'argomento. Il nostro autore dunque potrà “pescare” in modo casuale dai vari sacchetti che corrispondo agli argomenti di cui intende scrivere ed estrarre da ciascuno un numero di parole proporzionale al peso che intende assegnare a ciascun argomento. Alla fine non dovrà fa altro che mettere in sequenza il suo mucchietto di parole ed ecco che avrà ottenuto il suo testo, in cui ovviamente le parole avranno una distribuzione determinata dalla rilevanza degli argomenti/sacchetti da cui sono state estratte. In termini tecnici si dice che in LDA un testo è una distribuzione di probabilità su un insieme di topic e un topic una distribuzione di probabilità su un insieme di parole. La cosa interessante di questo semplice metodo modello generativo è che può essere invertito: otteniamo in questo modo un algoritmo che è in grado di estrapolare i topic prevalenti in un insieme di documenti, ovvero la lista delle parole che co-occorrono con frequenza notevole e la loro distribuzione di probabilità.

I problemi tecnici dell'applicazione immediata di questo metodo (come di altri simili) in ambito letterario, sono diversi (Sculley and Pasanek, 2008). Ma qui ci interessa soprattutto il fatto che la nozione di topic non ha un chiaro statuto in ambito letterario: che cosa è quella lista di parole che costituisce un topic? E che cosa è la lista di topic (il topic model) nel suo insieme?
Le risposte possibili a questo quesito sono diverse: Ted Underwood ha proposto di interpretare i topic prodotti dal algoritmi come LDA come “discorsi”, ovvero “kinds of language that tend to occur in the same discursive contexts” (2012a). Ma questa proposta da un lato richiede che lo statuto del concetto di discorso sia meglio definito; dall'altro nella formulazione di Underwood sembra dare adito a circolarità, poiché è proprio la natura e la funzione letteraria di quel particolare insieme di parole che va spiegata. Altri possibili candidati come correlati teorici della nozione di topic sono le nozioni di tema e motivo, che hanno avuto una lunga storia teorica nella teoria letteraria del secolo scorso; ma anche in questo le varie accezioni che possiamo assegnare ai concetti di tema e motivo paiono avere poco a che fare con i risultati di un algoritmo come LDA. Temi e motivi sono entità di contenuto che possono manifestarsi linguisticamente in specifici sintagmi o enunciati, ma che possono altresì essere manifestate da vaste porzioni di testo (a limite un testo nella sua interezza) senza avere nessun correlato linguistico immediato (Segre, 1985) . Si identificano in quanto temi e non generici contenuti concettuali in virtù della loro natura di stereotipi culturali che risiedono nella memoria culturale collettiva a cui autori e lettori attingono, pur mutandone nel tempo e nello spazio i valori semantici connotativi. Altrettanto problematica la interpretazione di un topic model come
isotopia nel senso definito da Greimas (1985), intesa come classe paradigmatica di caratteristiche testuali discorsive che presentano una omogeneità semantica: infatti l’isotopia non è un fenomeno lessicale e soprattutto è il prodotto della cooperazione interpretativa del lettore, come la nozione di
topic discorsivo adottata da Eco in nel suo
Lector in Fabula (1979).

Conclusioni
La discussione delle possibili interpretazioni semiotico letterarie della nozione di topic modeling e la constatazione della difficoltà teoriche che esse presentano ci porta ad affermare che in effetti non è possibile trovare un unico e soddisfacente correlato teorico- letterario dei risultati di questi metodi di analisi quantitativa. La conseguenza di questa difficoltà nella definizione teorica, ovviamente, non deve essere il rifiuto di queste tecniche di analisi come metodi utili alla conoscenza dei testi letterari. Occorre tuttavia essere consapevoli che di volta in volta il ricercatore dovrà individuare, sulla base dei testi che ha sottoposto ad analisi, quale siano i fenomeni letterari che i risultati intendono spiegare. Ne consegue inoltre la fallacia dell'idea di adottare nella ricerca letteraria le strategie di analisi esplorativa tipiche dei metodi della
Big Data analytics. La natura intenzionale degli oggetti letterari rende impossibile individuare fenomeni rilevanti senza avere un modello o una ipotesi critica che orienti e regoli l’indagine.

Bibliography
Blei, D. (2012). Probabilistic topic models.
Communications of the ACM, 55(4): 77–84.

Blei, D. (2013). Topic modeling and digital humanities.
Journal of Digital Humanities, 2(1).

Dennett, D. C. (1990). The Interpretation of Texts, People and Other Artifacts.
Philosophy and Phenomenological Research, 50(S): 177-94.

Eco, U. (1979).
Lector in fabula: la cooperazione interpretativa nei testi narrativi. Milano: Bompiani.

Eco, U. (1990).
I limiti dell’interpretazione. Milano: Bompiani.

Greimas, A. J. (1985).
Del senso 2: narrativa, modalità, passioni. Milano: Bompiani.

Moretti, F. (2013a). Operationalizing: Or, the Function of Measurement in Literary Theory.
New Left Review, 84: 103-19.

Moretti, F. (2013b).
Distant Reading. London: Verso.

Sculley, D. and Pasanek B. M. (2008). Meaning and Mining: The Impact of Implicit Assumptions in Data Mining for the Humanities.
Literary and Linguistic Computing, 23(4): 409–24.

Segre, C. (1985). Tema/motivo. In Segre, C. (ed.),
Avviamento all’analisi del testo letterario. Torino: Einaudi, pp. 331-56.

Underwood, T. (2012a). Topic modeling made just simple enough.
The Stone and the Shell. https://tedunderwood.wordpress.com/2012/04/07/topic-modeling-made-just-simple-enough/.

Underwood, T. (2012b). What kinds of “topics” does topic modeling actually produce?.
The Stone and the Shell. http://tedunderwood.com/2012/04/01/what-kinds-of-topics-does-topic-modeling-actually-produce/.

Woods, W. A. (1975). What's in a link: Foundations for semantic networks. In Bobrow D. G. ad Collins A. (eds.),
Representation and understanding: Studies in cognitive science. New York: Academic.

Full text license: This text is republished here with permission from the original rights holder.

If this content appears in violation of your intellectual property rights, or you see errors or omissions, please reach out to Scott B. Weingart to discuss removing or amending the materials.

Conference Info

Complete

ADHO - 2016

"Digital Identities: the Past and the Future"

Hosted at Jagiellonian University, Pedagogical University of Krakow

Kraków, Poland

July 11, 2016 - July 16, 2016

454 works by 1072 authors indexed

Conference website: https://dh2016.adho.org/

Series: ADHO (11)

Organizers: ADHO

What's in a Topic Model: I fondamenti del text mining negli studi letterari

1. Fabio Ciotti

ADHO - 2016

"Digital Identities: the Past and the Future"