Appunti della conferenza Diritto romano e scienze antichistiche nell'era digitale Firenze, 12-13 settembre 2011

13 settembre 2011, Relazioni del pomeriggio

Andrea Bozzi, "La filologia del testo assistita da calcolatore"

14.45 Bozzi oggi presenterà un ambiente di lavoro (penso che si tratti di BAMBI) che assiste il filologo nel lavoro sul testo, a prescindere sulla destinazione finale (stampa o fruizione digitale).

L'ambiente di lavoro è suddiviso in due parti, è open source. I collaboratori che lavorano al testo usano un sistema di controllo degli accessi (ben noto in ambito web).

Il sistema non è ancora molto testato, anche se è già stato applicato in progetti italiani e internazionali, tra cui il progetto "Greek into Arabic".

Negli ultimi anni è stato difficile per il CNR di Pisa trovare personale esperto di informatica che potesse sviluppare questo tipo di moduli.

Sono ancora in sviluppo alcuni moduli, tra cui quello per la creazione di un lessico a partire da una serie di testi (che fa capo alla teoria dei lessici computazionali). Ci sono poi moduli per stemming e lemming, che portano alla creazione di indici lessicali. Insomma, il sistema è modulare e può accettare nuovi moduli man mano che i finanziamenti permettono di svilupparli.

Le due parti del software sono: 1. Supporto all'attività editoriale (stabilire il testo filologiamente); 2. indicizzazione (creazione di indici lemmatizzati).

Si può anche modellizzare la critique génetique, cioè le varianti d'autore, anche se su questo non si è sperimentato abbastanza.

Prima parte: componente editoriale. Bozzi proietta slides con schermate del programma.

Il software può fare la collatio tra due codici (tra le trascrizioni digitali di due codici) automaticamente. Il filologo può commentare una variante.

Qui nelle fasi di lavoro il testo constitutus non ha nessuna primazia: tutte le varianti sono sullo stesso piano.

Questi sistemi sono pensati per essere usati da un gruppo di lavoro, da una community di studiosi.

Le varianti possono trovarsi in una trascrizione digitale di un manoscritto, oppure in una porzione (un rettangolo) di un'immagine digitale di un manoscritto.

Esempio: progetto Greek into Arabic. Si occupa di traduzioni arabe di testi greci. Si fanno confronti tra pericopi di un testo greco e le pericopi corrispondenti di uno arabo.

Indicizzazione. L'esempio di Greek into Arabic.

Esempio. Digitalizzazione dei manoscritti di F. de Saussure (PRIN 2008, Daniele Gambarara, Università di Cosenza con la collaborazione dell'università di Ginevra). Qui si sono usate le ontologie, d'accordo con la comunità scientifica dei 'saussuriani'. Questo dà molti vantaggi perché, ad esempio, Saussure fa osservazioni su un medesimo tema (ad es. il Lituano) in moltissimi manoscritti diversi, quindi i linked data sono utili (l'utente può passare da un manoscritto all'altro: una navigazione tra i mss. concettualmente orientata).

Conclusione. Per questi progetti si sono dovuti distribuiti i compiti. Pisa: coordinamento scientifico. Firenze: pubblicazione sul web. Purtroppo ci sono stati ritardi dovuti ai pochi finanziamenti.

Paolo Mastandrea, "Filologia latina e testo elettronico. La ricerca dei prototipi letterari in poesia epigrafica"

15.15. Mastandrea inizia presentando Musisque Deoque. L'archivio arriva fino a Eugenio di Toledo (Spagna dei Visigoti). Contiene tutta la poesia latina.

Molti testi hanno l'apparato critico. Si può fare una ricerca testuale che include anche l'apparato critico. La consultazione online ora è libera. Si è scelto di inserire nell'apparato digitale solo quelle informazioni che possano realmente interessare il lettore (ad es., dell'apparato di Geymonat su Virgilio non sono state digitalizzate le varianti puramente grafiche).

Si può fare anche una ricerca per metri: quali autori hanno scritto in un certo metro.

C'è una sezione "epigraphica". Di questo parlerà più diffusamente oggi.

Interoperabilità tra testo e immagini. Da un paio d'anni Mastandrea si occupa di Ennio, e di cercare di recuperare i testi perduti di Ennio. In effetti, oltre ai frammenti chiaramente ascrivibili a Ennio, ci sono versi dei versificatori tardoantichi che imitano e riechieggiano Ennio.

Nella sezione "epigraphica" del sito ci sono epigrafi tratte dal CIL. Dopo Bücheler non è più stato pubblicato un corpus unitario di poesia epigrafica. Invece la sezione epigraphica di Musisque Deoque li raccoglie. Il lavoro di immissione dei dati in questa sezione del sito è appena iniziato, quindi è ancora in fieri.

15.35. A questo punto Mastandrea passa a commentare un testo latino che ha distribuito in un hand-out cartaceo (Ennio, varia, 19-20 Vahlen2. Fa quindi una ricerca su MqDq per l'incipit di questo passo ("Hic est ille") in testi in metro dattilico. La ricerca viene fata sia nei testi letterari sia nei testi epigrafici. Nelle epigrafi c'è spesso la formula "Hic est ille", nel senso di "Qui c'è il corpo di...": il modello di questa formula è enniana.

Altro esempio (punto 2 dell'hand-out): CLE 1224, un testo epigrafico. In questa iscrizione la iunctura "di rapuerunt" è presa da Ennio, "di genuerunt".

Punto 3 dell'hand-out: CLE 1814. Qui i ricordi enniani sono due.

Punto 4 dell'hand-out: CLE 1560 a. Qui il ricordo enniano sono le parole finali "lauit et unxit", qui risemantizzato in un'epigrafie crisitana (lavo: battesimo; ungo: estrema unzione). In quest'epoca il battesimo veniva per lo più dato in articulo mortis.

Punto 5 dell'hand-out: CLE 01476. Anche qui c'è un rimando a Ennio, Annales. Accostando l'iscrizione a Ennio si capisce che essa non va interpretata in senso materialistico, ma in relazione all'anima che torna al cielo.

Maurizio Lana, "Metodi quantitativi nell’attribuzione dei testi. Un caso di studio romanistico: Ausonio"

16.10. Problema: è possibile individuare le costituzioni teodosiane nella cui redazione sia intervenuto lo scrittore Decimo Magno Ausonio?

Lana ha lavorato sui testi in prosa di Ausonio.

I corpora che ha usato: PHI, digilibT (che Lana dirige all'Univ. del Piemonte Orientale), musisque deoque, BIA, ALIM (latino medievale), grammatici latini (lavoro di Marinone, accessibile online).

Si tratta non di fare solo le cose vecchie con strumenti nuovi (ad es. le concordanze), ma cose nuove. Una di queste attività nuove sono gli studi sull'attribuzione basati su metodi quantitativi.

Attribuzioni con metodi quantitativi: abbiamo bisogno di metodi nuovi. Un problema è costituito da testi che contengono citazioni di altri autori: tali citazioni vanno espunte.

Tripartizione metodi, protocolli, dati. Ma in cosa consistono effettivamente questi metodi quantitativi per le attribuzioni? Bunjakovskyj 1857, un matematico russo. Da lui a noi si sono sperimentati almeno 400 metodi differenti per l'attribuzione con metodi quantitativi.

Nel 2004 P. Juola bandisce una gara internazionale di attribuzione di testi detta "aaac". Risultarono vincitori i metodi basati sull'analisi degli n-grammi (sequenze alfanumeriche di linghezza n).

N-grammi: quindi non vengono scelti specifici fenomenici linguistico-testuali.

Stilometria e quantitative authorship attribution sono la stessa cosa? No: meglio quantitative authorship attribution. Perché qui non si tratta di 'stile'. Non si tratta di individuare lo 'stile' di un autore, e confrontarlo poi con testi di autorialità ignota. La stilometria viene chiamata in ambito britannico negli anni '60 "stylistic fingerprint". In UK il "metodo di Morton" (che era stato usato anche in ambito gudiziario) venne smentito in una diretta televisiva.

La stilometria ha a che fare con cose come la lunghezza delle parole e delle frasi, il rapporto sostantivi-aggettivi etc. Ne resta estranea però la semantica. Ancor più inafferrabile il fatto che lo stile di un autore cambia di opera in opera. Meglio quindi non cercare di 'misurare lo stile', ma adottare un approccio più neutro.

Meglio quindi accostare i testi a coppie per misurare lo scarto tra di essi.

Progetto commissionato dall'Istituto Gramsci: individuare quali articoli anonimi sono stati scritti da Gramsci. Metodo usato: n-grammi più entropia informativa relativa.

Cos'è la entropia informativa relativa? Esempio: quando usiamo programmi di compressione. Ad esempio: se c'è un testo con cento 'a' di seguito, si può comprimere in 'cento volte a' (piuttosto che 'aaaaaaaaa...'). Un testo in linguaggio naturale non è così facile da comprimere, ma ci sono sequenze che si ripetono: così lavorano i programmi di compressione, partendo dalle sequenze più comuni, fino alle sequenze senza alcuna regolarità (quindi a entropia informativa massima).

Se provo a comprimere un testo B con lo stesso algoritmo usato per un testo A, il testo B si comprimerà tanto più quanto A e B sono simili: ecco un indice della somiglianza dei due testi. Il metodo è stato testato e dà percentuali di successo tra 88% e 100%.

Il caso delle attribuzioni di Ausonio. È difficile perché abbiamo pochi testi in prosa di Ausonio e perché lo stile della prosa letteraria è molto diverso da quello della scrittura giuridica. Inoltre, i testi delle leggi sono troppo brevi (ci vorrebbero, in italiano, testi di almeno 250 parole; in più, il latino ha grande variazione morfologica, quindi ci vogliono almeno 500 parole).

In una situazione ottimale, bisognerebbe fare prima dei test e poi un esperimento. Questo per vedere se il metodo adottato può funzionare su quel tipo di testi. I test vanno fatti su testi di cui si sa esattamente l'attribuzione, più dei testi 'disturbatore' che si sa che non appartengono all'autore noto. In questo modo si calibrano gli n-grammi in modo da ottenere i risultati ottimali.

Testi su cui si è lavorato: 2 testi in prosa e molti testi in poesia di Ausonio. Le leggi del 379 (anno del consolato di Ausonio). Testi di disturbo usati: leggi di altri Ausonio (omonimi dell'ausonio scrittore); varie leggi degli anni prima o dopo il 379.

Problemi: i testi di legge sono pochi e molto brevi. Il latino ha grande variabilità grafica rispetto all'italiano, a causa della flessione nominale.

Qui si è dovuto fondere la fase di test alla fase di analisi (non si possono fare test su molti altri testi).

Risultati: l'ipotesi non è verificata. Non si sono notati scarti statistici di rilievo. La questione rimane aperta. Ma il metodo rimane valido.

16.40.Cosa rimane in positivo? Che abbiamo analizzato un metodo di ricerca che si può usare per altri testi, magari più ampi. All'uomo dovrebbe pertenere la capacità di individuare i problemi; per risolvere questi problemi, si può ricorrere alla macchina.

Licenza Creative Commons
Quest'opera è distribuita con Licenza Creative Commons Attribuzione - Condividi allo stesso modo 4.0 Internazionale.