Abstract

Giuseppe Ferrara, Philo-1-preview .Un modello T5-Base per l’emendazione dei testi antichi

In questo paper, si presenta Philo-1-preview, un Large Language Model di tipo Seq2Seq di 297 milioni di parametri ottenuto mediante un’operazione di fine-tuning condotta su PhilTa, una variante encoder- decoder multilingue di T5-Base pre-addestrata sul greco antico e sul latino, e specializzato nell’individuazione e nella correzione degli errori di maiuscola, minuscola, pronuncia, dittografia e aplografia, combinati o isolati, che si possono riscontrare nel testo tradito di molte opere antiche. Il suo sviluppo è stato guidato da un approccio al problema diverso da quelli già sperimentati in progetti precedenti, quali Bentley e Ianus, di cui Philo-1-preview e il suo sistema di front-end Ianus AI rappresentano i diretti discendenti, e Latin BERT e Logion: l’emendazione non viene più trattata come un processo meccanico da risolvere con un algoritmo rule-based o come un task di fill-mask, ma come un task di generazione di testo (text-to-text) combinato con un’operazione di denoising. I dataset utilizzati per il fine-tuning del modello sono stati ricavati dai corpora di testi greci e latini presenti su Perseus Digital Library, dopo alcune opportune operazioni di pre-processing volte a isolarne le parti effettivamente scritte nelle lingue di interesse e a normalizzarne i criteri di trascrizione. In fase di valutazione, Philo-1-preview ha mostrato prestazioni molto elevate nel compito per cui è stato progettato, con un BLEU score di 67.50 e un cross-entropy loss di 0.078. Il confronto con Latin BERT e Logion ha evidenziato che Philo-1-preview fornisce correzioni dei testi antichi di qualità superiore a quelle degli altri modelli, almeno per gli errori su cui è stato condotto il fine-tuning. Per superare i limiti di questo modello, si è già iniziato a lavorare allo sviluppo di un modello BART che sia in grado di identificare e correggere, in autonomia, tutte le tipologie di errori riscontrabili nella tradizione delle opere antiche.

Paolo Monella Curriculum
DH bibliography
Paolo Monella home page