Appunti della conferenza Diritto romano e scienze antichistiche nell'era digitale Firenze, 12-13 settembre 2011

13 settembre 2011, Relazioni della mattinata

Nicola Palazzolo, Introduzione alle relazioni della mattinata

9.50. Si ricomincia. Stamattina cercheremo di essere più rigidi sui tempi per ogni intervento.

Francesco Arcaria, Patrizia Sciuto, Ignazio Zangara, "Da BIA e BD-Rom a BIA-Net: l’integrazione in rete degli archivi dei diritti dell’antichità"

10.00. Storia del progetto BIA. 1986: progetto INFOR (indice digitale automatizzato delle fonti per il diritto romano). 1988: BIA (Bibliotheca Iuris Antiqui). Scelta iniziale in favore del CD-Rom: perché non c'era ancora la banda larga. Il passaggio online.

10.20. Prospettive del progetto. Pubblicare su internet crea il rischio della dispersione dell'informazione e del dilettantismo. BIA Net vuole far appello alla collaborazione degli utenti: si elaboreranno strumenti a questo fine. Si potrebbero aggiungere le immagini dei manoscritti (soprattutto epigrafici e papirologici). Si potranno inserire anche testi di bibliografia full-text nell'archivio bibliografico Opera (in formati aperti e standard, non proprietari). I CD-rom continueranno comunque a restare in commercio.

Nicola Palazzolo, Risposta immediata alla relazione di Arcaria

Il problema è che oggi ci sono online moltissime fonti di diritto romano, ma non hanno vidimazione da parte della comunità scientifica (non si sa se corrispondono a edizioni critiche).

Inoltre è importante trasporre in termini informatici (standard) i simboli usati nelle edizioni critiche (corsivi, asterischi, parentesi etc.), e che spesso sono diversi di edizione in edizione.

Daria Spampinato, "L'uso degli standard XML per la gestione in rete dei documenti giuridici romani"

10.35. Riferirà degli aspetti informatici coinvolti in BIA. C'è stata un'unità di lavoro che si è occupata specificamente di questo (dell'aspetto informatico). Tutti gli archivi tustuali e bibliografici sono stati convertiti in XML standard. Obiettivi di questa unità: conversione di tutti gli archivi tustuali e bibliografici in XML standard; realizzazione di un prototipo di accesso web. Molti strumenti digitali per il diritto romano non sono facilmente estensibili perché troppo legate allo scopo specifico per cui sono stati pensati.

Obiettivi: dinamicità di un archivio web (che si possa estendere l'archivio, correggerlo etc.), accessibilità e interoperabilità con altri archivi, allineamento con hw e sw degli utenti (non dev'essere l'utente ad aggiornare il suo hw o il suo sw, ma il sito ad essere sempre accessibile agli utenti). Inoltre bisogna sempre consentire diverse interpretazioni da parte dell'utente (ad es. un umanista usa lo stesso testo che usa il romanista, ma per i suoi propri fini).

Standard dei caratteri, dei dati, delle applicazioni di gestione.

Standard dei caratteri: Unicode (è un'estensione del codice ASCII, quindi c'è portabilità sui sistemi precedenti che usavano ASCII).

Standard dei dati: XML. La realizzazione degli scopi specifici è demandata alle applicazioni (separazione tra contenuto/struttura vs. presentazione/scopi). Non solo dati, ma anche metadati.

Standard dei dati: TEI/XML. standard de facto, generalista. Supporta caratteri accentati, speciali e greci (in quanto XML).

Scelte di codifica. Analisi della struttura propria di ogni fonte e definizione di uno standard per la codifica digitale di fonti giuridiche antiche. Ma in ogni caso ogni fonte ha la sua struttura interna. Spesso si è partiti da documenti digitali non standard, ovvero fonti digitalizzate in formati non standard e senza metadati. Di questi documenti si è preso solo il testo , non il peritesto (prefazioni, indici, numeri di pagina). Sono stati marcati dati come i nomi dei giuristi, la subscriptio. Allo stato attuale (data la mole del testo) non si è potuto marcare di più.

L'archivio BIA comprende tre archivi separati: due sono "Fontes" (contiene i testi dei giuristi antichi) e "Opera" (un archivio bibliografico per la letteratura secondaria). Ora stanno lavorando a rendere standard anche Opera, usando l'implementazione XML del Dublin Core.

Le schede di Opera pre-standardizzazione comprendevano campi non coincidenti con quelli di Dubli Core, quindi la digitalizzazione è difficoltosa. Si è creato quindi un algoritmo di conversione dai dati d'origine in formati proprietari non standard all'XML Dublin Core. Ciò haincluso la normalizzazione di alcuni dati (es. date) e la comiplazione automatica di quattro nuovi campi Dublin Core, tra cui dc:identifier (inditificatore unico di ogni scheda), dc:isPartOf (riferimento a un identificaztore univoco della rivista, es. ISSN) etc.

Standard URI per l'identificazione delle risorse. L'URI identifica una qualunque risorsa, presente o meno sul web. Se la risorsa è effettivamente presente, il suo indirizzo è l'URL (o "http URI"). Obiettivo: assegnare un URI a ogni risorsa pubblicata (ad es. oa ogni scheda dell'archivio bibliografico Opera e a ogni fonte testuale pubblicata nella sezione Fontes).

Nel campo dc:isPartOf viene inserito un URI, appunto, che rimanda (se è una rivista) alla scheda in Opera.

Uso di URI nell'archivio Fontes. Ci sono anche fonti di tipo letterario. Perseus per questi testi assegna un identificatore URI unitario a ogni passo di un'opera della letteratura latina o greca antiche. Es. Aristotele, Politica 5.4. Perseus lo trasforma in un URI unitario (che fa riferimento al numero univoco dell'autore e dell'opera in TLG). Per i testi non letterari ma giuristici si può ugualmente assegnare un URI ad ogni passo antico.

Standard delle applicazioni di gestione: le applicazioni devono essere open source, portabili e con interfaccia web.

BIA-net: algoritmi di indicizzazione per velocizzare le ricerche full-text su un corpus ampio; meccanismi facilitati per l'inserimento e la modifica dei dati (anche proposte di correzione da parte di utenti che si autenticano). Livelli diversi di utenti: l'utente che visita solamente (ospite); lo studioso visitatore, che propone modifiche e integrazioni; il redattore che lavora dal di dentro; l'amministratore che effettivamente valida e inserisce nel sistema le modifiche di tutti gli altri.

Aldo Gangemi, "Tecnologie di web semantico per le scienze umane: thesauri, ontologie e linked data"

11.30. Aldo Gangemi dirige il laboratorio di ontologia semantica al CNR di Roma.

Il suo intervento si porrà in continuità con quello di Daria Spampinato, dopo un inquadramento iniziale sulle categorie generali del web semantico.

Semantic web: il web 1.0 connetteva informazioni; il web 2.0 connette persone; il web 3.0 verso cui migriamo dovrebbe connettere conoscenza (knowledge).

Linked data. Non è solo semantic web. Bisogna integrare i data sylos, cioè i singoli aggregati di informazioni sul web che non comunicano attualmente tra di loro. Facebook ha fatto un passo avanti in questo campo recentemente con i social graph.

Linking. Ad esempio: due diveri banche dati con informazioni anagrafiche della pubblica amministrazione a volte non comunicano tra di lor perché la loro struttura di dati è diversa.

Data extraction direttamente da documenti testuali. È informazione su cui non può confidare al 100%.

Tutto quello citato fin qui si può lavorare per collegarlo con ragionamento logico-deterministico o probabilistico.

Presentare dati semantici. Spesso pensiamo a una rete come loro presentazione. Ma a volte possono essere altro: ad esempio i dati semantici si possono rapresentare in una mappa.

Chi sta lavorando a questo? Enti come BBC, Amazon, data.gov, data.gov.uk etc.

Linguistic semantics. La conoscenza che si usa quando si fa questo è conoscenza informale (quali sono i sinominimi di una parola?).

Formal semantics. Logica formale.

Questi due approcci (linguistic e formal) si stanno ibridando oggi. Il che non è facile.

Standard diversi per esprimerei rapporti tra i dati (RDF, RDFS, OWL etc.). Standard per il querying: SPARQL (equivalente semantico di SQL).

La visione generale del web semantico all'inizio (negli anni Novanta) sono quelli descritti fin qui.

Chiarimenti terminologici. "Ontologia": originariamente un nome filosofico (il primo a usare "semantic web" fu Foucault). Invece le ontologie computazionali sono componenti software in linguaggi standard W3C, chiamati anceh vocabularies, schemeta, conceptual models, chiamati anceh vocabularies, schemeta, conceptual models.

Ci sono due aspetti delle ontologie e del web semantico: da un lato si forniscono agli esperti del dominio (ad es. ai giuristi del diritto romano) strumenti complessi; dall'altro lato l'ontologo (ingegnere della conoscenza) entra dentro il dominio. Il semantic web prima maniera (anni Novanta) insistema su questo secondo aspetto: ad es. il giusromanista doveva ripensare (in termini di OWL etc.) il suo modo di fare scienza, pensando in termini di linked data.

L'RDF si basa sul modello della tripla (simile al modello soggetto-predicato-oggetto). Esempio: 1. Codalgina 2. hasDrugComponent 3. Paracetamolo (cioé: la codagina è un farmaco che ha come componente il paracetamolo). Ovviamente le triple si possono linkare tra di loro.

I principli del linked data sono i seguenti. 1. Usare URI come nomi per le cose (identificatori). 2. Questi URI possono essere rintracciati sul web con HTTP URI. 3. Si creano dei link tra queste entità identificate.3. Si creano dei link tra queste entità identificate.

La versione RDF di Wikipedia contiene molti milioni di triple RDF.

Bernard-Lee ha usato la metafora del giant global graph.

Esistono triple che dicono: x è lo stesso di y (ad es. se un identificatore ha dato un URI x a Aristotele, e un altro identificato gli ha dato un indirizzo y).

Non tutti i dati sono presenti in un'ontologia. Questo è il motivo per cui il WWW ha vinto sugli ipertesti all'inizio degli anni Novanta, perché il WWW può avere 'buchi': è meno rigido. Così è oggi per il semantic web di seconda generazione: ora si è meno rigorosi nella sua costruzione.

OWL: Web Ontology Language. Rappresenta ontologie, vocabolari. È a un livello superiore rispetto a RDF.

Alcuni esempi di linked data e web semantico.

Estrazione automatica di entità da testi (con tecniche statistiche).

Integrazione di database diversi presenti negli archivi digitali del CNR di Roma. Questi dati sono stati trasformati in linked data. C'è sul sito del CNR di Roma un'interfaccia di ricerca che interroga questi linked data. Somiglia a Google, però non trova documenti, trova cose (istituti scientifici, testi etc.). Alle spalle c'è un processo di estrazione di dati complessi (ad es. bisogna classificare i tipi di testi contenuti nei vari database).

All'interno di BIA-net ci possono essere queste relazioni semantiche (ad esempio): relazioni tra autori e fonti; passaggi testuali etc. A tutti questi oggetti si dà un URI. Per BIA-net si è usato un vocabolario chiamato SKOS (si sono usati OWL e RDF). Relazioni, ad es.: un articolo di bibliografia discute un certo passaggio testuale, che fa parte di un'opera antica, che ha una subscriptio, un titolo etc. Altro esempio: "Ulpiano" può essere linkato alla sua voce Wikipedia; Wikipedia ha una versione linked data, quindi possiamo vedere il grafo che mostra la rete di relazioni semantiche che ha Ulpiano come centro.

Tra i vantaggi delle tecnologie semantiche: allineare unità tra testi diversi (è necessario un vocabolario). Difficoltà maggiore: integrare linguistica e semantica formale.

Anna Maria Tammaro, "Una biblioteca digitale per gli studi antichistici"

Lavora all'Università di Parma, dove insegna biblioteca digitale.

La biblioteca digitale non è una biblioteca nel senso tradizionale. Nel senso tradizionale, la biblioteca vuole centralizzare (da Alessandria in poi).

Precursodi della biblioteca digitale: Memex (V. Bush 1945). Una collezione miniaturizzata, strutturata che facilita la ricerca ipertestuale. Anni dopo Licklider (1968) ha portato avanti l'idea, ma ora in relazione alla rete. Era un colleboratore di ARPA. Abbandona l'idea di un deposito centralizzato (di Bush), in favore dell'idea di nodi interconnessi. Altri precursori: Engelbart 1962 e Schneiderman 1998. Viene elaborato il Genex, che facilita attività creative ('genex' come 'generatore').

Storia delle biblioteche digitali. 1971, prima realizzazione di una biblioteca digitale: Project Gutenberg. Il fondatore, Michael Hart, è morto proprio questa settimana (attualmente circa 500.000 volumi). 1985, nasce Perseus, una delle prime a nascere. Nasce subito come progetto collaborativo all'Univ. della Virginia. Le biblioteche collaborano al Perseus sin dall'inizio. 1992, Digital Library Initiative, negli USA. Normalmente negli USA i progetti finiscono quando finiscono i fondi, ma non la Digital Library Initiative, che pensava in prospettiva. In Europa siamo arrivati tardi. Abbiamo iniziato nel 2001 con The Lund digitisation action plan: un incontro a Lund che stabiliva la necessità di fissare criteri e standard. In Europa: TEL (coordinamento di tutte le biblioteche europee). In Italia: ICCU (coordina il progetto "Biblioteca digitale italiana", attualmente chiuso perché dovrebbe convergere col progetto dell'OPAC ICCU).

Non bastano programmi, prototipi o standard. Per le biblioteche digitali è fondamentale il lavoro di organizzazione. È importante assicurare alle nuove risorse digitali una sopravvivenza nel tempo (dato che costano molto).

Differenza tra biblioteca tradizionale e biblioteca digitale. Biblioteca tradizionale: raccoglie, organizza e diffonde. Biblioteca digitale: condivide, organizza, ricerca, usa. Condivisione: qui la collaborazione è obbligatoria (non c'è più centralizzazione); organizzazione: qui è molto più complessa perché tutto va fatto per via informatica.

Siamo in una fase di ibridazione tra biblioteca tradizionale e digitale. Ci sono anche nuove tipologie di oggetti gestiti dalle biblioteche (multimedia, blog, RSS, Wiki, dati di ricerca), oltre agli oggetti tradizionali (banche dati, e-books, e-journals, enciclopedie).

I dati di ricerca: sono i dati intermedi della ricerca, prima della pubblicazione.

Collezione di ricerca. Noi umanisti siamo molto indietro. Una collezione di ricerca (Unsworth 2000) dovrebbe essere una collezione di fonti primarie vasta ma strutturata. Oggi queste collezioni sono frammentarie e non sono permanenti. Due terzi delle collezioni della Rassegna di Cristofori oggi non ci sono più.

Condividere è più che raccogliere. Ha una parte tecnica e una parte sociale, culturale. La parte tecnica è più semplice. Standard, linee guida comune etc.: questo si sta capendo anche nel campo degli antichisti. Ma ci vuole anche open source (non solo open access; è fondamentale per la durata della risorsa): questo si capisce ancora poco. La difficoltà in Italia è questa: le istituzioni, che sono troppo gerarchiche e burocratiche, remano contro.

Organizzazione. È diventata così complessa che molte biblioteche la appaltano all'esterno. Esempio: la Biblioteca Digitale Italiana. Ma così non si creano le competenze all'interno delle biblioteche, e la bibliioteca non controlla abbastanza.

Digital curation. La parte più 'umana', fatta dagli uomini (gestione degli archivi, selezione dei libri etc.). Le macchine non possono fare questo: lo fanno umani che usano macchine. Oggi cè una competizione tra archivisti digitali e bibliotecari. Ciascuno dice che può fare a meno degli altri.

Ostacoli. Ci vuole un modello economico che copra tutti i costi del ciclo di vita della risorsa digitale, comprese le risorse umane. Non basta il finanziamento pubblico. Progetti di massa: un grande ostacolo è la legislazione sul copyright. li editori pongono limiti all'accesso tramite i DRM. Le biblioteche oggi sponsorizzano l'open access, il che non significa negare il diritto d'autore. Il copyright non è il diritto d'autore. Il copyright è solo lo sfruttamento esclusivo commerciale, è nato in Inghilterra e ora ci è di ostacolo. Si può pensare ad un diritto d'autore senza copyright. Bisognerebbe usare licenze creative commons per quello che nasce digitale.

Ricerca e uso. Una volta digitalizzata e localizzata, la risorsa digitata va usata. Unsworth parlava di scholarly primitives, che hanno delle loro priorità: annotating, comaring, referring, selcting, linking, discovery. È necessario pensare forme di lavoro collaborativo: peer review e validazione (in forme nuove), comunicazione e discussione tra esperti. Tutto questo è molto scoperto per l'antichistica, in cui sono molto carenti: la ricerca (a volte i vecchi corpora su CD-rom erano meglio), la discovery(nei cataloghi non ci sono link a periodici elettronici e e-book; molti OPAC spesso non comprendono le risorse digitali), il linking (lo studioso deve entrare e uscire da tante 'biblioteche digitali': non c'è un motore di ricerca che identifichi anche i contenuti interni), la preservazione (nessuno si è fatto finora carico della parmanenza delle nuove risorse digitali in Italia; non così in Olanda e Francia, dove gli editori si sono accordati con le biblioteche centrali).

In Italia la vera sfida è la collaborazione. Esempi: nuove partnership con editori, comunità di pratica interdisciplinari, alleanze e accordi, progetti per la semantica. Ci vuole una lobby di persone che premano per questo. In Germania hanno individuato alcune istituzioni perché facciano da hub per la digitalizzazione (per l'antichistica questo hub è Monaco). In Francia sono più centralizzati: hanno costruito ambienti a livello di biblioteca nazionale francese e di CNR.

12.45. Questa parte (che non è tecnica) è scoperta per l'antichistica: costruire aggregazioni e coordinarsi, trovare finanziamenti al riguardo, costruire e valorizzare una biblioteca digitale di ricerca come spazio virtuale collaborativo.

Discussione sulle relazioni della mattinata

Filippo Briguglio. 1. In che misura l'RDF può recuperare dati codificati in XML? Inoltre. 2. Gli URI devono essere di qualità, qindi questo funziona meglio in un sistema chiuso, con un programma di cui c'è un responsabile che assegna a ogni cosa un indirizzo di qualità.

Aldo Gangemi. 1. Ci sono traduttori da XML a RDF, attraverso lo schema. Ma questo funziona se lo schema XML descrive il contenuto, e non il documento. In molte applicazioni XML esistenti c'è un misto tra descrizione del testo e descrizione del documento. 2. Sostenibilità degli indirizzi: è effettivamente un problema. Un contesto chiuso è molto funzionale (vd. il successo di RDF in ambito di impresa), però si spera che in linked data si creino dinamiche che scartino automaticamente i nomi e le relazioni 'di scarsa qualità': una specie di 'selezione naturale' grazie all'uso, agli utenti.

Daria Spampinato. In BIA-net ci sono alcuni dati XML che si possono esportare in RDF.

Maurizio [non ne hanno detto il cognome]. Ci sono vari sistemi di identificativi, tra cui gli NBN. Dall'anno scorso la biblioteca di Firenze ha iniziato a catalogare in modo unificato per l'Italia le risorse digitali. In futuro si coniugherà il meglio del web semantico con servizi di identificazione 'istituzionale' (attaverso tramite le biblioteche nazionali). Con questa garanzia di un'agenzia 'terza' i dati sono anche meglio conservabili.

Anna Maria Tammaro. Diamo troppa importanza al dato tecnico. Quello che è importante è invece l'organizzazione dei progetti. Se fossi un finanziatore, vincolerei i miei finanziamenti all'uso di tecnologie durevoli in quanto standard e aggiornate.

[Persona che non conosco] Siamo in un momento epocale. Le tecnologie digitali potrebbero aiutare anche in questo momento di scarsezza dei fondi. La sezione Opera del progetto BIA-net dovrebbe essere continuata anche oltre la vita di BIA-net: l'aggiornamento di Opera dovrebbe essere reso cooperativo, nel senso che l'autore di un libro compila una scheda standard e la invia ai redattori di BIA-net.

Nicola Palazzolo. Risposta sul tema dell'aggiornamento. Ci sono due diverse possibili soluzioni. 1. Per quanto riguarda le fonti, intanto facciamo un'edizione scientificamente attendibile, un'edizione critica. Gli errori qui dovrebbero essere minimi. Quindi gli utenti qualificati dovrebbero solo proporre correzioni. A meno che non esca sul mercato librario, a un certo punto, una nuova edizione di un autore giuridico antico, e si decide di digitalizzare questa nuova edizione. 2. Per quanto riguarda la bibliografia, l'obiettivo è giungere alla collaboazione degli utenti, ma la risposta del pubblico finora non c'è: gli utenti (gli autori dei libri) non collaborano. Gli autori sono pigri.

Anna Maria Tammaro. Per l'aggiornamento bibliografico, possono aiutare le biblioteche.

Orazio Licandro. Siamo noi a scrivere le riviste: dovremmo pensare a forme di pubblicazione digitale di riviste che siano meno care.

[Persona che non conosco]. Oggi le pubblicazioni sono molto disperse (si pubblica nello Yukon etc.), quindi molte sfuggono.

Nicola Palazzolo. Risponde a Purpura che aveva chiesto, incidentalmente, quanto costerà BIA-net. Dovremmo andare verso l'open access, però allo stato attuale non può essere gratuito.

Quest'opera è distribuita con Licenza Creative Commons Attribuzione - Condividi allo stesso modo 4.0 Internazionale.