Abstract Paolo Monella, Scritture dimenticate, scritture colonizzate: sistemi grafici e codifiche digitali

Versione italiana più estesa

Introduzione

Le società che elaborano una tecnologia, la modellano sulla loro cultura. Le altre, subiscono la pressione a rimodellare la propria cultura sulla tecnologia. Esporrò alcune riflessioni su come le attuali tecnologie di codifica digitale del testo rappresentino e manipolino due sistemi grafici non-occidentali, quello indiano (devánāgarī) e quello arabo.

Tre principi gutenberghiani

L'avvento della tecnologia della stampa in Europa nell'Età moderna ha lentamente rimodellato il sistema grafico latino, come quello greco e quello cirillico, su un modello rigidamente "alfabetico", ovvero sulla base di tre principi che valevano alle origini degli alfabeti greco e latino, ma già non più per i complessi sistemi chirografici, ovvero di scrittura manoscritta, sviluppatisi in età medievale:

1 ↔ 1. Ad ogni grafema corrisponde una sola lettera alfabetica, e possibilmente un solo fonema;
1 = 1. Ogni grafema alfabetico vale quanto un altro (ad es. vocali e consonanti, o vocali lunghe e vocali brevi);
1, 2, 3… La scrittura si struttura come una sequenza unidimensionale e unidirezionale di elementi tutti sullo stesso "livello" (sia come valore sia come altezza nella riga). C'è solo un "prima" e un "dopo", che riflettono la sequenza nella catena fonica; non c'è, ad esempio, un "sopra" e un "sotto", e non si torna mai indietro.

Principi non universali

Questi tre principi non valevano per i sistemi grafici dei manoscritti del medioevo europeo), e ancor oggi non valgono per sistemi grafici non occidentali, neanche nella loro versione a stampa. Per fare solo pochi esempi significativi:

1 ↔ 1. Nei manoscritti latini medievali una sola abbreviazione corrisponde sistematicamente a più lettere alfabetiche (ad es. "ū" in "lupū" sta per le due lettere "u" e "m", e "ꝑ" in "ꝑsona" sta per le lettere "p", "e", "r").
1 = 1. I segni diacritici, parte integrante dei sistemi grafici non rigidamente "gutenberghiani", hanno uno status diverso da quello dei grafemi-base a cui si associano. Nei manoscritti latini questo si applica a segni abbreviativi come il trattino in "lupū" per "lupum". In quelli greci, a segni come lo iota sottoscritto ("ᾄδω"), che non ha più valore fonetico ma conserva il valore morfologico, o lo spirito aspro ("ἡ"), che ha valore fonetico (aspirazione). Nel sistema grafico arabo, gli ḥarakāt sono i diacritici che, aggiunti sopra o sotto un grafema consonantico, indicano la vocale breve con cui esso va pronunciato: da un punto di vista occidentale, potremmo considerarli i grafemi relativi alle vocali ("a", "i", "u") brevi, ma non hanno lo stesso status dei grafemi consonantici.
1, 2, 3… In tutti gli esempi riportati sopra, la scrittura non si sviluppa su una sola dimensione (orizzontale), ma i segni citati vanno posti sopra o sotto un grafema-base con cui si combinano. Nel sistema grafico devánāgarī diffuso in India, similmente a quello arabo, le vocali hanno uno status distinto dalle consonanti, tant'è che si combinano ad esse in legature, creando segni composti che indicano intere sillabe. In tali segni sillabici, la vocale si può trovare sotto, a destra oppure a sinistra della consonante. Dato che la scrittura devánāgarī si sviluppa da sinistra a destra, come quella latina, se la vocale si trova a sinistra della consonante ci troviamo di fronte ad un caso in cui la unidirezionalità della scrittura, che ci appare naturale a causa del nostro punto di vista occidentale, viene contraddetta da un apparente "ritorno indietro" verso sinistra. In realtà non si tratta di una inversione di direzione, ma di una conseguenza del fatto che non tutti i segni hanno lo stesso status (non 1 = 1): i grafemi vocalici modificano quelli consonantici. In tutti questi casi, la scrittura non si sviluppa su una sola dimensione (l'asse orizzontale, avanti/indietro) ma su due (asse orizzontale e asse verticale, ovvero sopra/sotto).

Le necessità intrinseche della stampa

Sia nell'Europa rinascimentale sia al momento dell'introduzione della stampa nell'impero ottomano, all'inizio del Settecento, i primi stampatori hanno tentato di riprodurre le specificità dei sistemi grafici manoscritti (abbreviazioni, legature, allografi, diacritici, collocazione dei segni su due dimensioni). Ma la tecnologia della stampa gutenberghiana aveva una necessità intrinseca: utilizzare un insieme limitato di caratteri mobili combinati nella maniera più semplice possibile, ovvero l'uno di seguito all'altro.

Poco male per gli indoeuropei

In Europa, da un certo punto di vista la tecnologia ha modellato quell'aspetto specifico della cultura europea che era la scrittura (manoscritta) latina: abbreviazioni e legature sono andate scomparendo, imponendo ai sistemi grafici europei i tre principi enunciati sopra (1 ↔ 1; 1 = 1; 1, 2, 3…). In fondo, però, su tali principi si erano fondate in origine, prima delle evoluzioni della chirografia, le scritture capitali indoeuropee, greca e latina, progenitrici dei sistemi grafici europei moderni (latino-europeo occidentale, greco-bizantino, cirillico). Dunque da un altro punto di vista nei primi secoli dell'età moderna nelle culture europee i sistemi scrittorii si sono modellati sul duplice stampo delle esigenze di semplificazione della tecnologia della stampa e delle caratteristiche intrinseche delle lingue indoeuropee, in cui, ad esempio, consonanti e vocali hanno pari dignità, cioè pari ruolo distintivo, dal punto di vista fonetico e morfologico. In questo, si può dire che la cultura europea ha contribuito a modellare su di sé la tecnologia della stampa.

Rischi digitali

Se l'applicazione della stampa ai sistemi grafici dell'India (devánāgarī) e del Medio Oriente (arabo) non ha avuto un enorme impatto "normalizzatore", e quindi di fatto "occidentalizzante", rischiano di fare di peggio le tecnologie digitali di codifica del testo che, sviluppate soprattutto negli Stati Uniti e in Occidente, sono basate sui principi della stampa occidentale.

Input, codifica, visualizzazione, processamento

Va premesso che mentre nella la stampa, come nella scrittura a mano, il segno grafico viene codificato, conservato e decodificato solo tramite il suo aspetto visivo, nelle tecnologie digitali di trattamento del testo vanno distinti vari aspetti, tra cui:

l'input, una serie di pratiche tramite cui lo scrivente umano comunica al computer quale "carattere" vuole codificare, e lo fa normamente tramite l'ausilio di segni grafici su una tastiera reale o virtuale;
la codifica vera e propria, invisibile allo scrivente, tramite cui il computer trasforma i caratteri indicati dallo scrivente in un numero identificativo all'interno di un insieme determinato di grafemi (o "charset", come ad esempio ASCII o Unicode);
la visualizzazione, ovvero la ri-generazione di un segno grafico su una superficie bidimensionale (come uno schermo o un foglio stampato) a partire dal numero che che costituiva la rappresentazione digitale interna al computer.

A questi va aggiunto un ulteriore aspetto, spesso trascurato:

il processamento digitale dei numeri in cui i "caratteri" sono stati codificati, che prescinde da input e visualizzazione: ad esempio, la ricerca di una stringa ("dante") all'interno di una base di dati testuale (ad esempio il testo digitalizzato della Divina Commedia, un database di fornitori, una raccolta di leggi o semplicemente una pagina web).

Devánāgarī

Nella scrittura indiana devánāgarī, che scorre da sinistra a destra come quella latina, le vocali si legano alle consonanti formando di fatto con esso un simbolo sillabico unico. In alcuni casi una vocale si lega, e quindi si scrive, non a destra ("dopo"), ma a sinistra ("prima") della consonante che modifica, contraddicendo il principio gutenberghiano della sequenzialità unidirezionale dei grafemi (1, 2, 3…).

Non si tratta di una inversione arbitraria della direzione della scrittura, ma di una conseguenza del fatto che le vocali in questo sistema scrittorio hanno lo status di "modificatori" delle consonanti (contraddicendo il principio gutenberghiano 1 = 1). Tra l'altro, la concezione indiana della fonetica che sta dietro a questo uso grafico appare pienamente razionale, non meno di quella retrostante agli alfabeti occidentali, se si consideri come nell'articolazione fonica consonanti e vocali abbiano effettivamente status molto diversi, e si articolino in strettissima correlazione gli uni alle altre nell'unità fonica della sillaba.

Il modello di codifica del testo di ASCII o di Unicode, invece, ignora la distinzione di status e il rapporto reciproco tra vocali e consonanti devánāgarī, ma attribuisce a tutte indifferentemente un numero identificativo ("code point") e le giustappone semplicemente le une alle altre. Una parola hindi codificata tramite le attuali tecnologie digitali viene dunque convertita in una sequenza ordinata di numeri/codici, tutti sullo stesso livello.

La contraddizione tra il modello eurocentrico retrostante e la specificità culturale indiana esplode quando si rappresenta una sillaba come "pi". La sua codifica Unicode è la sequenza U+092A ("p") U+093F ("i"), in cui la "i" viene dopo; ma in scrittura devánāgarī la vocale ि "i" va scritta a sinistra ("prima") della consonante प "p": "पि". La "inversione" viene effettuata dal software solo a livello di visualizzazione, nascondendo il fatto che la codifica impone un modello occidentale al sistema grafico indiano.

Arabo

All'interno del sistema grafico arabo, ricco di segni diacritici, farò solo l'esempio degli ḥarakāt, i segni che, aggiunti sopra o sotto un grafema consonantico, indicano la vocale breve con cui esso va pronunciato.

Assumendo un punto di vista interno alla cultura araba, gli ḥarakāt contraddicono tutti e tre i principi enunciati sopra:

1 ↔ 1. Gli ḥarakāt possono essere indicati oppure no. Se non lo sono, non è più vero che ad ogni fonema (vocale o consonante) corrisponde un grafema, e quindi un carattere (un numero) Unicode. La stessa parola, nella cultura araba, può essere scritta solo con consonanti e vocali lunghe, o aggiungendo gli ḥarakāt alle consonanti.
1 = 1. Gli ḥarakāt hanno uno status inferiore a quello dei grafemi consonantici e di quelli indicanti vocali lunghe. Questi ultimi, infatti, costituiscono lo "scheletro" della parola, percepito come sufficiente a identificarla.
1, 2, 3… La scrittura araba, a mano o stampata, non si sviluppa affatto su una sola dimensione, ma i vari tipi di diacritici (i‘jām e tashkīl, di cui fanno parte i citati ḥarakāt) vanno posti sopra o sotto un grafema-base con cui si combinano.

Unicode, invece, attribuisce agli ḥarakāt un numero identificativo ("code point") alla pari dei grafemi consonantici e delle vocali lunghe: ad esempio, la consonante "beh" ب è identificata con U+0628 (cioè il numero esadecimale 0628, corrispondente al decimale 1576); lo ḥarakah "fatha" َ , che indica una "a" breve, con U+064E. Anche le parole arabe, rappresentate tramite le attuali (occidentali) tecnologie digitali, vengono dunque ridotte ad una sequenza ordinata di numeri equivalenti.

Attriti

Anche nel caso dell’arabo, come del devánāgarī, la forzatura non è apparente nella fase dell'input e in quella della visualizzazione, grazie a software che gestiscono la digitazione da tastiera (reale o virtuale) e la ri-composizione su schermo dei grafemi, legature e diacritici inclusi.

Esiste però un attrito tra il modello occidentale alla base della tecnologia e la cultura non-americana cui il modello viene imposto, e questo emerge quando si passa dalla codifica all'elaborazione digitale - anche semplice - del testo.

Per rendere l'idea, farò riferimento all'esperienza dei parlanti di lingue europee, nei cui sistemi scrittorii pure esistono diacritici (accenti, umlaut etc.) che si possono combinare con altri caratteri: in italiano, francese o spagnolo, ad esempio, la "e" (Unicode U+0065) si può combinare con un accento acuto (Unicode U+0301). Tra l'altro, la combinazione risultante (vocale più diacritico, "é") ha un suo code point Unicode (U+00E9).

Ora, una delle elaborazioni più semplici del testo è la ricerca testuale semplice ("string matching"). Se un utente cercasse la stringa "tre" in una pagina web, con la funzione "trova" del browser, troverebbe le istanze della parola "tren" ma non quelle della parola "trémula", in quanto "e" e "é" sono identificati da codici Unicode diversi.

Allo stesso modo, un utente arabo che eseguisse una ricerca in una pagina web di una parola, digitandola con gli ḥarakāt, avrebbe molte probabilità (a seconda delle funzionalità del software che sta usando) di non trovare le istanze di quella parola scritte senza gli ḥarakāt - e viceversa. Il problema, originandosi dalla codifica, si riverbera su ogni tipo di ricerca testuale, dall'interrogazione di un database alle ricerche sul web, a meno che software specifici non siano stati istruiti a superarlo.

Non è questa la sede di discutere l'impatto "normalizzante" nella direzione dell'uso dell'alfabeto latino (in realtà americano) di altri protocolli tecnologici: ad esempio, solo col tempo si vanno superando i problemi di incompatibilità tra i caratteri Unicode non latini, o più precisamente non-ASCII (American Standard Code for Information Interchange) con protocolli basilari come la codifica degli indirizzi internet e email, delle password, degli stessi nomi dei file. Ad esempio, chi come il sottoscritto frequenta le tecnologie digitali da tempi meno "Unicode-friendly" ha acquisito come "buona pratica" ormai permanente, diciamo così, per prudenza, quella di evitare in questi àmbiti (indirizzi internet etc.) i caratteri non-ASCII pure appartenenti a lingue europee (come le lettere accentate, gli umlaut, i caratteri greci).

Arabīzī

Per quanto riguarda l'arabo, ho scritto che, in fase di input, tastiere e tastierini virtuali permettono di mascherare il problema della codifica "occidentalizzante". Questo è vero quando lo scrivente ha davanti la tastiera fisica di un computer e scrive in fuṣḥā, cioè nella variante "alta" e unitaria della lingua che, integrata in età contemporanea con numerosi neologismi, discende direttamente dalla lingua del Corano.

Ma quando i giovani messaggiano tra di loro in lingua vernacolare (cioè nelle varianti locali dell'arabo) scrivendo sul tastierino di un cellulare o di un tablet, tendono sempre più a scrivere l'arabo in caratteri latini, più semplici da inserire in quei contesti, in quanto i sistemi operativi di quei dispositivi sono stati disegnati in occidente, e successivamente adattati all'input in caratteri arabi.

Il codice risultante è comunemente chiamato "Arabīzī" (Arabi + Anglizi) o "Franco-Arabic", e mescola lettere latine e numeri (come il "3", usato per la lettera "ʿayn" ع che non ha corrispettivi né fonetici né grafici nell'alfabeto latino). In esso, le vocali brevi possono venire indicate (con "a", "i", "u"), e non viene usato alcun diacritico, ad esempio per distinguere le vocali brevi dalle lunghe. In pratica, la codifica usata è la più semplice, la più "standard" e quindi la più restrittiva possibile, quella ASCII.

Questo è un aspetto che spesso si sottovaluta: le tecnologie possono aiutare nella codifica e la trascodifica da/in linguaggi non-americani - ad esempio, le ricerche su Google usano algoritmi straordinariamente evoluti, che superano molti problemi di "spelling" e codifica -, ma non tutte le tecnologie sono disponibili in tutti i contesti. Su un cellulare è molto più comodo digitare in ASCII che in arabo.

L'impatto politico

Sarebbe difficile argomentare che questa "colonizzazione tecnologica" della scrittura sia frutto di una pianificazione ostile contro le culture non-occidentali. Ma ugualmente essa ha implicazioni politiche, in quanto la scrittura, e la concezione della lingua ad essa retrostante, costituiscono aspetti centrali di molte culture, spesso sentiti come identitari. Il caso dell'arabo è più che evidente.

Poche scritture sono state oggetto e strumento di un conflitto politico così evidente come quello che si è sviluppato intorno alla scrittura araba all'inizio del Novecento nell'impero ottomano. Il risultato è stata la nascita di uno stato turco sul modello europeo: nazionale, laico, tanto desideroso di marcare la propria identità etnica e linguistica da "de-arabizzare" la lingua ottomana, già mescolanza di turco, arabo e persiano, e da adottare la scrittura latina per aderire meglio, a detta dello stesso Atatürk, alle specificità fonetiche della lingua turca, in cui, peraltro, le vocali hanno un ruolo morfologico più pesante rispetto alla lingua araba.

Di converso, i popoli arabi e maghrebini, ribelli ad un impero sempre meno ottomano e sempre più turco, hanno trovato proprio nel sistema scrittorio arabo uno dei simboli identitari in quella lotta.

Oggi, per quanto possa sembrare sorprendente ad un occidentale, proprio la struttura sostanzialmente sillabica della scrittura araba, con la sua distinzione di status tra consonanti, vocali lunghe e vocali brevi, ha una funzione identitaria. Essa gioca un ruolo importante nel costruire l'idea dell'unità della cultura dei popoli di lingua araba e tradizione islamica nel tempo - dal Corano ad oggi - e nello spazio - dal Marocco all'Iraq.

Come già accennato, nella percezione di chi parla l'arabo e nella sua tradizione grammaticale, consonanti e vocali lunghe bastano a identificare per iscritto la radice della parola, mentre la parte della morfologia demandata alle consonanti è demandata alla competenza del lettore.

Ma c'è di più in gioco: i grafemi di consonanti e vocali lunghe di una parola - cioè la parte che viene normalmente scritta - rimangono sostanzialmente uguali nel tempo, cioè non variano significativamente dall'arabo classico del Corano al "Modern Standard Arabic" (MSA), e nello spazio, cioè nelle aree geografiche. Al contrario l'effettiva pronuncia di alcune vocali, e soprattutto delle vocalizzazioni, non a caso tenute fuori dalla scrittura e demandate a segni diacritici, sono più variabili nel tempo e ancor più nelle varianti locali della lingua.

L'arabo fuṣḥā, antico e moderno, arricchito oggi di neologismi ma conservatore rispetto alle strutture grammaticali, è l'unica lingua unificante del mondo arabo, in cui i cosiddetti vernacoli locali (egiziano, libico, saudita etc.) differiscono anche molto, ad esempio nella pronuncia e nel lessico. Essendo la fuṣḥā la lingua del Corano, esso è percepito dalle culture che si identificano con la tradizione culturale e religiosa dell'Islam, e anche da popoli di lingua diversa (pashtun, persiana etc.) come un elemento identitario fondamentale. E il legame con questi elementi identitari (lingua, scrittura, religione) è sempre più forte nelle società mediorientali che si percepiscono come assediate dalle pressioni globalizzanti e da condizioni socio-economiche spesso opprimenti.

Una parola in fuṣḥā è la stessa parola nel passato del Corano e nel presente, a Est come ad Ovest, cioè in tutta la storia della cultura araba (per lo più identificata con la storia dell'Islam), e in tutto lo spazio geografico della Umma (la comunità dele società di tradizione islamica), finché se ne scrivono solo le consonanti e le vocali lunghe, cioè solo all'interno del sistema grafico arabo. Scrivere la vocalizzazione, o meglio pertinentizzarla, cioè renderla significativa nel sistema grafico, significa rompere l'unità culturale (e quindi sociale, e potenzialmente politica) del mondo arabo-islamico.

Questo contribuisce, credo, a spiegare il fastidio nel mondo arabo per l'"Arabīzī", in cui non a caso si mescolano più liberamente anglismi alla lingua araba.

Probabilmente, se i computer fossero stati inventati in Arabia Saudita o in Israele, c'è da credere che anche la modellizzazione dell'alfabeto sarebbe stata plasmata intorno alla struttura specifica delle lingue semitiche, cioè codificando, almeno per alcuni sistemi grafici, alcuni grafemi (consonanti e vocali lunghe nella scrittura araba, le consonanti nella scrittura ebraica o devánāgarī) come strutturali e altri come diacritici modificatori di quelli.

Un modello di codifica di questo genere è senz'altro possibile, dal punto di vista tecnologico. Io stesso ho usato il markup testuale TEI XML per codificare la differenza di status tra grafemi-base e diacritici abbreviativi nel sistema grafico latino medievale manoscritto della mia edizione del "De nomine" di Orso Beneventano (IX secolo, http://www.unipa.it/paolo.monella/ursus). L'attuale stadio evolutivo delle tecnologie digitali ci permette di creare modelli sufficientemente complessi da rappresentare in modo non occidentalizzante oggetti culturali come le scritture "non gutenberghiane". Basti vedere come le tecnologie hanno "domato" in buona parte il rapporto straordinariamente complesso tra fonetica e ortografia in inglese: la tecnologia c'è - se c'è l'interesse strategico. La questione non è tecnologica, ma politica.

Postilla: speranze

Una postilla: in queste considerazioni finali mi sono concentrato sulla cultura araba. In essa le reazioni al profondo disagio sociale e politico prendono a volte, più spesso di quanto vorremmo, le forme del fondamentalismo religioso e della violenza. Non intendo ignorare la questione, per quanto non ci sia ovviamente spazio in questa sede per esaminarla a fondo. Personalmente, se da un lato condanno nettamente gli esiti fondamentalisti e quelli violenti, dall'altro penso che la difesa di un'identità e di unità culturale araba sia una reazione comprensibile di fronte al percepito sfruttamento occidentale.

Lo scenario ideale, dal mio punto di vista, sarebbe quello di un Medio Oriente socio-economicamente florido e politicamente libero, non sfruttato nello scenario della globalizzazione e non oppresso da regimi locali complici. Un Medio Oriente che conservi la propria identità culturale, inclusa la specificità della propria lingua e quindi della propria scrittura, nel tempo e nello spazio, senza bisogno di fare di quell'identità un'arma di difesa o di offesa.

Quest'opera è distribuita con Licenza Creative Commons Attribuzione - Condividi allo stesso modo 4.0 Internazionale.