Il dataset e le ontologie

LA BASE DI CONOSCENZA

L'embedded markup XML/TEI

Il modello di markup proposto vuole tradurre i tre elementi cardine dell'edizione in un sistema formale.

Il modello dichiara quindi in forma esplicita i punti di accesso al contenuto della lettera. Tali punti di accesso rappresentano anche gli indici che costituiscono i possibili percorsi di navigazione dell'utente finale:

persone citate nelle lettere;
testi citati e manoscritti realizzati dalla scuola di Vespasiano;
lessico tecnico della copia e del commercio librario.

A livello di markup è semplice rappresentare, attraverso adeguati elementi e attributi, questo tipo di dati. Gli esempi che seguono mostrano l'impiego della TEI P5 con riferimenti utili alla creazione del file RDF (Resource Description Framework).

Persone - tag

L'identificazione dei nomi, così come compaiono nella lettera, si ha attraverso una sigla.

Questa permette di disambiguare tutte le forme varianti dello stesso nome attribuendo loro un codice identificativo univoco (# + 'p' + numero crescente):

<persName ref="#P123">Piero Strozzi</persName><persName ref="#P127">Pipo</persName><persName ref="#P0">Vespasiano di Filippo</persName><persName ref="#P80">Piero di Chosimo de' Medici</persName>

Codici manoscritti - tag con elementi author e/o title

L'identificazione di autori e testi così come compaiono nella lettera avviene attraverso una sigla, cioè un codice identificativo univoco (# + 'c' + numero crescente):

<bibl ref="#C32"> <author ref="#plinio">Prinio</author></bibl><bibl ref="#C31"> <title>Decha</title></bibl>

Termini tecnici - tag

L'identificazione di termini tecnici così come compaiono nella lettera avviene attraverso una sigla, cioè un codice identificativo univoco (#abbreviazione):

<term type="binding" ref="#L50">legaranno</term><term type="illumination" ref="#L46">miniare</term>

Il valore dell'attributo @ref (reference) aiuta una prima identificazione delle stringhe presenti all'interno del documento, puntando ad una descrizione dell'elemento conservata in un luogo (in una porzione [identificata da #] di un file) esterno al documento stesso. Nello specifico sono stati creati 3 diversi authority file: uno per le persone (people), uno per i codici manoscritti (manuscripts) ed un altro per il lessico (lexicon).

Il valore di @ref è utile alla realizzazione di un URI (Uniform Resource Identifier) univoco, che viene descritto in un file RDF/XML. Utilizzando il meccanismo degli URI è infatti possibile creare collegamenti fra il contenuto della lettera ed informazioni descrittive sulle stringhe annotate.

Se il meccanismo degli URI ci dà modo di identificare univocamente ogni entità rappresentabile da una o più stringhe, e di descriverla ulteriormente in un documento esterno (RDF/XML) a quello in cui quella stringa appare (XML/TEI), è necessario prevedere un sistema per adempiere al compito primario dell'edizione: costruire relazioni fra gli elementi annotati dotati di un URI. Questi collegamenti devono essere in grado di rispondere a domande del tipo: che relazione esiste fra 'Piero de' Medici' (#P80) e uno specifico esemplare delle Storie Naturali di Plinio (#C32)? E quale relazione esiste fra lo stesso manoscritto (#C32) e la parola 'legaranno' (#L50)?

Ma il modello dovrebbe essere in grado di rispondere anche a domande del tipo: quale esemplare delle Storie Naturali è stato realizzato (qual è la sua segnatura odierna) e in quale biblioteca è ad oggi conservato? Chi l'ha copiato? Chi l'ha miniato? Chi è Piero de' Medici?

Per rispondere al primo set di domande (cfr. infra) è necessario aggiungere semantica alla descrizione del documento. Non è quindi sufficiente classificare le stringhe come persone, codici manoscritti o lessico, ma è necessario esprimere formalmente, ed in modo processabile dalla macchina, informazioni aggiuntive sulle stringhe, descrivendone le relazioni. Il modello RDF dà la possibilità di esprimere tramite asserti, detti triple (soggetto, predicato, oggetto), relazioni fra le entità, rappresentate nel testo da stringhe di testo e identificate univocamente da URI.

Per il secondo set di domande (cfr. infra) è necessario creare collegamenti fra l'edizione e le risorse nel web capaci di estendere la descrizione fatta da un editore. Questo significa agevolare il dialogo fra URI interni all'edizione e URI esterni correlati, avvalendosi di predicati ontologici.

L'informazione esterna: il file RDF

Una volta che il testo è stato marcato prevedendo forme di dialogo con entità descritte esternamente, è necessario esprimere attraverso URI e RDF le relazioni e quindi realizzare l'annotazione in RDF. Nel caso dell'edizione delle lettere di Vespasiano da Bisticci è stato realizzato un unico file RDF/XML, contenente tutte le informazioni relative alle entità citate (lettere, persone, codici, lessico, ecc.).

Come detto, con gli URI è possibile identificare univocamente entità reali, come le persone, o concettuali, come i termini lessicali. Con RDF è possibile esprimere le relazioni fra gli elementi dotati di un URI. Ma non solo. Ogni elemento dotato di identificazione può intrattenere una relazione di un qualche tipo con una stringa, sia essa un valore letterale o un altro URI.

Persone

Le persone possono avere diverse proprietà dedotte dal testo ed essere messe quindi in relazione con i codici menzionati.

Identificazione univoca (frammento di URI): #P80
Normalizzazione del nome (entry per un'authority record o definizione di un'access key): Medici de', Piero (1416-1469)
Forme varianti del nome così come attestate nelle lettere: Piero, Piero di Cosimo de' Medici, Principe di Firenze
Relazioni con il codice manoscritto "Plinio, Storie Naturali"

In linguaggio formale possiamo esprimere questi concetti come relazioni attraverso i seguenti asserti:

<rdf:Description rdf:about="http://vespasianodabisticciletters.unibo.it/p80"> <rdfs:label xml:lang="it">Medici de', Piero (1416-1469)</rdfs:label> <owl:sameAs rdf:resource="http://viaf.org/viaf/25406033"/> <dcterms:isReferencedBy> <rdf:Description rdf:about="http://vespasianodabisticciletters.unibo.it/tomasi-letter-19-tergo-p80-attested-name-d237e133"> <rdfs:label xml:lang="it">Piero <di Chosi>mo de' Medici</rdfs:label> </rdf:Description> </dcterms:isReferencedBy> <pro:isRelatedToRoleInTime> <pro:RoleInTime rdf:about="http://vespasianodabisticciletters.unibo.it/P80-customer-c32"> <rdfs:label xml:lang="it">Codice "Prinio". Realizzato per Piero de' Medici</rdfs:label> <pro:relatesTo rdf:resource="http://vespasianodabisticciletters.unibo.it/c32"/> <pro:isHeldBy rdf:resource="http://vespasianodabisticciletters.unibo.it/p80"/> <pro:withRole rdf:resource="http://vespasianodabisticciletters.unibo.it/customer"/> </pro:RoleInTime> </pro:isRelatedToRoleInTime></rdf:Description>

Possiamo quindi associare ad ogni stringa identificata nel documento con diversi tipi di proprietà: un identificatore univoco (URI); alcune caratteristiche estratte dal documento stesso (forme varianti del nome attestate); altre proprietà dedotte dalla lettura del documento (la relazione fra la persona e un codice).

Un primo passo verso l'interoperabilità è quello di collegare l'URI definito internamente con l'identificatore univoco stabilito in altri progetti. Relazionando il nostro URI all'identificatore utilizzato in altri progetti (come VIAF, che stabilisce le forme controllate dei nomi), è possibile far dialogare le risorse e creare collegamenti con altri sistemi standard come LCA e MARC (cfr. infra).

Codici manoscritti

Allo stesso modo i codici possono essere identificati attraverso un URI e normalizzati utilizzando repertori specifici. Andranno poi ovviamente posti in relazione con le persone con le quali quei codici sono in qualche modo collegati.

Identificazione univoca (frammento di URI): #C32
Normalizzazione: Plinio, Storie naturali
Relazioni con persone (committente): Piero de' Medici

In linguaggio formale possiamo esprimere questi concetti come relazioni attraverso i seguenti asserti:

<rdf:Description rdf:about="http://vespasianodabisticciletters.unibo.it/c32"> <rdfs:label xml:lang="it">Codice "Prinio"</rdfs:label> <fabio:isPortrayalOf> <fabio:Work rdf:about="http://vespasianodabisticciletters.unibo.it/storia-naturale-plinio"> <rdfs:label xml:lang="it">[Storia naturale]</rdfs:label> <dcterms:title>[Storia naturale]</dcterms:title> <owl:sameAs rdf:resource="http://viaf.org/viaf/178224328"/> </fabio:Work> </fabio:isPortrayalOf> <pro:isRelatedToRoleInTime> <pro:RoleInTime rdf:about="http://vespasianodabisticciletters.unibo.it/P80-customer-c32"> <rdfs:label xml:lang="it">Codice "Prinio". Realizzato per Piero de' Medici</rdfs:label> <pro:relatesTo rdf:resource="http://vespasianodabisticciletters.unibo.it/c32"/> <pro:isHeldBy rdf:resource="http://vespasianodabisticciletters.unibo.it/p80"/> <pro:withRole rdf:resource="http://vespasianodabisticciletters.unibo.it/customer"/> </pro:RoleInTime> </pro:isRelatedToRoleInTime></rdf:Description>

Termini tecnici

Anche i termini tecnici, dotati di un URI, andranno normalizzati e posti in relazione con i codici a cui si riferiscono.

Identificazione univoca (frammento di URI): #L46
Normalizzazione: miniare
Tipologia: illumination
Relazioni fra il lessico e il codice a cui il lessico si riferisce: Plinio, Storie naturali.

In linguaggio formale possiamo esprimere questi concetti come relazioni attraverso i seguenti asserti:

<rdf:Description rdf:about="http://vespasianodabisticciletters.unibo.it/l46"> <rdfs:label xml:lang="it">miniare</rdfs:label> <fabio:hasSubjectTerm rdf:resource="http://vespasianodabisticciletters.unibo.it/illumination"/> <dcterms:relation rdf:resource="http://vespasianodabisticciletters.unibo.it/c32"/></rdf:Description>

I collegamenti con il web of data

Il framework RDF, come mezzo per esprimere asserti, associato all'ontologia quale concettualizzazione formale di un dominio, sono strumenti utili per la rappresentazione della conoscenza implicita dell'editore critico.

Costruire un'ontologia significa non solo usare linguaggi formali, ma anche stabilire classi, definire proprietà nella forma dei predicati, ed esprimere valori associati a quelle proprietà, rispetto al dominio di analisi. Nell'edizione le tre categorie sulle quali abbiamo ragionato (persone, termini tecnici e codici manoscritti) sono tre possibili classi di un'ontologia di dominio, dotate di proprietà (i predicati) e relativo valore (gli oggetti). Ogni istanza della nostra classe identificata in modo univoco (il soggetto identificato attraverso URI) intrattiene relazioni di varia natura (le proprietà che diventano predicati), con altre istanze (i valori delle proprietà che diventano oggetti), i quali possono essere dei valori letterali o a loro volta delle entità dotate di identificativi univoci (vedi asserti nella sezione precedente). Passiamo quindi dall'edizione come classificazione e categorizzazione degli elementi annotati (il markup) alla rappresentazione di concetti (l'ontologia) che trasformano il testo in una base di conoscenza.

Il passaggio dall'elemento marcato alla classe a cui un'entità può afferire, consente una generalizzazione del dominio semantico di appartenenza. La costruzione di relazioni fra le classi permette di realizzare un modello astratto su cui basare il recupero di informazioni sotto forma di dati semi-strutturati. Si potrà interrogare la mia edizione alla ricerca di concetti: chi è il possessore di un certo manoscritto?

Ma un'edizione non è conoscenza fino a quando rimane isolata ('siloed') e fino a quando non è in grado di dialogare con altre edizioni. Due sono quindi gli aspetti che ci interessano. Come trasformare l'edizione in un sistema interoperabile e come far dialogare l'edizione con il Web.

Scegliere predicati ontologici ad hoc per il tipo di progetto limita l'interoperabilità. Per garantire massimo interscambio dell'edizione, sono state riusate le principali ontologie esistenti nel dominio umanistico (in particolare dell'editoria). DCterms, le SPAR Ontologies e HiCO sono alcune fra le ontologie che si stanno studiando per stabilire forme di dialogo e di condivisione.

Ma l'informazione interna, rappresentata attraverso il markup, e l'informazione esterna, rappresentata attraverso RDF, devono poter dialogare anche con il mondo del Web. Se infatti persone, codici e lessico intrattengono relazioni interne al documento sono inevitabilmente anche in relazione con quanto è necessario per approfondire le istanze di ciascuna di queste categorie.

Sono quindi in fase di analisi possibili estensioni degli elementi delle descrizione e delle loro relazioni. Andranno stabilite relazioni fra l'URI interno al progetto e altri URI esistenti in altri progetti.

Nell'ambito del Web semantico, un ruolo importante ormai da alcuni anni lo hanno assunto i Linked Open Data, come progetto e strumento per la gestione di collegamenti fra risorse eterogenee. Molti linked datasets sono già disponibili e possono di conseguenza essere utilizzati in ogni progetto, cioè richiamati al fine di associare istanze dello stesso concetto. Molti URI di risorse e molte asserzioni RDF sono quindi a disposizione della comunità, con lo scopo di favorire il dialogo e lo scambio fra progetti. Rappresentare le informazioni relative alle edizioni utilizzando il meccanismo degli URI e le modalità espressive di RDF significa contribuire a popolare l'universo dei linked data sets, in una prospettiva di interscambio e interoperabilità.

L'edizione digitale diventa quindi una base di conoscenza che permette all'utente finale di reperire informazioni strutturate. Le relazioni latenti sono definite in modo formale, diventando oggetto di query.

I commenti, che l'editore mette tradizionalmente in nota, sono espressi tramite RDF e predicati ontologici. Ogni elemento annotato è identificato in modo univoco. L'edizione digitale così realizzata entra in un processo di dialogo con altre risorse digitali correlate.

L'obiettivo della creazione di una base di conoscenza è duplice: da un lato garantisce l'interoperabilità dell'edizione, aperta allo scambio con altri dataset; dall'altro dà agli studiosi uno strumento (liste di autorità espresse in modo formale e accessibili tramite URI) e un metodo (dal contenuto delle lettere all'informazione esterna e dalle informazioni esterne al testo) che possono essere utilizzati in situazioni e contesti diversi.

VESPASIANO DA BISTICCI

LETTEREa knowledge site

LA BASE DI CONOSCENZA

VESPASIANO DA BISTICCI

LETTEREa knowledge site

LA BASE DI CONOSCENZA

L'embedded markup XML/TEI

Persone - tag

Codici manoscritti - tag con elementi author e/o title

Termini tecnici - tag

L'informazione esterna: il file RDF

Persone

Codici manoscritti

Termini tecnici

I collegamenti con il web of data

Contributi critici sul tema