Angelo Mario Del Grosso (ILC-CNR)

Selezione, elaborazione e presentazione di documenti XML-TEI mediante i linguaggi XPath e XSL

Extensible Markup Languages, Digital Scholarly Editions, Digital/Computational Philology, XPath, Extensible Stylesheet Language

La rappresentazione digitale di una risorsa testuale è ad oggi realizzata mediante l’adozione di specifici modelli formali implementati per mezzo di vocabolari XML che ne caratterizzano la struttura e la semantica. Tra questi, lo standard de-facto per l’editing scientifico dei testi – soprattutto di testi d’interesse umanistico – è lo schema di codifica manutenuto dal consorzio TEI (Text Encoding Initiative), il quale definisce anche le “best practices” per il corretto utilizzo del vocabolario (id est, le TEI guidelines). Una volta realizzata la codifica della risorsa, spesso però, non si è in grado di sfruttarne il potenziale computazionale poiché manca una sufficiente familiarità con le tecnologie volte all’elaborazione dei dati codificati. L’ecosistema tecnologico che ruota attorno allo standard W3C/XML include, tra gli altri, due ulteriori linguaggi finalizzati specificatamente alla selezione e all’elaborazione di documenti XML-besed. Essi sono il linguaggio “XML Path” (XPath) e il linguaggio “eXtensible Stylesheet Language Transformation” (XSL-T). Scopo del seminario è di illustrare le potenzialità dei due linguaggi menzionati, descrivendo il modello dati e il modello di processing su cui si basano nonché mostrandone la sintassi e i costrutti più frequenti. Il fine è quello di estrarre automaticamente informazioni, produrre dati aggregati, statistiche interessanti, visualizzazioni Web così come trasformazioni di struttura e di formato. Durante il seminario si lavorerà con esempi di fogli di stile realizzati in seno ad autorevoli progetti di ricerca dedicati alla pubblicazione e all’elaborazione di documenti XML/TEI, quali ad esempio il progetto EpiDoc, il progetto papyri.info oppure il progetto Kiln, oppure lo stesso progetto TEI. Si mostrerà come personalizzare i fogli di stile analizzati al fine di accogliere nuovi requisiti ed adattare risorse già esistenti a differenti esigenze di elaborazione. Infine, si farà uso del processore XSLT Saxon e dell’ambiente eXist-db per eseguire le istruzioni definite nei fogli di stile selezionati.

Consigli per preparare l’ambiente per coloro che volessero provare le tecnologie usate durante il seminario:

– Editor: visual studio code con estensioni XML installate- URL per download: https://code.visualstudio.com/download
– Processore XSLT da terminale: SaxonJ (versione 11.5)- URL github per il dowload: https://github.com/Saxonica/Saxon-HE/blob/main/11/Java/SaxonHE11-5J.zip– URL documentazione: https://www.saxonica.com/documentation11/index.html#!using-xsl/commandline
– Ambiente JAVA installato: https://www.java.com/it/download/
– eXist-db: http://exist-db.org/exist/apps/homepage/index.html

I materiali del workshop saranno disponibili su Github: https://github.com/angelodel80/aspettandoAIUCD2023

Angelo Mario Del Grosso è ingegnere informatico; ha conseguito il dottorato di ricerca in Ingegneria dell’Informazione con una tesi sulla progettazione di componenti software per lo studio di testi d’interesse storico-letterario. Dal 2019 è ricercatore confermato presso il CNR-ILC di Pisa. Le sue principali attività di ricerca riguardano la rappresentazione, l’elaborazione e la fruizione di risorse filologiche. I suoi interessi sono tanto volti alla modellazione formale del testo quanto all’analisi computazionale di documenti testuali, combinando in un unico modello approcci apparentemente divergenti: quello scientifico e quello storico. Partecipa a vari progetti di ricerca sia nazionali che internazionali e insegna codifica di testi presso l’Università di Pisa.

Quando: 18 maggio 2023, ore 17.00

Dove: via Webex per gli iscritti ai seminari, diretta streaming via YouTube all’indirizzo https://youtube.com/live/2QZa0BJ5bYk

4 maggio: Francesco Mambrini, Introduzione a Python per l’analisi dei dati testuali
11 maggio: Linda Spinazzè, Zotero per la gestione dei dati bibliografici e la ricerca collaborativa
25 maggio: Tiziana Mancinelli, Introduzione a IIIF – International Image Interoperability Framework
1 giugno: Rachele Sprugnoli, Introduzione al Natural Language Processing