Le biblioteche digitali del futuro parlano italiano
Negli ultimi due anni, iniziative come “Google Book Search” e “Europeana” hanno fatto comprendere come una delle prossime sfide sul web sarà la messa in linea dei contenuti digitali immagazzinati presso biblioteche, archivi, redazioni,ecc.. Attualmente le attività di digitalizzazione e messa on-line di contenuti stanno procedendo a ritmo sostenuto, anche grazie anche ai contributi provenienti da iniziative europea quali EcontenPlus (60 milioni di euro). Il tema centrale del convegno NLP4DL è il seguente: una volta che queste risorse sono disponibili, qual è la maniera più semplice ed intuitiva per cercarle? L’assunto di base degli organizzatori del convegno è che la maniera più facile per trovare risorse in archivi digitali resti l’uso del linguaggio naturale. E’ un fatto che la maggior parte degli oggetti digitali disponibili contengono possibili chiavi di accesso codificate tramite la lingua: tali chiavi possono essere i cosiddetti “metadati” (informazione sull’oggetto digitale: ad esempio autore, titolo, descrizione, riassunto), informazione non strutturata comunque “connessa” (tags e commenti generati dagli utenti, links a pagine di critica, ...), fino al contenuto digitalizzato e trasformato (qualora la natura dell’opera lo consenta) in testo comprensibile da parte del computer. E’ naturale che a tutte queste informazioni codificate come “linguistiche” l’utente possa accedere utilizzando uno degli strumenti che conosce meglio, ovvero la lingua nativa. Tuttavia, e questa è una delle sfide principali di NLP4DL e la linea di ricerca predominante in CACAO, esistono tante lingue nel mondo, ed è di fondamentale importanza garantire a tutte le lingue uguale accesso al tesoro digitale on-line che va costituendosi. L’obiettivo di progetti quali CACAO ed EuropeanaConnect, che vedono la partecipazione attiva di CELI, (azienda italiana da 10 anni attiva nel campo della ricerca sull’analisi automatica del linguaggio naturale) in consorzi di portata Europea è dunque semplice: permettere ad un utente di scrivere una ricerca nella propria lingua e ricevere tutti i risultati rilevanti a prescindere dalla codifica linguistica. Ad esempio sarà possibile ad un utente italiano accedere a stampe settecentesche della planimetria di Parigi conservate presso la Bibliothèque Nationale de France, semplicemente digitando “carta di Parigi secolo diciassettesimo”, nonostante il fatto che tutta l’informazione correlata a tali oggetti digitali sia integralmente in francese.
Il convegno, ospitato presso l’Hotel Esplanade di Viareggio, comprende tanto la presenza di oratori scelti sulla base di contributi “peer reviewed” quanto una selezione di “invited talk” a cura dei più apprezzati esperti europei nel campo.
Approfondimenti- CACAO (Cross Language Access to Catalogues and On-line Libraries). Si tratta di uno dei più importanti sforzi in atto da parte della Commissione Europea nell’ambito di eContentplus al fine di garantire un accesso multilingue all’informazione. Il progetto coinvolge 6 paesi europei ed è coordinato dal centro di ricerche Xerox di Grenoble. Nonostante la coordinazione del progetto sia francese, la maggior parte della ricerca (circa il 40 % del totale di progetto) viene svolta in Italia, grazie all’attvità di CELI, Free University of Bozen-Bolzano, e Gonetwork.
- CELI. è un’azienda italiana con forte vocazione alla ricerca attiva da 10 anni nel panorama europeo dell’analisi automatica del linguaggio. Realizza soluzioni “high-end” per la gestione dell’informazione non strutturata, che includono comprensione del testo, analisi delle opinioni, analisi delle attitudini delle comunità on-line. Sviluppa anche risorse di base per il trattamento di un vasto insieme di lingue per applicazioni che vanno dal text to speech al recupero di documenti. Sul versante ricerca le principali linee di CELI sono l’accesso multilingue all’informazione, la comprensione semantica del testo basata su risorse di alto livello (grammatiche a dipendenze, frames semantici), l’acquisizione di risorse semantiche basata su tecnologie di trattamento di vettori multidimensionali., ed il trattamento avanzato dell’informazione giuridica (http://ict4law.org/).



