Ricerca & Didattica
CLI   Centro Linguistico  
Università di Pisa
UNIVERSITÀ DI PISA
Home » Ricerca & Didattica » Linee di Ricerca » Corpora On Line

 

 

CITATAL
Corpora on line, Ipermedia, Traduzione, Analisi Testuale e Apprendimento Linguistico
progetto MURST n. 78 anno 1998

 

Il Centro Linguistico Interdipartimentale ospita parte dei corpora prodotti o acquisiti nell'ambito del progetto CITATAL.
 

Corpora consultabili presso la struttura

  1. Corpora provenienti da associazioni per la distribuzione delle risorse linguistiche (ELRA) CRATER English, French & Spanish aligned corpora
    ECI-ELSNET Italian and German tagged sub-corpus
    MULTEXT JOC Corpus
    MULTILINGUAL CORPORA FOR CO-OPERATION - MLCC
  2. Corpora provenienti da istituzioni estere (University College London)
    The International Corpus of English ICE-GB
  3. Corpora provenienti dalle sedi consociate del progetto CITATAL
    Corpus di Padova

 

Corpora consultabili on-line (corpora paralleli e corpora monolingui)

Il corpus parallelo consultabile on-line (corpus di italiano e inglese) è costituito dai testi bilingui di Atmosphere Editore Cantelli Rotoweb), rivista di bordo della compagnia aerea Meridiana. Tale corpus verrà incrementato contestualmente all'uscita dei nuovi numeri della rivista. Altre trattative sono in corso per l'ampliamento del corpus ad altre fonti.
Per la strutturazione del corpus è stato necessario innanzitutto formulare un contratto d'uso delle risorse testuali, successivamente stipulato fra il Centro Linguistico Interdipartimentale, in collaborazione con il Dipartimento di Anglistica, dell'Università di Pisa e il proprietario del copyright della rivista (Editore Cantelli Rotoweb), in modo che la pubblicazione su Internet e l'interrogazione successiva tramite gli strumenti appositi potessero avvenire nel rispetto delle attuali norme sul copyright. Nel contratto sono confluiti gli interessi dei due contraenti, in modo tale che attualmente il CLI è autorizzato a intervenire sui testi per quanto riguarda il diritto di riproduzione, di rappresentazione, di adattamento, di traduzione e di utilizzo, totale o parziale, dei dati di cui è entrato in possesso, con ampio margine di azione.
I due corpora monolingui che compongono il corpus parallelo sono stati adeguatamente allineati in modo da permettere l'interrogazione on-line tramite il DBT Synchro; inoltre ciascuno dei corpora monolingui è stato codificato per rendere possibile l'interrogazione on-line di essi tramite il DBT.