CorDIC: Corpora Didattici Italiani di Confronto
I corpora CorDIC LABLITA (Corpora Didattici Italiani di Confronto) sono stati progettati per offrire uno strumento didattico per il confronto tra le varietà scritta e orale dell’italiano, in occasione della pubblicazione del volume di Emanuela Cresti e Alessandro Panunzi, Introduzione ai corpora dell'italiano, Il Mulino, 2013.
CorDIC si articola in due sezioni indipendenti: il corpus CorDIC-scritto e il corpus CorDIC-parlato. Le due risorse sono strettamente comparabili anche dal punto di vista delle dimensioni: ciascuna raccolta contiene circa 500.000 parole suddivise in 200 campioni testuali (con una media di 2.500 parole per ogni testo).
I corpora sono pubblicati in rete a cura di Lorenzo Gregori e Alessandro Panunzi.
Strumenti e risorse utilizzati
Il corpus CorDIC-scritto contiene testi scaricati dalla rete attraverso la piattaforma RIDIRE-CPI, appositamente disegnata per il progetto RIDIRE e poi filtrati manualmente con un lavoro di selezione, analisi e pulizia per assicurare la loro adeguatezza all'interno del corpus.
Il corpus CorDIC-parlato è stato derivato dalle trascrizioni del corpus di parlato spontaneo raccolto presso LABLITA (Laboratorio Linguistico Italiano dell’Università di Firenze).
Questa applicazione web utilizza la piattaforma open-source messa a disposizione dal progetto NoSketch Engine (un’edizione limitata del software commerciale SketchEngine).
CorDIC: Struttura dei corpora
I due corpora di scritto e di parlato sono stati realizzati a partire da un corpus design predefinito.
Pertanto ogni testo è stato classificato con uno o più metadati identificativi della tipologia a cui il testo appartiene e questo consente di poter analizzare la lingua nei diversi ambiti di applicazione.
CorDIC-scritto
I 200 testi del corpus scritto sono classificati in 5 tipologie, ciascuna delle quali rappresenta un dominio d’uso linguistico semantico o funzionale: creativo, burocratico, stampa, arti, economia. Ogni dominio è rappresentato da un uguale numero di testi, ed ogni sotto-corpus conta circa 100.000 parole.
Dominio |
N. testi |
N. parole |
Percentuale |
Totale CorDIC-scritto |
200 |
502.665 |
arti |
40 |
101.299 |
20,15% |
burocratico |
40 |
98.814 |
19,66% |
creativo |
40 |
101.725 |
20,24% |
economia |
40 |
100.072 |
19,91% |
stampa |
40 |
100.755 |
20,04% |
CorDIC-parlato
Il corpus si parlato è stato disegnato in base al contesto di raccolta: sono presenti due tipologie principali, il parlato prodotto in contesto naturale (interazioni faccia a faccia; circa l’80% della raccolta) e il parlato trasmesso (circa il 20%).
Il parlato in contesto naturale è stato a sua volta articolato in due sotto-sezioni delle stesse dimensioni: contesto privato (che comprende anche le interazioni in famiglia) e contesto pubblico. A partire da questa classificazione sono state create tre tipologie principali: privato, pubblico e trasmesso.
Contesto |
N. testi |
N. parole |
Percentuale |
Totale CorDIC-parlato |
200 |
499.011 |
privato |
82 |
193.905 |
38,86% |
pubblico |
86 |
198.468 |
39,77% |
trasmesso |
32 |
106.638 |
21,37% |
Per il parlato in contesto naturale (pubblico e privato) è stata creata un'ulteriore classificazione sulla base del tipo di interazione dello scambio comunicativo: sono state distinte le interazioni monologiche e le interazioni dialogiche, con due o più parlanti.
Le trascrizioni di parlato trasmesso non sono state classificate rispetto a questo tratto e questo livello sono tutte identificate dal tag non_classificato.
Tipo di interazione |
N. testi |
N. parole |
Percentuale |
Totale contesto naturale |
168 |
392.373 |
dialogico |
115 |
266.095 |
67,82% |
monologico |
53 |
126.278 |
32,18% |