ACCESSO AI CORPORA

CorDIC: Corpora Didattici Italiani di Confronto


I corpora CorDIC LABLITA (Corpora Didattici Italiani di Confronto) sono stati progettati per offrire uno strumento didattico per il confronto tra le varietà scritta e orale dell’italiano, in occasione della pubblicazione del volume di Emanuela Cresti e Alessandro Panunzi, Introduzione ai corpora dell'italiano, Il Mulino, 2013.

CorDIC si articola in due sezioni indipendenti: il corpus CorDIC-scritto e il corpus CorDIC-parlato. Le due risorse sono strettamente comparabili anche dal punto di vista delle dimensioni: ciascuna raccolta contiene circa 500.000 parole suddivise in 200 campioni testuali (con una media di 2.500 parole per ogni testo).

I corpora sono pubblicati in rete a cura di Lorenzo Gregori e Alessandro Panunzi.

Strumenti e risorse utilizzati

Il corpus CorDIC-scritto contiene testi scaricati dalla rete attraverso la piattaforma RIDIRE-CPI, appositamente disegnata per il progetto RIDIRE e poi filtrati manualmente con un lavoro di selezione, analisi e pulizia per assicurare la loro adeguatezza all'interno del corpus.
Il corpus CorDIC-parlato è stato derivato dalle trascrizioni del corpus di parlato spontaneo raccolto presso LABLITA (Laboratorio Linguistico Italiano dell’Università di Firenze).

Questa applicazione web utilizza la piattaforma open-source messa a disposizione dal progetto NoSketch Engine (un’edizione limitata del software commerciale SketchEngine).