I documenti che fanno parte dei corpora CorDIC hanno un nome che ne caratterizza la loro classificazione all'interno della struttura del corpus. Questo nome, che corrisponde al nome del file nel corpus, è identificato nel sistema come doc.id e viene visualizzato a sinistra di ogni riga quando si ricercano le concordanze.
Nel corpus scritto i nomi dei file hanno la seguente forma: [Sigla del dominio] [ID] La sigla del dominio sono 5 lettere che identificano la tipologia testuale. I valori sono:
L'ID sono 2 cifre di identificativo numerico progressivo (01, 02, 03, ...). Ad esempio il file con nome buroc01 rappresenta il primo testo del corpus CorDIC-scritto appartenente al dominio burocratico.
Nel corpus parlato si deve distinguere tra lingua utilizzata in interazioni sociali dirette, in cui molti parametri possono variare (contesto sociale, numero di parlanti,...) ma parlante e ricevente si trovano nello stesso luogo, e parlato trasmesso che raccoglie trascrizioni da radio o televisione. Nelle interazioni dirette i nomi dei file hanno la seguente forma: [Contesto comunicativo] [Tipo di interazione] [ID] Il Contesto comunicativo è una sigla di 3 lettere che può avere i seguenti valori:
Il Tipo di interazione è una sigla di due lettere che rappresenta il numero di parlanti coinvolti; i valori sono:
L'ID sono 2 cifre di identificativo numerico (01, 02, 03, ...). Ad esempio il file con nome famcv01 corrisponde a un'interazione familiare con 3 o più parlanti, mentre il file con nome purmn01 corrisponde a un monologo pubblico non regolato. Nel parlato trasmesso i nomi dei file hanno la seguente forma: "med" [Categoria] [ID] La sigla med (lingua dei media) è presente in ogni file e serve per distinguerli dagli altri testi di parlato. La Categoria è identificata da 2 caratteri e può avere i seguenti valori:
Ad esempio il file con nome medsp01 corrisponde alla trascrizione di una trasmissione sportiva.