Nomi dei file


I documenti che fanno parte dei corpora CorDIC hanno un nome che ne caratterizza la loro classificazione all'interno della struttura del corpus. Questo nome, che corrisponde al nome del file nel corpus, è identificato nel sistema come doc.id e viene visualizzato a sinistra di ogni riga quando si ricercano le concordanze.

I nomi nel CorDIC-scritto

Nel corpus scritto i nomi dei file hanno la seguente forma: [Sigla del dominio] [ID]

La sigla del dominio sono 5 lettere che identificano la tipologia testuale. I valori sono:

  • artar: dominio Arti, testi di Architettura. Questa tipologia contiene testi di vario tipo (articoli, interviste, ...) in cui si parla di arte. N.B. Il dominio artistico è l'unico a contenere una ulteriore suddivisione dipendente dal tipo di arte che viene considerata.
  • artci: dominio Arti, testi di Cinema.
  • artfg: dominio Arti, testi di Arti figurative.
  • artmu: dominio Arti, testi di Musica.
  • buroc: dominio Burocratico. Contiene testi reperiti da siti web istituzionali, in cui viene utilizzato un linguaggio burocratico.
  • creat: dominio Creativo. Raccoglie brani di scrittura creativa.
  • econo: dominio Economia. Contiene testi in cui si parla di economia
  • stampa: dominio Stampa. Contiene articoli di informazione.

L'ID sono 2 cifre di identificativo numerico progressivo (01, 02, 03, ...).
Ad esempio il file con nome buroc01 rappresenta il primo testo del corpus CorDIC-scritto appartenente al dominio burocratico.

I nomi nel CorDIC-parlato

Nel corpus parlato si deve distinguere tra lingua utilizzata in interazioni sociali dirette, in cui molti parametri possono variare (contesto sociale, numero di parlanti,...) ma parlante e ricevente si trovano nello stesso luogo, e parlato trasmesso che raccoglie trascrizioni da radio o televisione.

Nelle interazioni dirette i nomi dei file hanno la seguente forma: [Contesto comunicativo] [Tipo di interazione] [ID]

Il Contesto comunicativo è una sigla di 3 lettere che può avere i seguenti valori:

  • fam: familiare
  • prv: privato non regolato
  • prr: privato regolato
  • pub: pubblico non regolato
  • pur: pubblico regolato

Il Tipo di interazione è una sigla di due lettere che rappresenta il numero di parlanti coinvolti; i valori sono:

  • mn: monologo (1 parlante);
  • dl: dialogo (2 parlanti);
  • cv: conversazione (3 o più parlanti).

L'ID sono 2 cifre di identificativo numerico (01, 02, 03, ...).
Ad esempio il file con nome famcv01 corrisponde a un'interazione familiare con 3 o più parlanti, mentre il file con nome purmn01 corrisponde a un monologo pubblico non regolato.

Nel parlato trasmesso i nomi dei file hanno la seguente forma: "med" [Categoria] [ID]

La sigla med (lingua dei media) è presente in ogni file e serve per distinguerli dagli altri testi di parlato.
La Categoria è identificata da 2 caratteri e può avere i seguenti valori:

  • in: interview. Trascrizioni di interviste televisive.
  • la: law. Trascrizioni di sedute in aula di tribunale andate in onda.
  • ps: political speech. Comizi e tribune politiche.
  • rp: reportage. Documentari televisivi.
  • sc: scienza. Testi di programmi tv scientifici, per lo più di medicina
  • sp: sport.
  • ts: talk show.

Ad esempio il file con nome medsp01 corrisponde alla trascrizione di una trasmissione sportiva.