Strumenti Utente

Strumenti Sito


manuale_utente:liste_di_frequenza

Questa è una vecchia versione del documento!


Liste di frequenza

Le liste di frequenza sono un importante strumento di analisi linguistica, poiché permettono di studiare la distribuzione delle parole all'interno di un corpus.

All'interno di CorDIC sono disponibili le liste già compilate scaricabili in formato tabellare calcolate sui due corpora; se si desidera avere delle liste personalizzate è inoltre possibile crearle dinamicamente con la funzione Generazione delle liste di frequenza.

Inoltre dal menu funzioni sono disponibili due opzioni per generare direttamente la lista di Tutti i lemmi e quella di Tutte le parole.

Liste di frequenza da scaricare

Per ogni corpus sono disponibili due liste: quella delle forme e quella dei lemmi. E' possibile scaricare la lista in due formati, XLSX per Microsoft Excel e CSV compatibile con qualsiasi applicazione “Foglio di Calcolo” (LibreOffice calc, Gnumeric, Apple Numbers, …).

La lista delle forme contiene tutte le forme di parola presenti nel corpus e, per ciascuna di esse, la relativa frequenza.

La lista dei lemmi è costituita dall'elenco di tutti i lemmi presenti nel corpus con la relativa frequenza; in questa tabella è presente anche l'informazione di part-of-speech e lo stesso lemma con diverso PoS è trattato come entrata separata. Per cui, ad esempio, il lemma locale è presente due volte nella lista di CorDIC-scritto: come nome (25 occorrenze) e come aggettivo (138 occorrenze).

Generazione delle liste di frequenza

Se le liste di frequenza da scaricare rappresentano dati generali di tutto il corpus, la generazione dinamica permette di ottenere dei dati specifici, filtrati in base alle proprie esigenze di analisi linguistica.

Nel primo riquadro è possibile scegliere le impostazioni di base della nostra lista: il dominio e l'oggetto linguistico della ricerca.

  • Corpus: permette di selezionare il corpus di riferimento;
  • Subcorpus: se sono presenti dei sotto-corpora è possibile limitare la lista di frequenza a uno di essi;
  • Attributo da ricercare: specifica l'oggetto linguistico del quale vogliamo avere la lista di frequenza. Normalmente si utilizza word per avere la lista delle forme oppure lemma per la lista dei lemmi; è però possibile generare una lista anche di tutti gli altri attributi, sia a livello di token (come pos e type), sia a livello di documento (ad esempio contesto e interazione per CorDIC-parlato).

Il secondo riquadro permette di impostare dei filtri sulla frequenza e sulla forma testuale delle parole (o comunque dell'attributo selezionato sopra). E' possibile filtrare la lista per:

  • RE pattern: in questo si può impostare un'espressione regolare che definisca la forma testuale che devono avere le parole della nostra lista. Ad esempio l'espressione .* identifica qualsiasi stringa, quindi impostando ca.*e limiterò la mia ricerca alle parole cane, cadere, carte, … La sintassi accettata è quella dello standard UNIX.
  • Frequenza minima: impostare la frequenza minima consente di escludere tutti i risultati con frequenza troppo bassa; normalmente questa opzione è molto utile per ridurre il “rumore”.
  • Whitelist: è possibile inserire una nostra lista di parole delle quali vogliamo calcolare la frequenza nel corpus. In questo caso, utilizzando il bottone Sfoglia, possiamo caricare un file di testo che specifica le parole da includere nella lista. Cliccando Formato viene specificato il formato corretto che deve avere il file.
  • Blacklist: come per Whitelist è possibile caricare una propria di parole; in questo caso però l'elenco immesso contiene le parole che devono essere escluse dal risultato.

Inoltre con la checkbox Includi non-words è possibile decidere se includere o escludere i token che non sono parole, ossia segni di punteggiatura e altri simboli grafici.


Il terzo riquadro contiene ulteriori parametri relativi all'output generato.

Misura della frequenza consente di specificare che cosa si intende per frequenza:

  • Numero di Parole: frequenza come numero totale di parole nel corpus;
  • Numero di Documenti: frequenza come numero dei documenti in cui la parola è presente;
  • ARF: frequenza come valore ARF (Average Reduced Frequency) della parola nel corpus.

L'utlimo parametro Output type specifica se si vuole generare una lista standard, una lista multilivello oppure la lista delle parole chiave del dominio di riferimento.

  • Semplice: è l'opzione di default e genera una lista della forma <parola,frequenza>;
  • Keywords: opzione utilizzata per ottenere le parole chiave del corpus/subcorpus selezionato sopra confrontandolo con un altro corpus/subcorpus di riferimento. In questo modo la lista calcolata sarà ordinata non per frequenza, bensì per una misura di quanto la parola è specifica del dominio in questione. Per questa misura è necessario impostare come parametro il valore SimpleMaths.
    Ad esempio, se si calcolano le keywords nel subcorpus scritto-economia, utilizzando come riferimento il corpus scritto (SimpleMaths = 40), i primi 3 risultati sono: aliquota, reddito, imposta.
  • Multilevel: un'estensione della lista Semplice è la lista su più livelli (massimo 3), in cui si impostano più attributi di parola.
    Ad esempio è possibile generare una lista <forma,pos,frequenza> per analizzare quali sono i valori grammaticali più utilizzati nelle varie forme di parola. Le liste per lemmi da scaricare (qui sopra) sono un esempio di liste multivello perché contengono anche l'informazione di PoS.
/var/www/wiki/data/attic/manuale_utente/liste_di_frequenza.1385049864.txt.gz · Ultima modifica: 21/11/2013 17:04 da admin