Strumenti Utente

Strumenti Sito


manuale_utente:liste_di_frequenza

Questa è una vecchia versione del documento!


Liste di frequenza

Le liste di frequenza sono un importante strumento di analisi linguistica, poiché permettono di studiare la distribuzione delle parole all'interno di un corpus.

All'interno di CorDIC sono disponibili le liste già compilate scaricabili in formato tabellare calcolate sui due corpora; se si desidera avere delle liste personalizzate è inoltre possibile crearle dinamicamente con la funzione Generazione delle liste di frequenza.

Inoltre dal menu funzioni sono disponibili due opzioni per generare direttamente la lista di Tutti i lemmi e quella di Tutte le parole.

Liste di frequenza da scaricare

Per ogni corpus sono disponibili due liste: quella delle forme e quella dei lemmi. E' possibile scaricare la lista in due formati, XLSX per Microsoft Excel e CSV compatibile con qualsiasi applicazione “Foglio di Calcolo” (LibreOffice calc, Gnumeric, Apple Numbers, …).

La lista delle forme contiene tutte le forme di parola presenti nel corpus e, per ciascuna di esse, la relativa frequenza.

La lista dei lemmi è costituita dall'elenco di tutti i lemmi presenti nel corpus con la relativa frequenza; in questa tabella è presente anche l'informazione di part-of-speech e lo stesso lemma con diverso PoS è trattato come entrata separata. Per cui, ad esempio, il lemma locale è presente due volte nella lista di CorDIC-scritto: come nome (25 occorrenze) e come aggettivo (138 occorrenze).

Generazione delle liste di frequenza

Se le liste di frequenza da scaricare rappresentano dati generali di tutto il corpus, la generazione dinamica permette di ottenere dei dati specifici, filtrati in base alle proprie esigenze di analisi linguistica.

Nel primo riquadro è possibile scegliere le impostazioni di base della nostra lista: il dominio e l'oggetto linguistico della ricerca.

  • Corpus: permette di selezionare il corpus di riferimento;
  • Subcorpus: se sono presenti dei sotto-corpora è possibile limitare la lista di frequenza a uno di essi;
  • Attributo da ricercare: specifica l'oggetto linguistico del quale vogliamo avere la lista di frequenza. Normalmente si utilizza word per avere la lista delle forme oppure lemma per la lista dei lemmi; è però possibile generare una lista anche di tutti gli altri attributi, sia a livello di token (come pos e type), sia a livello di documento (ad esempio contesto e interazione per CorDIC-parlato).

Search Attribute: you can specify word, lemma, tag (part of speech tag) etc.. depending on the attributes defined for the corpus or you can specify one of the text types defined for the corpus. The default attribute is word.

Filter wordlist You can either do this for all words (or lemmas or whichever attribute you specify) or you can filter the list using:

  RE pattern: (regular expression pattern) .* is the wild card so "ca.*" would generate a list for all items, words by default, starting with "ca". The search attribute field will determine what the pattern relates to. The default attribute is word, but you could select lemma, tag (part of speech tag) or lc (lower case).
  Minimum Frequency: minimum frequency in that corpus or subcorpus
  Whitelist: upload a list of words (items) that should be included in this list. This is handy in case you have a list of words and want to find out their frequencies in a particular corpus. If you upload a file with such words as a whitelist, you get the word list with frequencies just for your words.
  Blacklist: upload a list of words (items) that should be excluded from this list
  checkbox to include non-words, punctuation etc... (based on a regular expression in the configuration file) 

Frequency figures

  You can alter the measure used to rank, and provided with, your word list. These can be word counts, document counts or ARF (average reduced frequency, see SkE/Help/JargonBuster for details on the ARF statistic) 

Output type

  Keywords: use this option to generate keywords obtained when contrasting the corpus or subcorpus with a reference corpus or subcorpus.
  You can use the multilevel option to produce lists with more than one attribute (see also Using MultiLevel lists) 
/var/www/wiki/data/attic/manuale_utente/liste_di_frequenza.1384351412.txt.gz · Ultima modifica: 13/11/2013 15:03 da admin