Strumenti Utente

Strumenti Sito


manuale_utente:liste_di_frequenza

Differenze

Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.

Link a questa pagina di confronto

manuale_utente:liste_di_frequenza [13/11/2013 16:14]
admin [Generazione delle liste di frequenza]
manuale_utente:liste_di_frequenza [21/11/2013 17:54] (versione attuale)
admin [Generazione delle liste di frequenza]
Linea 33: Linea 33:
 Il secondo riquadro permette di impostare dei filtri sulla frequenza e sulla forma testuale delle parole (o comunque dell'​attributo selezionato sopra). Il secondo riquadro permette di impostare dei filtri sulla frequenza e sulla forma testuale delle parole (o comunque dell'​attributo selezionato sopra).
 E' possibile filtrare la lista per: E' possibile filtrare la lista per:
-  * **RE pattern**: in questo si può impostare un'​espressione regolare che definisca la forma testuale che devono avere le parole della nostra lista. Ad esempio l'​espressione ''​.*''​ identifica qualsiasi stringa, quindi impostando ''​ca.*e''​ limiterò la mia ricerca alle parole //cane//, //cadere//, //carte//, ... La sintassi accettata è quella dello standard UNIX.+  * **Espr. regolare**: in questo si può impostare un'​espressione regolare che definisca la forma testuale che devono avere le parole della nostra lista. Ad esempio l'​espressione ''​.*''​ identifica qualsiasi stringa, quindi impostando ''​ca.*e''​ limiterò la mia ricerca alle parole //cane//, //cadere//, //carte//, ... La sintassi accettata è quella dello standard UNIX.
   * **Frequenza minima**: impostare la frequenza minima consente di escludere tutti i risultati con frequenza troppo bassa; normalmente questa opzione è molto utile per ridurre il "​rumore"​.   * **Frequenza minima**: impostare la frequenza minima consente di escludere tutti i risultati con frequenza troppo bassa; normalmente questa opzione è molto utile per ridurre il "​rumore"​.
   * **Whitelist**:​ è possibile inserire una nostra lista di parole delle quali vogliamo calcolare la frequenza nel corpus. In questo caso, utilizzando il bottone **Sfoglia**,​ possiamo caricare un file di testo che specifica le parole da includere nella lista. Cliccando **Formato** viene specificato il formato corretto che deve avere il file.   * **Whitelist**:​ è possibile inserire una nostra lista di parole delle quali vogliamo calcolare la frequenza nel corpus. In questo caso, utilizzando il bottone **Sfoglia**,​ possiamo caricare un file di testo che specifica le parole da includere nella lista. Cliccando **Formato** viene specificato il formato corretto che deve avere il file.
Linea 44: Linea 44:
 Il terzo riquadro contiene ulteriori parametri relativi all'​output generato. Il terzo riquadro contiene ulteriori parametri relativi all'​output generato.
  
-**Frequency figures** consente di specificare che cosa si intende per //​frequenza//:​ +**Misura della frequenza** consente di specificare che cosa si intende per //​frequenza//:​ 
-  * **Word count**: frequenza come numero totale di parole nel corpus; +  * **Numero di Parole**: frequenza come numero totale di parole nel corpus; 
-  * **Documents count**: frequenza come numero dei documenti in cui la parola è presente;+  * **Numero di Documenti**: frequenza come numero dei documenti in cui la parola è presente;
   * **ARF**: frequenza come valore [[https://​www.sketchengine.co.uk/​documentation/​wiki/​SkE/​Help/​ARF|ARF (Average Reduced Frequency)]] della parola nel corpus.   * **ARF**: frequenza come valore [[https://​www.sketchengine.co.uk/​documentation/​wiki/​SkE/​Help/​ARF|ARF (Average Reduced Frequency)]] della parola nel corpus.
  
 L'​utlimo parametro **Output type** specifica se si vuole generare una lista standard, una lista multilivello oppure la lista delle parole chiave del dominio di riferimento. L'​utlimo parametro **Output type** specifica se si vuole generare una lista standard, una lista multilivello oppure la lista delle parole chiave del dominio di riferimento.
   * **Semplice**:​ è l'​opzione di default e genera una lista della forma <​parola,​frequenza>;​   * **Semplice**:​ è l'​opzione di default e genera una lista della forma <​parola,​frequenza>;​
-  * **Keywords**:​ opzione utilizzata per ottenere le parole chiave del corpus/​subcorpus selezionato sopra confrontandolo con un altro corpus/​subcorpus di riferimento. In questo modo la lista calcolata sarà ordinata non per frequenza, bensì per una misura di //quanto la parola è specifica del dominio in questione//​. Per questa misura è necessario impostare come parametro il valore [[https://​www.sketchengine.co.uk/​documentation/​wiki/​SkE/​SimpleMaths|SimpleMaths]]. Ad esempio, se si calcolano le keywords nel subcorpus **scritto-economia**,​ utilizzando come riferimento il corpus **scritto** (SimpleMaths = 40), i primi 3 risultati sono: //​aliquota//,​ //​reddito//,​ //​imposta//​. +  * **Keywords**:​ opzione utilizzata per ottenere le parole chiave del corpus/​subcorpus selezionato sopra confrontandolo con un altro corpus/​subcorpus di riferimento. In questo modo la lista calcolata sarà ordinata non per frequenza, bensì per una misura di //quanto la parola è specifica del dominio in questione//​. Per questa misura è necessario impostare come parametro il valore [[https://​www.sketchengine.co.uk/​documentation/​wiki/​SkE/​SimpleMaths|SimpleMaths]]. ​\\ Ad esempio, se si calcolano le keywords nel subcorpus **scritto-economia**,​ utilizzando come riferimento il corpus **scritto** (//SimpleMaths = 40//), i primi 3 risultati sono: //​aliquota//,​ //​reddito//,​ //​imposta//​. 
- +  * **Multilivello**un'​estensione della lista ''​Semplice''​ è la lista su più livelli (massimo 3), in cui si impostano più attributi di parola\\ Ad esempio è possibile generare una lista <​forma,​pos,​frequenza>​ per analizzare quali sono i valori grammaticali più utilizzati nelle varie forme di parola. Le liste per lemmi da scaricare ​(qui soprasono un esempio di liste multivello perché contengono anche l'​informazione di PoS.
-    Keywordsuse this option to generate keywords obtained when contrasting the corpus or subcorpus with a reference corpus or subcorpus. +
-    You can use the multilevel option to produce lists with more than one attribute ​(see also Using MultiLevel lists+
/var/www/wiki/data/attic/manuale_utente/liste_di_frequenza.1384355685.txt.gz · Ultima modifica: 13/11/2013 16:14 da admin