Strumenti Utente

Strumenti Sito


manuale_utente:liste_di_frequenza

Differenze

Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.

Link a questa pagina di confronto

manuale_utente:liste_di_frequenza [13/11/2013 15:31]
admin [Generazione delle liste di frequenza]
manuale_utente:liste_di_frequenza [21/11/2013 17:54] (versione attuale)
admin [Generazione delle liste di frequenza]
Linea 28: Linea 28:
   * **Subcorpus**:​ se sono presenti dei sotto-corpora è possibile limitare la lista di frequenza a uno di essi;   * **Subcorpus**:​ se sono presenti dei sotto-corpora è possibile limitare la lista di frequenza a uno di essi;
   * **Attributo da ricercare**:​ specifica l'​oggetto linguistico del quale vogliamo avere la lista di frequenza. Normalmente si utilizza **word** per avere la lista delle forme oppure **lemma** per la lista dei lemmi; è però possibile generare una lista anche di tutti gli altri attributi, sia a livello di token (come **pos** e **type**), sia a livello di documento (ad esempio **contesto** e **interazione** per CorDIC-parlato).   * **Attributo da ricercare**:​ specifica l'​oggetto linguistico del quale vogliamo avere la lista di frequenza. Normalmente si utilizza **word** per avere la lista delle forme oppure **lemma** per la lista dei lemmi; è però possibile generare una lista anche di tutti gli altri attributi, sia a livello di token (come **pos** e **type**), sia a livello di documento (ad esempio **contesto** e **interazione** per CorDIC-parlato).
 +
 +----
  
 Il secondo riquadro permette di impostare dei filtri sulla frequenza e sulla forma testuale delle parole (o comunque dell'​attributo selezionato sopra). Il secondo riquadro permette di impostare dei filtri sulla frequenza e sulla forma testuale delle parole (o comunque dell'​attributo selezionato sopra).
 E' possibile filtrare la lista per: E' possibile filtrare la lista per:
-  * **RE pattern**: in questo si può impostare un'​espressione regolare che definisca la forma testuale che devono avere le parole della nostra lista. Ad esempio l'​espressione ''​.*''​ identifica qualsiasi stringa, quindi impostando ''​ca.*e''​ limiterò la mia ricerca alle parole //cane//, //cadere//, //carte//, ... La sintassi accettata è quella dello standard UNIX.+  * **Espr. regolare**: in questo si può impostare un'​espressione regolare che definisca la forma testuale che devono avere le parole della nostra lista. Ad esempio l'​espressione ''​.*''​ identifica qualsiasi stringa, quindi impostando ''​ca.*e''​ limiterò la mia ricerca alle parole //cane//, //cadere//, //carte//, ... La sintassi accettata è quella dello standard UNIX.
   * **Frequenza minima**: impostare la frequenza minima consente di escludere tutti i risultati con frequenza troppo bassa; normalmente questa opzione è molto utile per ridurre il "​rumore"​.   * **Frequenza minima**: impostare la frequenza minima consente di escludere tutti i risultati con frequenza troppo bassa; normalmente questa opzione è molto utile per ridurre il "​rumore"​.
   * **Whitelist**:​ è possibile inserire una nostra lista di parole delle quali vogliamo calcolare la frequenza nel corpus. In questo caso, utilizzando il bottone **Sfoglia**,​ possiamo caricare un file di testo che specifica le parole da includere nella lista. Cliccando **Formato** viene specificato il formato corretto che deve avere il file.   * **Whitelist**:​ è possibile inserire una nostra lista di parole delle quali vogliamo calcolare la frequenza nel corpus. In questo caso, utilizzando il bottone **Sfoglia**,​ possiamo caricare un file di testo che specifica le parole da includere nella lista. Cliccando **Formato** viene specificato il formato corretto che deve avere il file.
 +  * **Blacklist**:​ come per ''​Whitelist''​ è possibile caricare una propria di parole; in questo caso però l'​elenco immesso contiene le parole che devono essere escluse dal risultato.
  
-    Whitelist: upload a list of words (items) that should be included in this list. This is handy in case you have a list of words and want to find out their frequencies in a particular corpus. If you upload a file with such words as a whitelist, you get the word list with frequencies just for your words. +Inoltre con la checkbox ​**Includi ​non-words** è possibile decidere se includere o escludere i token che non sono paroleossia segni di punteggiatura e altri simboli grafici.
-    Blacklist: upload a list of words (items) that should be excluded from this list +
-    ​checkbox ​to include ​non-words, ​punctuation etc..(based on a regular expression in the configuration file) +
  
-Frequency figures+----
  
-    You can alter the measure used to rank, and provided with, your word listThese can be word counts, document counts or ARF (average reduced frequency, see SkE/​Help/​JargonBuster for details on the ARF statistic) ​+Il terzo riquadro contiene ulteriori parametri relativi all'​output generato.
  
-Output type+**Misura della frequenza** consente di specificare che cosa si intende per //​frequenza//:​ 
 +  * **Numero di Parole**: frequenza come numero totale di parole nel corpus; 
 +  * **Numero di Documenti**:​ frequenza come numero dei documenti in cui la parola è presente; 
 +  * **ARF**: frequenza come valore [[https://​www.sketchengine.co.uk/​documentation/​wiki/​SkE/​Help/​ARF|ARF (Average Reduced Frequency)]] della parola nel corpus.
  
-    ​Keywords: ​use this option to generate keywords obtained when contrasting the corpus ​or subcorpus ​with a reference ​corpus ​or subcorpus. +L'​utlimo parametro **Output type** specifica se si vuole generare una lista standard, una lista multilivello oppure la lista delle parole chiave del dominio di riferimento. 
-    You can use the multilevel option to produce lists with more than one attribute ​(see also Using MultiLevel lists+  * **Semplice**:​ è l'​opzione di default e genera una lista della forma <​parola,​frequenza>;​ 
 +  * **Keywords**opzione utilizzata per ottenere le parole chiave del corpus/subcorpus ​selezionato sopra confrontandolo con un altro corpus/subcorpus ​di riferimento. In questo modo la lista calcolata sarà ordinata non per frequenza, bensì per una misura di //quanto la parola è specifica del dominio in questione//​. Per questa misura è necessario impostare come parametro il valore [[https://​www.sketchengine.co.uk/​documentation/​wiki/​SkE/​SimpleMaths|SimpleMaths]]. \\ Ad esempio, se si calcolano le keywords nel subcorpus **scritto-economia**,​ utilizzando come riferimento il corpus **scritto** (//​SimpleMaths = 40//), i primi 3 risultati sono: //​aliquota//,​ //​reddito//,​ //imposta//
 +  * **Multilivello**:​ un'​estensione della lista ''​Semplice''​ è la lista su più livelli ​(massimo 3), in cui si impostano più attributi di parola. \\ Ad esempio è possibile generare una lista <​forma,​pos,​frequenza>​ per analizzare quali sono i valori grammaticali più utilizzati nelle varie forme di parola. Le liste per lemmi da scaricare (qui sopra) sono un esempio di liste multivello perché contengono anche l'​informazione di PoS.
/var/www/wiki/data/attic/manuale_utente/liste_di_frequenza.1384353103.txt.gz · Ultima modifica: 13/11/2013 15:31 da admin