Strumenti Utente

Strumenti Sito


manuale_utente:liste_di_frequenza

Differenze

Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.

Link a questa pagina di confronto

manuale_utente:liste_di_frequenza [13/11/2013 14:48]
admin [Generazione delle liste di frequenza]
manuale_utente:liste_di_frequenza [21/11/2013 17:54] (versione attuale)
admin [Generazione delle liste di frequenza]
Linea 23: Linea 23:
 Se le liste di frequenza da scaricare rappresentano dati generali di tutto il corpus, la generazione dinamica ​ permette di ottenere dei dati specifici, filtrati in base alle proprie esigenze di analisi linguistica. Se le liste di frequenza da scaricare rappresentano dati generali di tutto il corpus, la generazione dinamica ​ permette di ottenere dei dati specifici, filtrati in base alle proprie esigenze di analisi linguistica.
  
 +Nel primo riquadro è possibile scegliere le impostazioni di base della nostra lista: il dominio e l'​oggetto linguistico della ricerca.
  
-    ​Subcorpus: ​where you can specify ​subcorpus for the source data, or create a new one. +  * **Corpus**: permette di selezionare il corpus di riferimento;​ 
-    ​Search Attributeyou can specify ​wordlemma, ​tag (part of speech tagetc.. depending on the attributes defined for the corpus or you can specify one of the text types defined for the corpus. The default attribute is word+  * **Subcorpus**se sono presenti dei sotto-corpora è possibile limitare la lista di frequenza ​uno di essi; 
 +  * **Attributo da ricercare**specifica l'​oggetto linguistico del quale vogliamo avere la lista di frequenza. Normalmente si utilizza **word** per avere la lista delle forme oppure **lemma** per la lista dei lemmi; è però possibile generare una lista anche di tutti gli altri attributisia a livello di token (come **pos** e **type**), sia a livello di documento (ad esempio **contesto** e **interazione** per CorDIC-parlato).
  
-Filter wordlist You can either do this for all words (or lemmas or whichever attribute you specify) or you can filter the list using:+----
  
-    RE pattern: ​(regular expression pattern) .* is the wild card so "ca.*" would generate a list for all itemswords by default, starting with "ca"The search attribute field will determine what the pattern relates to. The default attribute is wordbut you could select lemmatag (part of speech tag) or lc (lower case)+Il secondo riquadro permette di impostare dei filtri sulla frequenza e sulla forma testuale delle parole ​(o comunque dell'​attributo selezionato sopra). 
-    ​Minimum Frequencyminimum frequency in that corpus or subcorpus +E' possibile filtrare la lista per: 
-    Whitelist: ​upload a list of words (items) that should be included in this list. This is handy in case you have a list of words and want to find out their frequencies in a particular ​corpus. ​If you upload a file with such words as a whitelistyou get the word list with frequencies just for your words+  ​**Esprregolare**: in questo si può impostare un'​espressione regolare che definisca la forma testuale che devono avere le parole della nostra lista. Ad esempio l'​espressione ''​.*''​ identifica qualsiasi stringaquindi impostando ''​ca.*e''​ limiterò la mia ricerca alle parole //cane////cadere//, //carte//... La sintassi accettata è quella dello standard UNIX
-    Blacklist: ​upload a list of words (items) that should be excluded from this list +  * **Frequenza minima**impostare la frequenza minima consente di escludere tutti i risultati con frequenza troppo bassa; normalmente questa opzione è molto utile per ridurre il "​rumore"​. 
-    checkbox to include non-words, punctuation etc... (based on a regular expression in the configuration file) +  * **Whitelist**è possibile inserire una nostra lista di parole delle quali vogliamo calcolare la frequenza nel corpus. ​In questo casoutilizzando il bottone **Sfoglia**,​ possiamo caricare un file di testo che specifica le parole da includere nella lista. Cliccando **Formato** viene specificato il formato corretto che deve avere il file
 +  * **Blacklist**come per ''​Whitelist''​ è possibile caricare una propria di parole; in questo caso però l'​elenco immesso contiene le parole che devono essere escluse dal risultato.
  
-Frequency figures+Inoltre con la checkbox **Includi non-words** è possibile decidere se includere o escludere i token che non sono parole, ossia segni di punteggiatura e altri simboli grafici.
  
-    You can alter the measure used to rank, and provided with, your word list. These can be word counts, document counts or ARF (average reduced frequency, see SkE/​Help/​JargonBuster for details on the ARF statistic) ​+----
  
-Output type+Il terzo riquadro contiene ulteriori parametri relativi all'​output generato.
  
-    ​Keywords: ​use this option to generate keywords obtained when contrasting the corpus ​or subcorpus ​with a reference ​corpus ​or subcorpus. +**Misura della frequenza** consente di specificare che cosa si intende per //​frequenza//:​ 
-    You can use the multilevel option to produce lists with more than one attribute ​(see also Using MultiLevel lists+  * **Numero di Parole**: frequenza come numero totale di parole nel corpus; 
 +  * **Numero di Documenti**:​ frequenza come numero dei documenti in cui la parola è presente; 
 +  * **ARF**: frequenza come valore [[https://​www.sketchengine.co.uk/​documentation/​wiki/​SkE/​Help/​ARF|ARF (Average Reduced Frequency)]] della parola nel corpus. 
 + 
 +L'​utlimo parametro **Output type** specifica se si vuole generare una lista standard, una lista multilivello oppure la lista delle parole chiave del dominio di riferimento. 
 +  * **Semplice**:​ è l'​opzione di default e genera una lista della forma <​parola,​frequenza>;​ 
 +  * **Keywords**opzione utilizzata per ottenere le parole chiave del corpus/subcorpus ​selezionato sopra confrontandolo con un altro corpus/subcorpus ​di riferimento. In questo modo la lista calcolata sarà ordinata non per frequenza, bensì per una misura di //quanto la parola è specifica del dominio in questione//​. Per questa misura è necessario impostare come parametro il valore [[https://​www.sketchengine.co.uk/​documentation/​wiki/​SkE/​SimpleMaths|SimpleMaths]]. \\ Ad esempio, se si calcolano le keywords nel subcorpus **scritto-economia**,​ utilizzando come riferimento il corpus **scritto** (//​SimpleMaths = 40//), i primi 3 risultati sono: //​aliquota//,​ //​reddito//,​ //imposta//
 +  * **Multilivello**:​ un'​estensione della lista ''​Semplice''​ è la lista su più livelli ​(massimo 3), in cui si impostano più attributi di parola. \\ Ad esempio è possibile generare una lista <​forma,​pos,​frequenza>​ per analizzare quali sono i valori grammaticali più utilizzati nelle varie forme di parola. Le liste per lemmi da scaricare (qui sopra) sono un esempio di liste multivello perché contengono anche l'​informazione di PoS.
/var/www/wiki/data/attic/manuale_utente/liste_di_frequenza.1384350535.txt.gz · Ultima modifica: 13/11/2013 14:48 da admin