Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.
manuale_utente:liste_di_frequenza [13/11/2013 15:50] admin [Generazione delle liste di frequenza] |
manuale_utente:liste_di_frequenza [21/11/2013 17:54] (versione attuale) admin [Generazione delle liste di frequenza] |
||
---|---|---|---|
Linea 33: | Linea 33: | ||
Il secondo riquadro permette di impostare dei filtri sulla frequenza e sulla forma testuale delle parole (o comunque dell'attributo selezionato sopra). | Il secondo riquadro permette di impostare dei filtri sulla frequenza e sulla forma testuale delle parole (o comunque dell'attributo selezionato sopra). | ||
E' possibile filtrare la lista per: | E' possibile filtrare la lista per: | ||
- | * **RE pattern**: in questo si può impostare un'espressione regolare che definisca la forma testuale che devono avere le parole della nostra lista. Ad esempio l'espressione ''.*'' identifica qualsiasi stringa, quindi impostando ''ca.*e'' limiterò la mia ricerca alle parole //cane//, //cadere//, //carte//, ... La sintassi accettata è quella dello standard UNIX. | + | * **Espr. regolare**: in questo si può impostare un'espressione regolare che definisca la forma testuale che devono avere le parole della nostra lista. Ad esempio l'espressione ''.*'' identifica qualsiasi stringa, quindi impostando ''ca.*e'' limiterò la mia ricerca alle parole //cane//, //cadere//, //carte//, ... La sintassi accettata è quella dello standard UNIX. |
* **Frequenza minima**: impostare la frequenza minima consente di escludere tutti i risultati con frequenza troppo bassa; normalmente questa opzione è molto utile per ridurre il "rumore". | * **Frequenza minima**: impostare la frequenza minima consente di escludere tutti i risultati con frequenza troppo bassa; normalmente questa opzione è molto utile per ridurre il "rumore". | ||
* **Whitelist**: è possibile inserire una nostra lista di parole delle quali vogliamo calcolare la frequenza nel corpus. In questo caso, utilizzando il bottone **Sfoglia**, possiamo caricare un file di testo che specifica le parole da includere nella lista. Cliccando **Formato** viene specificato il formato corretto che deve avere il file. | * **Whitelist**: è possibile inserire una nostra lista di parole delle quali vogliamo calcolare la frequenza nel corpus. In questo caso, utilizzando il bottone **Sfoglia**, possiamo caricare un file di testo che specifica le parole da includere nella lista. Cliccando **Formato** viene specificato il formato corretto che deve avere il file. | ||
Linea 44: | Linea 44: | ||
Il terzo riquadro contiene ulteriori parametri relativi all'output generato. | Il terzo riquadro contiene ulteriori parametri relativi all'output generato. | ||
- | **Frequency figures** consente di specificare che cosa si intende per //frequenza//: | + | **Misura della frequenza** consente di specificare che cosa si intende per //frequenza//: |
- | * **Word count**: frequenza come numero totale di parole nel corpus; | + | * **Numero di Parole**: frequenza come numero totale di parole nel corpus; |
- | * **Documents count**: frequenza come numero dei documenti in cui la parola è presente; | + | * **Numero di Documenti**: frequenza come numero dei documenti in cui la parola è presente; |
- | * **ARF**: frequenza come valore ARF (Average Reduced Frequency) della parola nel corpus. Per informazioni sulla misura ARF si rimanda alla [[https://www.sketchengine.co.uk/documentation/wiki/SkE/Help/ARF|pagina del manuale di SketchEngine]]. | + | * **ARF**: frequenza come valore [[https://www.sketchengine.co.uk/documentation/wiki/SkE/Help/ARF|ARF (Average Reduced Frequency)]] della parola nel corpus. |
- | You can alter the measure used to rank, and provided with, your word list. These can be word counts, document counts or ARF (average reduced frequency, see SkE/Help/JargonBuster for details on the ARF statistic) | + | L'utlimo parametro **Output type** specifica se si vuole generare una lista standard, una lista multilivello oppure la lista delle parole chiave del dominio di riferimento. |
- | + | * **Semplice**: è l'opzione di default e genera una lista della forma <parola,frequenza>; | |
- | Output type | + | * **Keywords**: opzione utilizzata per ottenere le parole chiave del corpus/subcorpus selezionato sopra confrontandolo con un altro corpus/subcorpus di riferimento. In questo modo la lista calcolata sarà ordinata non per frequenza, bensì per una misura di //quanto la parola è specifica del dominio in questione//. Per questa misura è necessario impostare come parametro il valore [[https://www.sketchengine.co.uk/documentation/wiki/SkE/SimpleMaths|SimpleMaths]]. \\ Ad esempio, se si calcolano le keywords nel subcorpus **scritto-economia**, utilizzando come riferimento il corpus **scritto** (//SimpleMaths = 40//), i primi 3 risultati sono: //aliquota//, //reddito//, //imposta//. |
- | + | * **Multilivello**: un'estensione della lista ''Semplice'' è la lista su più livelli (massimo 3), in cui si impostano più attributi di parola. \\ Ad esempio è possibile generare una lista <forma,pos,frequenza> per analizzare quali sono i valori grammaticali più utilizzati nelle varie forme di parola. Le liste per lemmi da scaricare (qui sopra) sono un esempio di liste multivello perché contengono anche l'informazione di PoS. | |
- | Keywords: use this option to generate keywords obtained when contrasting the corpus or subcorpus with a reference corpus or subcorpus. | + | |
- | You can use the multilevel option to produce lists with more than one attribute (see also Using MultiLevel lists) | + |