Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.
manuale_utente:liste_di_frequenza [13/11/2013 15:31] admin [Generazione delle liste di frequenza] |
manuale_utente:liste_di_frequenza [21/11/2013 17:54] (versione attuale) admin [Generazione delle liste di frequenza] |
||
---|---|---|---|
Linea 28: | Linea 28: | ||
* **Subcorpus**: se sono presenti dei sotto-corpora è possibile limitare la lista di frequenza a uno di essi; | * **Subcorpus**: se sono presenti dei sotto-corpora è possibile limitare la lista di frequenza a uno di essi; | ||
* **Attributo da ricercare**: specifica l'oggetto linguistico del quale vogliamo avere la lista di frequenza. Normalmente si utilizza **word** per avere la lista delle forme oppure **lemma** per la lista dei lemmi; è però possibile generare una lista anche di tutti gli altri attributi, sia a livello di token (come **pos** e **type**), sia a livello di documento (ad esempio **contesto** e **interazione** per CorDIC-parlato). | * **Attributo da ricercare**: specifica l'oggetto linguistico del quale vogliamo avere la lista di frequenza. Normalmente si utilizza **word** per avere la lista delle forme oppure **lemma** per la lista dei lemmi; è però possibile generare una lista anche di tutti gli altri attributi, sia a livello di token (come **pos** e **type**), sia a livello di documento (ad esempio **contesto** e **interazione** per CorDIC-parlato). | ||
+ | |||
+ | ---- | ||
Il secondo riquadro permette di impostare dei filtri sulla frequenza e sulla forma testuale delle parole (o comunque dell'attributo selezionato sopra). | Il secondo riquadro permette di impostare dei filtri sulla frequenza e sulla forma testuale delle parole (o comunque dell'attributo selezionato sopra). | ||
E' possibile filtrare la lista per: | E' possibile filtrare la lista per: | ||
- | * **RE pattern**: in questo si può impostare un'espressione regolare che definisca la forma testuale che devono avere le parole della nostra lista. Ad esempio l'espressione ''.*'' identifica qualsiasi stringa, quindi impostando ''ca.*e'' limiterò la mia ricerca alle parole //cane//, //cadere//, //carte//, ... La sintassi accettata è quella dello standard UNIX. | + | * **Espr. regolare**: in questo si può impostare un'espressione regolare che definisca la forma testuale che devono avere le parole della nostra lista. Ad esempio l'espressione ''.*'' identifica qualsiasi stringa, quindi impostando ''ca.*e'' limiterò la mia ricerca alle parole //cane//, //cadere//, //carte//, ... La sintassi accettata è quella dello standard UNIX. |
* **Frequenza minima**: impostare la frequenza minima consente di escludere tutti i risultati con frequenza troppo bassa; normalmente questa opzione è molto utile per ridurre il "rumore". | * **Frequenza minima**: impostare la frequenza minima consente di escludere tutti i risultati con frequenza troppo bassa; normalmente questa opzione è molto utile per ridurre il "rumore". | ||
* **Whitelist**: è possibile inserire una nostra lista di parole delle quali vogliamo calcolare la frequenza nel corpus. In questo caso, utilizzando il bottone **Sfoglia**, possiamo caricare un file di testo che specifica le parole da includere nella lista. Cliccando **Formato** viene specificato il formato corretto che deve avere il file. | * **Whitelist**: è possibile inserire una nostra lista di parole delle quali vogliamo calcolare la frequenza nel corpus. In questo caso, utilizzando il bottone **Sfoglia**, possiamo caricare un file di testo che specifica le parole da includere nella lista. Cliccando **Formato** viene specificato il formato corretto che deve avere il file. | ||
+ | * **Blacklist**: come per ''Whitelist'' è possibile caricare una propria di parole; in questo caso però l'elenco immesso contiene le parole che devono essere escluse dal risultato. | ||
- | Whitelist: upload a list of words (items) that should be included in this list. This is handy in case you have a list of words and want to find out their frequencies in a particular corpus. If you upload a file with such words as a whitelist, you get the word list with frequencies just for your words. | + | Inoltre con la checkbox **Includi non-words** è possibile decidere se includere o escludere i token che non sono parole, ossia segni di punteggiatura e altri simboli grafici. |
- | Blacklist: upload a list of words (items) that should be excluded from this list | + | |
- | checkbox to include non-words, punctuation etc... (based on a regular expression in the configuration file) | + | |
- | Frequency figures | + | ---- |
- | You can alter the measure used to rank, and provided with, your word list. These can be word counts, document counts or ARF (average reduced frequency, see SkE/Help/JargonBuster for details on the ARF statistic) | + | Il terzo riquadro contiene ulteriori parametri relativi all'output generato. |
- | Output type | + | **Misura della frequenza** consente di specificare che cosa si intende per //frequenza//: |
+ | * **Numero di Parole**: frequenza come numero totale di parole nel corpus; | ||
+ | * **Numero di Documenti**: frequenza come numero dei documenti in cui la parola è presente; | ||
+ | * **ARF**: frequenza come valore [[https://www.sketchengine.co.uk/documentation/wiki/SkE/Help/ARF|ARF (Average Reduced Frequency)]] della parola nel corpus. | ||
- | Keywords: use this option to generate keywords obtained when contrasting the corpus or subcorpus with a reference corpus or subcorpus. | + | L'utlimo parametro **Output type** specifica se si vuole generare una lista standard, una lista multilivello oppure la lista delle parole chiave del dominio di riferimento. |
- | You can use the multilevel option to produce lists with more than one attribute (see also Using MultiLevel lists) | + | * **Semplice**: è l'opzione di default e genera una lista della forma <parola,frequenza>; |
+ | * **Keywords**: opzione utilizzata per ottenere le parole chiave del corpus/subcorpus selezionato sopra confrontandolo con un altro corpus/subcorpus di riferimento. In questo modo la lista calcolata sarà ordinata non per frequenza, bensì per una misura di //quanto la parola è specifica del dominio in questione//. Per questa misura è necessario impostare come parametro il valore [[https://www.sketchengine.co.uk/documentation/wiki/SkE/SimpleMaths|SimpleMaths]]. \\ Ad esempio, se si calcolano le keywords nel subcorpus **scritto-economia**, utilizzando come riferimento il corpus **scritto** (//SimpleMaths = 40//), i primi 3 risultati sono: //aliquota//, //reddito//, //imposta//. | ||
+ | * **Multilivello**: un'estensione della lista ''Semplice'' è la lista su più livelli (massimo 3), in cui si impostano più attributi di parola. \\ Ad esempio è possibile generare una lista <forma,pos,frequenza> per analizzare quali sono i valori grammaticali più utilizzati nelle varie forme di parola. Le liste per lemmi da scaricare (qui sopra) sono un esempio di liste multivello perché contengono anche l'informazione di PoS. |