Research‎ > ‎

Il "peso" delle parole in politica

Le parole sono importanti” dice il Nanni Moretti di Palombella Rossa. Quanto sono importanti nei programmi elettorali? Esiste un modo di valutarlo oggettivamente, seppure nei limiti di un analisi quantitativa che consideri i soli aspetti lessicali e che trascuri consapevolmente fondamentali questioni di carattere semantico?

In questo breve articolo, presentiamo i risultati di due semplici esperimenti condotti per dare le prime risposte a queste domande sulla base dei programmi elettorali dei candidati alle prossime elezioni a rettore della Sapienza  e senza la pretesa, ne la volontà,  di dare alcuna indicazione di carattere politico. Il primo esperimento ha l'obiettivo di evidenziare le parole più importanti all'interno dei programmi. Il secondo, usa una tecnica comunemente usata in information retrival per stimare la “similitudine” tra i programmi. In appendice sono riportate sufficienti informazioni affinché un lettore con competenze informatiche possa riprodurre e validare gli esperimenti.

I programmi dei candidati rettore Catarci, Gaudio, Lenzi, Masiani, Nicolai e Ruocco sono stati scaricati da http://www.uniroma1.it/candidature_Rettore_2014. Dai programmi sono state rimosse le stopwords, cioè quei termini che possono essere trascurati nelle successive fasi di analisi come per esempio gli articoli e le congiunzioni. Infine, sono state considerate le sole parole che compaiono almeno 5 volte nei programmi. Questa scelta è arbitraria, ma il software fornito in appendice consente facilmente di ottenere risultati con altri valori.


Esperimento 1: il tag cloud. 

Il tag cloud è una rappresentazione visuale delle parole chiave che appaiono in un documento. Le parole più frequenti, sono evidenziate con un carattere più grande. Nelle seguenti figure, sono rappresentati i tag cloud dei programmi dei candidati rettore ottenuti attraverso il software online http://www.wordle.net.

Nelle didascalie delle figure, abbiamo omesso di proposito l'indicazione esplicita del candidato il cui programma è rappresentato dal tag cloud. Invitiamo il lettore a individuare autonomamente l'associazione tag cloud – programma  del candidato, magari riempiendo il form  che segue e a verificarla successivamente in appendice. Se molti lettori saranno in grado di fare le corrette associazioni, sarà un'indicazione che le parole contenute nei programmi, sono facilmente riconducibili ai rispettivi messaggi dei candidati.

Tag Cloud 1

Tag Cloud 2

Tag Cloud 3

Tag Cloud 4

Tag Cloud 5

Tag Cloud 6


Esperimento 2: Similitudine tra i programmi. 

Per valutare la similitudine tra i programmi, abbiamo usato una tecnica classica dell'information retrival che consiste nel calcolare per ciascun termine di un documento il suo peso tf- idf (term frequency–inverse document frequency).

La funzione di peso tf-idf è una usata per misurare l'importanza di un termine rispetto ad una collezione di documenti, nella fattispecie i programmi dei candidati rettori. Tale funzione aumenta proporzionalmente al numero di volte che il termine è contenuto nel documento, ma cresce in maniera inversamente proporzionale con la frequenza del termine nella collezione; in questo modo si da più importanza ai termini che compaiono spesso in un documento, ma che in generale sono poco frequenti nel corpus dei documenti. Ciascun programma avrà quindi associato il vettore dei termini dell'intero corpus, e ciascun termine sarà pesato con il suo tf-idf calcolato rispetto alla collezione dei programmi. La differenza tra i programmi si potrà a questo punto valutare attravero il semplice coseno tra ivettori ( http://pyevolve.sourceforge.net/wordpress/?p=2497).

Il coseno tra i vettori è compreso tra 0 ed 1, indicando con 1 vettori paralleli e cioè programmi del tutto simili e con 0 vettori ortogonali e cioè programmi del tutto diversi.

  Catarci     Gaudio Lenzi Masiani Nicolai Ruocco
 Catarci1.                
0.35953712
0.44849462
0.386379590.505059630.4822472
 Gaudio  1.               
0.43611693 0.45341082 0.38299322 0.47737541
 Lenzi   1.               
 0.4085222 0.5767163 0.65737892
 Masiani    1.           
 0.40380102 0.46163953
 Nicolai     1.         
 0.60477186
 Ruocco      1.

Alcune considerazione che si possono evincere dalla tabella,  sebbene con la dovuta cautela, sono che la “maggiore ortogonalità” è tra il programma di Catarci e Gaudio, mentre i programmi di Ruocco e Lenzi sono i “più paralleli”.

Appendice

Il software ed i dati usati per condurre gli esperimenti sono disponibili qui

I programmi in pdf sono disponibili su http://www.uniroma1.it/candidature_Rettore_2014

Per poter condurre gli esperimenti è necessario convertire i programmi in formato testuale, per esempio attraverso il programma d'utilità pdftotext. Il programma di Catarci è disponibile in formato HTML ed è stato ottenuto concatenando le varie sezioni su http://www.sapienzafutura.it/programma/.

I programmi in formato testuale da cui siamo partiti, Catarci.txt, Gaudio.txt, Lenzi.txt, Masiani.txt, Nicolai.txt e Ruocco.txt, sono disponibili nel file zippato.

Successivamente abbiamo rimosso dai programmi, le cosiddette stopwords, cioè quei termini che possono essere trascurati nelle successive fasi di analisi come per esempio gli articoli e le congiunzioni. La lista di stopwords usate negli esperimenti è contenuta nel file stopwords.txt. Per rendere i risultati più leggibili, abbiamo limitato la nostra analisi alle sole parole che compaiono nel testo almeno 5 volte. La scelta del numero 5 è arbitraria, ma il programma Python stopwords.py può essere usato per elaborare i programmi fornendo in input parametri diversi. Il risultato della rimozione delle stopwords e del filtraggio delle parole che occorrono almeno cinque volte nei programmi sono i file CatarciSW5.txt, GaudioSW5.txt, LenziSW5.txt, MasianiSW5.txt, NicolaiSW5.txt e RuoccoSW5.txt.

Questi file sono forniti in input al software online http://www.wordle.net per generare i tag cloud. I file con l'estensione stat forniscono le medesime statistiche visualizzate dai tag cloud in forma vettoriale.

L'associazione tag cloud, programmi è rappresentata nella seguente tabella

Tag Cloud 1

Tag Cloud 2

Tag Cloud 3

Tag Cloud 4

Tag Cloud 5

Tag Cloud 6

Ruocco

Catarci

Lenzi

Gaudio

Masiani

Nicolai

Infine i programmi, sono presi in input dal programma Python diff_better.py per generare la matrice di similarità.




ċ
dataandprog.tar.gz
(1247k)
Andrea Vitaletti,
Jul 3, 2014, 9:03 PM
Comments