Analisi de dades discretes: freqüencia de freqüencies i dades multinomials

Puig Oriol, Xavier

Analisi de dades discretesfreqüencia de freqüencies i dades multinomials

Puig Oriol, Xavier

Dirigée par:

Josep Ginebra Directeur/trice

Université de défendre: Universitat Politècnica de Catalunya (UPC)

Fecha de defensa: 18 décembre 2009

Jury:

Francisco Javier Girón González-Torre President
Xavier Tort-Martorell Llabrés Secrétaire
Miguel Angel Martínez Beneito Rapporteur
David Rossell Ribera Rapporteur
Antonio López Quílez Rapporteur

Type: Thèses

Teseo: 285258 DIALNET

Résumé

La Tesi la integren dues parts molt diferenciades que tenen en comú tractar de l'anàlisi de dades discretes i l'utilitzar conjunts de dades com a punt de partida, La primera part està escrita en anglès i s'adapta al format d'una tesi escrita per articles. Aquesta part gira al voltant del modelat i l'anàlisi de freqüències de freqüències fent servir models de barreja de Poisson truncats a zero. Primer es mostra com al truncar l'espai mostral del model Inversa Gaussiana-Poisson, es pot ampliar l'espai de paràmetres del model i es comprova els avantatges de fer-ho. A continuació es comprova que una generalització del model Inversa Gaussiana-Poisson ajusta molt bé aquest tipus de dades, i explora què passa si intercanvies l'ordre entre barrejar i truncar la distribució de Poisson. L'últim capítol d'aquesta primera part defensa que la gràcia de fer servir el truncament de la barreja de Poissons per ajustar aquest tipus de dades és que permet estimar la densitat de la freqüència de paraules del vocabulari de l'autor. També proposa estimar mesures de diversitat a través de la variabilitat d'aquestes estimacions de la freqüència de paraula del vocabulari. Aquests models permeten estimar la distribució de vocabulari d'un autor i donen peu a comparar la riquesa i diversitat de vocabulari entre autors. La segona part de la tesi, escrita en català, segueix el format de tesi tradicional i està motivada al voltant de l'anàlisi dels resultats a les últimes cinc eleccions al Parlament de Catalunya. Mitjançant models Bayesians per a l'anàlisi cluster per a dades categòriques identificarem l'existència de patrons de vot, veurem quines àrees geogràfiques pertanyen a cada patró de vot i estudiarem com aquests patrons han anat variant al llarg de les diferents eleccions. L'objectiu d'aquesta segona part és doble. Per un cantó ajudem a desenvolupar metodologia per comparar i validar models Bayesians en el context de l'anàlisi cluster de resultats electorals fent servir eines de representació gràfica. Per un altre cantó analitzem l'evolució dels resultats electorals observats. Queda pendent estendre els models Bayesians seleccionats de forma que permetin estimar les matrius de transició de vot entre eleccions consecutives.