Predicció de l'ús del català mitjançant la classificació supervisada

  1. Grimaldo, Francisco
  2. López-Iñesta, Emilia
  3. Perucho, Manel
  4. Querol, Ernest
Treballs de sociolingüística catalana

ISSN: 2013-9136

Argitalpen urtea: 2016

Zenbakia: 26

Orrialdeak: 181-197

Mota: Artikulua

Beste argitalpen batzuk: Treballs de sociolingüística catalana


One of the main challenges that the sociology of language has faced is the determination of the variables that govern the use of a language. Inspired by the field of artificial intelligence, in this study we make use of machine learning as a suitable approach to implement computational methods that permit the induction of linguistic use models derived from the available data. We aim to improve the level of prediction for the degree of use of the Catalan language achieved up to now. To this end, we have used three supervised classification techniques: Naive Bayes, decision trees, and support vector machines. We needed an empirical corpus that would allow us to test the prediction level of a theoretical model as well as its validity within different sociolinguistic situations. To the best of our knowledge, the work by Querol is the one providing the highest prediction success in all the Catalan-speaking territories. Thus, the research presented in this paper uses that data to conclude that supervised classification can be used to successfully determine prediction models for the degree of use of Catalan that outperform previous attempts and that allow us to identify the most relevant variables of the problem. Moreover, it also helps us to solve the methodological problem of the division of linguistic groups and shows that the use of a language is a continuous system rather than a discrete one.

Erreferentzia bibliografikoak

  • boSer, Bernhard E.; guyon, Isabelle M.; vaPniK, Vladimir N. (1992). «A training algorithm for optimal margin classifiers». A: Proceedings of the Fifth Annual Workshop on Computa-tional Learning Theory. Nova York: ACM, p. 144-152.
  • boudon, raymond; cherKaoui, Mohamed; beSnard, Philippe; lécuyer, Bernard-Pierre (1993). Dictionnaire de la sociologie. París: Larousse. [Edició en castellà: Diccionario de sociología. Barcelona: Larousse Planeta, 1995]
  • calaforra, Guillem (2002). «Quan la sociolingüística abandona l’infantilisme—quatre comentaris sobre una novetat bibliogràfica». Treballs de Sociolingüística Catalana, núm. 16, p. 85-92.
  • chaPelle, Olivier; haffner, Patrick; vaPniK, Vladimir (1999). «Support vector machines for histogram-based image classification». IEEE Transactions on Neural Networks, vol. 10, núm. 5, p. 1055-1064
  • jodelet, Denise (1989). «représentations sociales: un domaine en expansion». A: jodelet, Denise (dir.). Les représentations sociales. París: Presses Universitaires de France, p. 47-78.
  • Knerr, Stefan; PerSonnaz, Leon; dreyfuS, Gerard (1990). «Single-layer learning revisited: a stepwise procedure for building and training a neural network». A: fogelMan Soulié, Françoise; hérault, Jeanny (ed.).Neurocomputing: Algorithms, architectures and applica-tions. Berlín: Springer. (NATO ASI Series. Series F, Computer and System Sciences; 68), p. 41-50.
  • KreMnitz, Georg (2002). «recensió de Cap a un nou marc teòric per a l’estudi de les variables dels processos de substitució lingüística i Els valencians i el valencià: Usos i representacions socials d’Ernest Querol». Sociolinguistica, vol. 16, p. 180-182.
  • Merton, robert K; Kitt, Alice S. (1950). «Contributions to the theory of reference group behavior».A: Merton, robert K.; LazarSfeld, Paul F. (ed.). Continuities in social research:Studies in the scope and method of «The American soldier». Glencoe, Ill.: Free Press, p. 40-105.
  • MiralleS, Clara (2014). «Models dinàmics de competició entre llengües».Treball de fi de grau. València: Universitat de València. Facultat de Física. També disponible en línia a: <> [Consulta: 23 desembre 2015].
  • Mitchell, Tom (1997). Machine learning. Nova York: McGraw-Hill Higher Education
  • querol, Ernest (1999). Cap a un nou marc teòric per a l’estudi de les variables dels processos de substitució lingüística. Barcelona: Publicacions Universitat de Barcelona. (Tesis Doctorals Microfitxades; 3568)
  • querol, Ernest (2000). Els valencians i el valencià: Usos i representacions socials. Paiporta: Denes.
  • querol, Ernest (2002a). «A new model to the evaluation of language planning. A case study: Catalonia (1993-2000)». Sociolinguistica, vol. 16, p. 129-142.
  • querol, Ernest (2002b). «A new theoretical approach to the study of reversing language shift processes: the catastrophe theory». 7th International Conference on Minority Languages (Bilbao, 1999). Vitòria: Servicio de Publicaciones del Gobierno Vasco, p. 225-242.
  • querol, Ernest (2004a). «Comparació de resultats empírics sobre representacions socials de les llengües entre les Illes Balears, Catalunya, el País Valencià i Andorra». Treballs de Sociolingüística Catalana, núm. 18, p. 43-62.
  • querol, Ernest (2004b). «Empirical corroboration of the catastrophe theory model in Catalonia (1993 and 2000), in the Valencian Country (1998), in the Balearic Islands (2001) and in Andorra (2002)». A: Lorenzo Suárez, Anxo M.; raMallo, Fernando; rodríguez Yáñez, Xoán Pau-lo (ed.). Socialización bilingüe e adquisición lingüística bilingüe: Actas do Segundo Simposio Internacional sobre o Bilingüismo (Vigo, 23-26 octubre 2002). Vigo: Servizo de Publica-cións da Universidade de Vigo, p. 1039-1053.
  • querol, Ernest (2005). «Història sociolingüística recent: Catalunya el 1993, el 2000 i el 2004». Lengas, núm. 57: Brigitte Schlieben-Lange et la sociolinguistique occitane et catalane, p. 195-218.
  • requena, Félix (1989). «El concepto de red social». Revista Española de Investigaciones Socio-lógicas,núm.48, p. 137-152.
  • vaPniK, Vladimir (1995). The nature of statistical learning theory. Nova York: Springer.
  • vaPniK, Vladimir; golowich, Steven E.; SMola, Alex (1997). «Support vector method for function approximation, regression estimation, and signal processing».A: Mozer, Michael C.; Jordan, Michael I.; PetSche, Thomas (ed.). Advances in neural information processing systems 9. Cambridge: The Mit Press,p. 281-287.