Distribuciones de clases no balanceadas: métricas, análisis de complejidad y algoritmos de aprendizaje

García Jiménez, Vicente

Distribuciones de clases no balanceadasmétricas, análisis de complejidad y algoritmos de aprendizaje

García Jiménez, Vicente

Dirigida por:

Ramón Alberto Mollineda Cardenas Director/a
J. S. Sanchez Director/a

Universidad de defensa: Universitat Jaume I

Fecha de defensa: 18 de febrero de 2010

Tribunal:

Francesc Josep Ferri Rabasa Presidente
Pedro García Sevilla Secretario/a
Ester Bernadó Mansilla Vocal
César Ferri Ramírez Vocal
Luisa Micó Andrés Vocal

Tipo: Tesis

Teseo: 286437 DIALNET TDX editor

Resumen

El problema de las distribuciones no balanceadas de datos entre clases ha recibido una considerable atención en disciplinas como el Aprendizaje Automático, el Reconocimiento de Formas y la Minería de Datos, Un conjunto de dos clases se dice que es no balanceado si una de las clases (mayoritaria) está significativamente más representada que la otra (minoritaria). Este tipo de complejidad de los datos puede conducir, en métodos tradicionales de clasificación, a aprendizajes sesgados en perjuicio de la clase minoritaria que, usualmente, contiene los casos de mayor interés. Actualmente, es posible identificar tres grandes líneas de investigación sobre dicha problemática. En este sentido, la presente tesis doctoral aborda el problema del desbalance desde las perspectivas de evaluación del aprendizaje, solución y análisis de la complejidad de los datos. En el caso de las métricas de efectividad, se propone una nueva forma de evaluar los clasificadores que solventa una posible desventaja de las métricas tradicionales, las cuales no consideran la magnitud ni el sentido de la diferencia entre las tasas de aciertos por clase. Dentro del campo de las soluciones para tratar el desbalance, se proponen nuevos esquemas para reducir/incrementar la talla de las clases mayoritaria/minoritaria, respectivamente. Asimismo, se presenta una solución algorítmica para la regla del vecino más cercano con el objetivo de favorecer la clasificación de muestras de la clase minoritaria. Este análisis no sólo se centra en el beneficio que podría representar cada una de las soluciones, sino también en cómo estas se ven afectadas por la naturaleza del clasificador, el sesgo de los datos y las métricas de efectividad. Finalmente, la tercera línea de investigación abordada en esta tesis se centra en analizar los efectos sobre el aprendizaje que produce la presencia en los datos de complejidades como el desbalance y solapamiento. Los resultados muestran que el desbalance local en la región de solapamiento puede ser más determinante que el desbalance global y que la talla de dicha región