Aprendizaje por refuerzo en espacios continuos: algoritmos y aplicación al tratamiento de la anemia renal

Escandell Montero, Pablo

Aprendizaje por refuerzo en espacios continuosalgoritmos y aplicación al tratamiento de la anemia renal

Escandell Montero, Pablo

Dirigida por:

Emilio Soria Olivas Director
José David Martín Guerrero Director

Universidad de defensa: Universitat de València

Fecha de defensa: 28 de julio de 2014

Tribunal:

Emilio Blaguer Ballester Presidente/a
Marcelino Martínez Sober Secretario
Félix Hernández del Olmo Vocal

Departamento:

ENG. ELECTRÒN.

Tipo: Tesis

Teseo: 368484 DIALNET RODERIC editor

Resumen

El aprendizaje por refuerzo es un paradigma de aprendizaje automático orientado a la resolución de problemas de decisión secuenciales. Este tipo de problemas aparece en aplicaciones pertenecientes a campos tan diversos como control automático, medicina, investigación operativa o economía. Los algoritmos clásicos de aprendizaje por refuerzo están fundamentados en la teoría matemática de la programación dinámica, donde se asume que el espacio de estados es discreto y se compone de un número manejable de estados. Desafortunadamente, en la mayoría de aplicaciones de interés práctico el espacio de estados es continuo, por lo que los algoritmos clásicos dejan de ser útiles. Para poder aplicar el aprendizaje por refuerzo en espacios continuos se requiere, por una parte, generalizar el comportamiento aprendido a partir de un conjunto limitado de experiencias a casos que no se hayan experimentado previamente y, por otra parte, representar las políticas de forma compacta. Ambos requisitos han sido ampliamente estudiados en el campo del aprendizaje supervisado, donde a menudo se necesita aproximar una función continua a partir de un conjunto de puntos discretos. La combinación de algoritmos de aprendizaje por refuerzo con técnicas de aproximación de funciones es actualmente un área de investigación activa. A pesar de los avances logrados en los últimos años, todavía hay aspectos que limitan la capacidad del aprendizaje por refuerzo en problemas complejos. Entre ellos destacan la escasa capacidad de escalabilidad a espacios definidos por un número elevado de dimensiones y la elevada cantidad de datos necesarios para aprender políticas útiles. En esta tesis doctoral se proponen algoritmos de aprendizaje por refuerzo enfocados a mejorar estos dos aspectos. Los resultados obtenidos en diversos experimentos demuestran que los algoritmos propuestos suponen un avance hacia métodos de aprendizaje por refuerzo más prácticos y efectivos en problemas complejos. Además de las aportaciones teóricas se ha desarrollado un sistema basado en aprendizaje por refuerzo para la optimización del tratamiento de la anemia asociada a la enfermedad renal crónica.