Modelos booleanos no homogéneos. Nuevas metodologías, generalizaciones y aplicaciones

  1. Gallego Pitarch, María Angeles
Dirigida por:
  1. Amelia Simó Vidal Director/a
  2. María Victoria Ibáñez Gual Codirector/a

Universidad de defensa: Universitat Jaume I

Fecha de defensa: 29 de julio de 2014

Tribunal:
  1. Guillermo Ayala Gallego Presidente
  2. Irene Epifanio López Secretario/a
  3. María Elena Díaz Fernández Vocal

Tipo: Tesis

Teseo: 367329 DIALNET lock_openTDX editor

Resumen

1. INTRODUCCIÓN El hilo conductor del trabajo realizado en esta tesis doctoral es el estudio de una generalización del modelo booleano: el modelo booleano no homogéneo. Se han estudiado diferentes aspectos de este modelo, como por ejemplo distintos métodos de estimación de sus parámetros, algunas características de su distribución de probabilidad y su generalización al caso temporal, con la introducción del modelo booleano no homogéneo temporal. Algunos de estos aspectos también podrían aplicarse a los modelos germen y grano en general. También se han estudiado métodos de clasificación no supervisada cuando la información muestral son imágenes binarias y asumimos que son realizaciones de diferentes modelos germen y grano conocidos. En todos los trabajos se ha realizado un estudio de simulación para verificar las nuevas metodologías propuestas que además se han aplicado a casos reales. En todos ellos, este caso real fue el problema inicial que se nos planteó por parte de investigadores de otras ramas científicas y que motivó el estudio. En una amplia variedad de campos científicos y tecnológicos hay muchas situaciones prácticas en las que los investigadores necesitan gestionar datos en forma de imágenes a fin de obtener conclusiones acerca de un fenómeno de interés, y a menudo, estas imágenes son imágenes binarias que muestran el área cubierta por un fenómeno dado en una determinada región. También muchos problemas médicos y biológicos requieren extraer información de imágenes microscópicas de este tipo. Es un hecho ampliamente aceptado que un modelo probabilístico muy apropiado para el estudio de imágenes binarias de este tipo es el conjunto aleatorio cerrado (Matheron, 1975), en particular el modelo booleano (Stoyan et al., 1995) es el más conocido y utilizado de los modelos de conjuntos aleatorios cerrados. Modelos de conjuntos aleatorios cerrados han sido utilizados para modelizar patrones aleatorios en diversos campos, tales como las redes de comunicación, ciencias de los materiales o física, entre otros. Una propiedad muy importante del modelo booleano es que es siempre un conjunto aleatorio cerrado estacionario y, si el grano es isotrópico, es además isotrópico. Las hipótesis de estacionariedad e isotropía facilitan la estimación de los parámetros, pero la hipótesis de la homogeneidad espacial con frecuencia no es asumible cuando se analizan conjuntos de datos reales. Esta fue la principal motivación para nuestras aportaciones. 2. METODOLOGÍA En la primera aportación presentada en esta tesis, la única que podemos calificar como de carácter más teórico, nos plantemos la generalización de la definición de la función K para el caso de modelos booleanos no homogéneos o modelos germen y grano en general. En la segunda aportación, nos planteamos revisar y comparar los métodos de estimación de parámetros existentes para modelos booleanos no homogéneos (Molchanov and Chiu, 2000 y Schmitt, 1996) y estudiar aplicaciones. A partir de ahí propusimos una metodología estadística alternativa para estimar los parámetros de interés de un tipo particular de modelo booleano no homogéneo, donde la función de intensidad tiene una expresión matemática conocida. Este modelo particular se puede aplicar a una gran variedad de situaciones prácticas. Como ejemplo, mostramos su aplicación a un problema fitopatológico. En esta aplicación, trabajaremos con imágenes microscópicas obtenidas en el estudio de los depósitos de callosa en las hojas de una planta llamada Arabidopsis (Luna et al., 2011). En la literatura fitopatológica, es habitual estudiar los depósitos de callosa en las hojas para cuantificar la actividad inmunológica en las plantas. Los depósitos de callosa se visualizan a través del microscopio como manchas aleatorias sobre la superficie de la hoja, más densamente distribuidos cerca de los nervios y de los bordes de las hojas. Por tanto, en este caso podemos considerar que los depósitos son realizaciones de un modelo booleano no homogéneo donde la intensidad del proceso de Poisson está modelizada como una función conocida de la distancia de cada punto al nervio de la hoja. Como resultado, podemos asumir un modelo booleano no homogéneo particular. Como alternativa a las anteriores metodologías, proponemos, para este modelo, la metodología basada en la aplicación de mínimos cuadrados a la función de la fracción de área y la de la longitud de frontera. Varios autores han extendido el modelo booleano homogéneo con el fin de incluir en él una componente temporal. En un trabajo reciente, Ayala et al. (2006) introdujeron la noción de modelo booleano temporal y lo utilizaron en una aplicación particular, para analizar la dinámica de la endocitosis mediada por clatrina. El modelo booleano temporal introducido en Ayala et al. (2006) asume que las manchas de endocitosis aparecen uniformemente a lo largo de la membrana celular. En la tercera aportación, nos propusimos ampliar la noción de modelos booleanos temporales para trabajar con procesos de puntos subyacente no estacionarios. El uso de modelos booleanos temporales no homogéneos puede constituir una poderosa herramienta para analizar el comportamiento de la maquinaria de la endocítosis a través de una serie de condiciones diferentes de una manera rápida, precisa y automática. En este trabajo, se introduce el concepto de modelo booleano Temporal no homogéneo y se propone una metodología (que es una generalización de las introducidas en Ayala et al. (2006)) para estimar los parámetros de interés de este modelo. Como aplicación de esta metodología, seguiremos el estudio de la endocitosis a través de imágenes obtenidas a tiempo real con una técnica microscópica recientemente introducida, la Total Internal Reflecting Fluorescence Microscopy (TIRFM). La endocitosis es un proceso celular en el que por invaginación de la membrana plasmática se introduce material dentro de la célula. La endocitosis ocurre en sucesos discretos, las vesículas se desprenden de la membrana plasmática y son transportadas dentro de la célula. Mediante TIRFM el proceso de endocitosis se observa con la aparición de una mancha de difracción limitada. Las áreas de fluorescencia generadas por diferentes manchas de endocitosis se superponen, formando grupos aleatorios de diferentes tamaños, formas y duraciones. La duración de los sucesos discretos de endocitosis y su distribución en el espacio y el tiempo están influenciados por muchos factores biológicos. La estimación de algunos parámetros de interés tales como el número medio de sucesos de endocitosis por unidad de área y el tiempo en diferentes lugares espaciales y su tiempo de vida es clave para caracterizar los sucesos. En la cuarta aportación, trabajamos con imágenes binarias de agrupaciones aleatorias y proponemos utilizar la información proporcionada por las imágenes para realizar una clasificación no supervisada. Este trabajo tiene que ver con problemas de clustering de patrones de germen y grano. Por lo tanto, vamos a centrar nuestra atención en la búsqueda de clusters en un determinado conjunto de imágenes digitales binarias reales y simuladas, que se supone son realizaciones de los diferentes modelos de gérmenes grano. Es un problema poco común en la literatura estadística, pero que surge en una amplia gama de aplicaciones. Probamos dos procedimientos de clasificación diferentes. En el primero, cada imagen la describiremos utilizando la función K no homogénea que hemos introducido en un capítulo anterior. A partir de estos descriptores, definimos la distancia entre las imágenes como la distancia Euclídea entre estas funciones y finalmente utilizaremos los métodos de clustering tradicionales. En el segundo método de clasificación, utilizaremos la distancia Hausdorff directamente entre las imágenes para formar los clusters. 3. CONCLUSIONES El objetivo de la tesis ha sido el estudio de aspectos importantes del modelo booleano no homogéneo. En todos los trabajos hemos realizado estudios de simulación para poder validar los resultados obtenidos y hemos aplicado la metodología propuesta en cada caso, a problemas reales obtenidos desde diferentes campos. En el primer trabajo se han establecido las bases teóricas para la función K no homogénea para modelos germen y grano, así como la manera de estimarla. Con esto tenemos una característica nueva para describir las propiedades de segundo orden de un modelo germen y grano, que podemos utilizar como estadístico de contraste en tests de bondad de ajuste, o para diferenciar entre diferentes modelos. En el segundo trabajo se ha propuesto una metodología estadística que puede ser utilizada para estimar los parámetros de un tipo particular de modelo Booleano no homogéneo, en el que se asume una forma particular de función de intensidad para el proceso subyacente. Se ha mostrado que los estimadores obtenidos con esta nueva metodología son tan o más precisos que los obtenidos con metodologías más complejas diseñadas para el caso general, con la ventaja adicional de poder estimar no sólo los parámetros de la función de intensidad, sino también los de la distribución de probabilidad de los granos. Como ejemplo de este modelo y de la metodología propuesta, hemos analizado imágenes microscópicas de una aplicación fitopatológica: imágenes de depósitos de callosa en hojas de plantas. La metodología propuesta se puede utilizar en cualquier otro campo científico con imágenes de similares características. En el tercer trabajo se ha propuesto un modelo probabilístico y una metodología estadística, para trabajar con procesos Booleanos temporales no homogéneos (en el espacio). Generalizando el trabajo de Ayala et al. (2006), esta metodología se ha aplicado a la caracterización y estudio de la cinética de la endocitosis en la vida de las células. Nuestra metodología, permite estimar parámetros en un modelo Booleano temporal sin tener que asumir homogeneidad. Para ello, es necesario aplicar también algunas técnicas y metodologías estadísticas ya conocidas, así como el análisis de datos funcionales, para estimar la función de intensidad espacial de los modelos Booleanos no homogéneos estáticos Molchanov and Chiu (2000). En algunos casos, estas técnicas previas dependen de una serie de ¿parámetros de ajuste" los cuales tienen un gran efecto en los resultados. Como por ejemplo, el método de Molchanov necesario para estimar la función de intensidad Molchanov and Chiu (2000) depende de la elección de la amplitud de banda, y no se puede aplicar satisfactoriamente si hay pocos puntos tangentes. A pesar de todo, los resultados obtenidos en el estudio de simulación son bastante satisfactorios. En el cuarto y último trabajo se ha abordado un problema de clasificación no supervisada cuando la información muestral consiste en imágenes binarias representando agrupaciones aleatorias. Este problema fue motivado por una aplicación clínica: el análisis de imágenes de frotis de sangre periférica obtenida de pacientes con una enfermedad genética. Las imágenes obtenidas mediante frotis de sangre se pueden clasificar en tres tipos pero solo uno de ellos es válido para realizar los posteriores estudios clínicos. Dos tipos de distancias fueron consideradas y comparadas para la clasificación: la distancia Euclídea entre la estimación de la función K no homogénea para cada par de imágenes y la distancia de Hausdorff entre conjuntos compactos. Por medio de un estudio de simulación llegamos a las siguientes conclusiones: se demostró el poder discriminatorio de las dos medidas de disimilaridad propuestas, este poder discriminatorio depende de los tipos de patrones a discriminar. Como es de esperar, la función K trabaja mejor para distinguir entre diferentes modelos y para distinguir entre diferentes parámetros de un modelo cluster. Sin embargo, la distancia de Hausdorff es mejor para distinguir diferentes funciones de intensidad en un modelo no homogéneo. Aplicamos como ilustración las dos metodologías al problema clínico que las motivó, obteniendo resultados esperanzadores, sin embargo se debería repetir con un número mayor de datos para alcanzar conclusiones médicas válidas. Desde nuestro punto de vista nuestra metodología se podría utilizar sin modificaciones. 4. BIBLIOGRAFÍA Ayala G, Sebastián R, Díaz M, Díaz E, Zoncu R, Toomre D (2006). Analysis of spatially and temporally overlapping events with application to image sequences. IEEE Transactions on Pattern Analysis and machine intelligence 28:1707-12. Luna E, Pastor V, Robert J, Flors V, Mauch-Mani B, Ton J (2011). Callose deposition: A multifaceted plant defense response. Molecular Plant Microbe Interactions 24:183-93. Matheron G (1975). Random Sets and Integral Geometry. J. Wiley & Sons, New York. (pages 54-155). Molchanov I, Chiu S (2000). Smoothing techniques and estimation methods for nonstationary boolean models with applications to coverage processes. Biometrika 87:265-83. Schmitt M (1996). Estimation of intensity and shape in a non-stationary boolean model. In: Jeulin D, ed., Advances in Theory and Applications of Random Sets. Proceedings of the International Symposium. Sebasti_an R, Díaz E, Ayala G, Díaz M, Zoncu R, Toomre D (2006). Studying endocytosis in space and time by means of temporal boolean models. Pattern Recognition 39:2775-85. Stoyan D, Kendall W, Mecke J (1995). Stochastic Geometry and its applications. Chichester John Wiley & Sons. Second Edition. (pages 65-95).