Geoestadística en regiones heterogéneas con distancia basada en el coste

  1. Muñoz Viera, Facundo
Dirigida por:
  1. Antonio López Quílez Director

Universidad de defensa: Universitat de València

Fecha de defensa: 15 de febrero de 2013

Tribunal:
  1. Jorge Mateu Mahiques Presidente/a
  2. Carmen Armero Cervera Secretaria
  3. Miguel Angel Martínez Beneito Vocal
Departamento:
  1. ESTAD.INV.OPER

Tipo: Tesis

Resumen

El germen de la presente Tesis consistió en un problema aplicado, de ingeniería, al que pensamos que la Estadística como disciplina puede contribuir de manera significativa. Concretamente, se trata de la elaboración de mapas acústicos en entornos urbanos. Resuelto habitualmente de una manera determinista y aproximada, la valoración de la incertidumbre de los resultados es extremadamente deficiente en la mayoría de los casos reales. Este problema, siendo de naturaleza espacial, se puede ver como un problema de predicción geoestadística, a partir de un conjunto de observaciones de campo. La dificultad radica en que el fenómeno se sitúa en un entorno urbano, que posee una importante heterogeneidad producida por los edificios, árboles y demás mobiliario urbano. La falta de homogeneidad en la región de interés hace inaplicables las técnicas geoestadísticas usuales. Esto nos condujo a buscar metodologías geoestadísticas alternativas, más generales, que contemplaran la posibilidad de que la región de interés tuviera una naturaleza heterogénea. Una adaptación interesante de la metodología geoestadística consiste en sustituir la distancia Euclídea entre localizaciones de la región por una medida de distancia que tenga en cuenta el grado de irregularidad local de la región. Esta idea no es nueva. Diversos autores han implementado diferentes versiones de la misma. Muy frecuentemente en el contexto acuático, con islas o estuarios, etcétera. Es decir, cuando existen trozos de tierra que funcionan como obstáculos o barreras para la difusión del fenómeno. Así, han definido la llamada "distancia acuática" como la distancia mínima en la que un pez podría ir de un punto a otro a través del agua. La implementación que nosotros proponemos en esta Tesis, en cambio, es original. Se basa en la construcción de una superficie "de coste", que mide la heterogeneidad local de la región. A partir de ella se pueden calcular este tipo de distancias como la longitud de las rutas de mínimo coste entre localizaciones. Por este motivo la hemos denominado "distancia basada en el coste". Esta medida es más general que la distancia acuática. Mientras que las barreras absolutas (e.g., islas en el mar) se pueden representar a través de un coste infinito, hay infinitas situaciones intermedias que se pueden modelar con la superficie de coste. De este modo, en una región homogénea la distancia basada en el coste se reduce a la medida Euclídea, mientras que en general esta medida de distancia aumentaría continuamente en función del nivel de heterogeneidad. El enfoque resultó tan interesante que utilizamos el problema de la elaboración de mapas acústicos en entornos urbanos como proyecto piloto. Implementamos los algoritmos para el cálculo de la distancia basada en el coste y adaptamos algunos algoritmos de geoestadística clásica ---como la visualización y el ajuste de variogramas y la predicción Kriging--- para utilizar distancias basadas en el coste. Los resultados fueron alentadores. Sin embargo, un problema fundamental quedaba al margen de la implementación práctica de los algoritmos. Cuando se sustituye la distancia Euclídea por otro tipo de distancias se desmonta el sustento teórico que garantiza que la matriz de covarianzas de las observaciones sea definida positiva. En el espacio Euclídeo, las funciones de correlación (o equivalentemente, los variogramas) "válidas" son completamente conocidas, en términos de representaciones espectrales. A lo largo de los años, diversos autores han encontrado múltiples familias paramétricas de funciones con distintas propiedades. Pero estas funciones pierden toda validez fuera del espacio Euclídeo. Esto nos llevó a estudiar los aspectos teóricos de la definición positiva, con el objetivo último de encontrar (al menos) una familia de funciones válidas con la distancia basada en el coste. Sólo podemos presentar resultados parciales en este sentido y múltiples líneas futuras de investigación. Desde el punto de vista matemático, el problema se puede modelar adecuadamente como una variedad con una métrica Riemanniana que depende directamente de la superficie de coste. La distancia basada en el coste resulta de forma natural como la distancia geodésica entre localizaciones de la variedad. Por otra parte, esta variedad se puede "sumergir" en otros espacios más estructurados, con el objetivo de utilizar resultados conocidos sobre funciones definidas positivas. Naturalmente, la inmersión más interesante sería en un espacio Euclídeo. Pero demostramos que esto no es posible, en general, en ninguna cantidad, finita o infinita, de dimensiones. Lo que sí es posible es obtener la mejor aproximación a una inmersión Euclídea en un número dado de dimensiones. Esto se conoce habitualmente como Multidimensional Scaling (MDS). Sin embargo, la aproximación produce un emborronamiento de las irregularidades de la región, que constituyen precisamente la motivación original del enfoque basado en el coste. Aunque no es una solución satisfactoria, el MDS nos sirvió de inspiración para el desarrollo de otro tipo de inmersión, que constituye el segundo aporte original de esta Tesis. Se trata de la representación pseudo-Euclídea. Es una generalización del MDS que permite una representación "exacta" de una estructura de distancias no necesariamente Euclídea, en un espacio vectorial dotado de un "producto interno indefinido". Esta fue la línea de trabajo que nos pareció más promisoria en su momento, y en la que invertimos más tiempo y esfuerzos. Analizamos con todo detalle el problema de la definición positiva en el espacio pseudo-Euclídeo, y estudiamos la representación espectral de algunas funciones candidatas. Otra línea de trabajo explorada pero infructuosa consistió en la modificación del modelo, para trabajar con una reparametrización de la matriz de covarianzas que garantizara la definición positiva. Sin embargo, luego de una revisión de la literatura disponible, llegamos a la conclusión de que el enfoque en sí mismo es inadecuado para este caso, porque carece de un modelo subyacente que garantice la definición positiva para cualquier conjunto de puntos potencialmente elegible. Por último, investigamos la conexión entre el enfoque basado en el coste y las aproximaciones markovianas de campos Matérn introducidas por Lindgren et al. (2011). Este último enfoque permite ajustar un campo aleatorio evitando la especificación de una función de correlación (y por ende, el problema de la definición positiva). Además es posible trabajar en superficies no planas, o incluso discontinuas.