Monitorización IOT para la caracterización acústica del paisaje sonoro mediante aprendizaje profundo

López Ballester, Jesús

Monitorización IOT para la caracterización acústica del paisaje sonoro mediante aprendizaje profundo

López Ballester, Jesús

Dirigida por:

Jaume Segura García Director
Santiago Felici Castell Codirector

Universidad de defensa: Universitat de València

Fecha de defensa: 24 de octubre de 2022

Tribunal:

Jaime Lloret Mauri Presidente/a
Sandra Roger Varea Secretaria
Ana María Torres Aranda Vocal

Departamento:

Informàtica

Tipo: Tesis

Teseo: 759673 DIALNET

Resumen

El sonido que nos rodea forma lo que denominamos paisaje sonoro o soundscape y ha ido ganando interés con los años al estudiarse su efecto bajo el prisma de diferentes campos de investigación tanto biológicos como físicos, como la medicina, la antropología, la arquitectura o la ecología. El paisaje sonoro es fundamental para el confort, la vida y al fin y al cabo la salud de los habitantes de un entorno, por lo que analizarlo y describirlo de una manera objetiva mediante parámetros cuantificables tiene una gran importancia. Para ello se definen diversos parámetros acústicos que se emplean en función del soundscape que se desee estudiar o del tipo de análisis a realizar. Algunos de estos parámetros suelen ser conocidos como puede ser la Sonoridad (Loudness), que emplearíamos para analizar el nivel de presión sonora del sonido presente en una zona de una ciudad o la Reverberación (Reverberation Time), que emplearíamos para estudiar cuánto tiempo percibimos el sonido en una sala debido a las reflexiones, otros en cambio nos son menos familiares, como el caso de del índice de inteligibilidad del habla (Speech Intelligibility Index o SII), en el caso de querer analizar cómo se perciben las palabras en diferentes zonas de una sala. Dependiendo de las características que se deseen analizar del sonido, existen diversos parámetros como pueden ser además de los mencionados, la Intensidad de Fluctuación o Fluctuation Stregth, la Claridad musical o Clarity 80 o la Rugosidad (Roughness) entre otros. Estos parámetros acústicos, individualmente aportan una información concreta del sonido analizado, pero en conjunto proporcionan una descripción muy amplia del soundscape analizado, por lo que es sumamente interesante la implementación de un sistema capaz de evaluar diversos parámetros acústicos de forma simultánea y obtener en un mismo análisis una descripción lo más completa posible. Al igual que tener un único valor de temperatura para una ciudad al completo, no nos permite saber dónde se ubican las zonas más cálidas y las más frías, a nivel acústico, es esencial monitorizar diferentes zonas para poder realizar un análisis correcto y saber cómo varían los parámetros acústicos en las mismas. Para este cometido nacen las redes inalámbricas de sensores acústicos o Wireless Acoustic Sensors Networks (WASNs), que nos permiten monitorizar diferentes puntos de un soundscape simultáneamente y realizar análisis extensos y complejos de forma sencilla y rápida. Las WASNs están ganando protagonismo cada día en la monitorización de entornos, más todavía si cabe con la mejora de la conectividad de los dispositivos y la irrupción del concepto del Internet de las Cosas o Internet of Things (IoT) en el mundo de los dispositivos móviles y las redes de sensores. En la mayoría de casos las WASNs están formadas por dispositivos de bajo coste y por lo tanto recursos limitados, por lo que la velocidad y eficiencia de cálculo es esencial. Los sistemas IoT pueden estar formados por dispositivos de naturaleza más variada además de los nodos típicos de una WASN, pero en ellos es igual de importante la velocidad de cálculo, permitiendo dedicar tiempo a realizar otras tareas como el almacenamiento de datos en la nube o la implementación de sistemas de representación de los mismos. En muchos casos los nodos que forman la WASN o el sistema IoT están alimentados por baterías, por lo que una vez más la eficiencia y velocidad de cálculo son esenciales. La Inteligencia Artificial (IA) juega un papel fundamental en este punto ya que permite automatizar y simplificar tareas y cálculos complejos. Empleando redes neuronales convolucionales (Convolutional Neural Networks, CNNs) se puede obtener uno o varios valores a su salida en función de los datos presentes a la entrada de una forma mucho más rápida que mediante el cálculo directo. Embebiendo este tipo de redes neuronales en un sistema IoT, se da lugar al concepto AI-IoT, habilitando dispositivos de recursos limitados para realizar cálculos complejos de una manera sencilla, rápida y con un consumo reducido de energía. En esta Tesis se describe el uso de dos conjuntos de parámetros acústicos, uno para evaluar la molestia psico-acústica en entornos generalmente amplios y otro para evaluar el comportamiento acústico general de una sala y la inteligibilidad del habla en la ella. Debido a la complejidad de los cálculos necesarios se ha hecho uso de redes neuronales convolucionales para acelerar los mismos y poder realizarlos dentro de un nodo de una WASN. Las CNNs se han diseñado de manera que minimicen el error en predicción al máximo manteniendo una elevada velocidad de cálculo. Se han puesto a prueba con diferentes datasets incluyendo señales reales adquiridas con diferentes dispositivos, para verificar el correcto funcionamiento en entornos reales bajo la influencia de cualquier agente externo. Gracias a esto se ha diseñado y desplegado un sistema IoT que hace uso de las redes neuronales diseñadas para la monitorización de los parámetros acústicos de forma precisa, sencilla y rápida. El sistema AI-IoT es capaz de almacenar los datos de forma local o en la nube y de predecir los parámetros a partir de señales de audio sin procesar o RAW mucho más rápido que empleando cálculo directo, por lo que sumado al uso de baterías en los nodos y a la comunicación inalámbrica, permite analizar un soundscape de una forma mucho más sencilla y rápida que ningún sistema empleado hasta ahora.