Study of Jet Substructure in the ATLAS Experiment using Distributed Analysis within Spanish Tier-2 Infrastuctures

  1. Oliver García, Elena
Dirigida por:
  1. José Salt Cairols Director/a
  2. Santiago González de la Hoz Director

Universidad de defensa: Universitat de València

Fecha de defensa: 16 de diciembre de 2013

Tribunal:
  1. Andreu Pacheco Pages Presidente/a
  2. Marcel Vos Secretario/a
  3. Dario Barberis Vocal
Departamento:
  1. Física Atòmica, Molecular i Nuclear

Tipo: Tesis

Resumen

Study of Jet Substructure in the ATLAS experiment using Distributed Analysis within Spanish Tier-2 Infrastructures (Estudio de Subestructura de Jets en el experimento ATLAS usando Análisis Distribuido dentro de las Infraestructuras del Tier-2 Español) Resumen en español 1. Motivación En el Large Hadron Collider (LHC) se producen partículas consideradas objetos ‘boosted’ donde sus productos de desintegración se concentran en una pequeña parte del detector. El estudio de estos objetos pueden dar pistas de nueva física como en dimensiones extra y supersimetría, así como el estudio del bosón de Higgs. Con el fin de caracterizar estos objetos se han introducido variables de subestructura de jets. Este trabajo recoge el primer estudio de subestructura de jets con datos reales usando el algoritmo antiKt con párametro R=1.0. Todo ello se ha realizado en el marco del Modelo Estándar y a partir de los sucesos reales del experimento ATLAS. El análisis de datos de ATLAS se realiza utilizando las tecnologías Grid y el análisis distribuido. En este estudio de subestructura de jets ha tenido una gran importancia, ya que el trabajo realizado dentro del Tier-2 federado español en el entendimiento de su funcionamiento y la realización de algunas de sus operaciones ha permitido el acceso a cientos de millones de eventos para obtener los resultados mostrados. También ha permitido ayudar en otros estudios de física del experimento ATLAS donde se requería tal experiencia. 2 Introducción El marco teórico en el que se enmarca este trabajo es el Modelo Estándar, que es la interpretación actual del comportamiento de las partículas elementales. Separa las partículas en fermiones (spin semientero) encargadas de constituir la materia, y en bosones (spin entero) que son intercambiadas por los propios fermiones para interaccionar. Los tipos de interacción son fuerte, débil y electromagnética. Éstas dos últimas se unen mediante el formalismo electrodébil cuyos bosones responsables son el fotón, W^+? y Z^0. Este formalismo pronosticaba que todos los bosones no tenían masa lo que no concordaba con los resultados de los experimentos así que se formuló el mecanismo de Higgs que aportaba otro bosón extra. Este modelo está en completo acuerdo con los resultados de los experimentos de aceleradores de partículas, como por ejemplo el último descubrimiento del bosón de Higgs. Sin embargo, siguen varias discrepancias sin resolver como que no se incluye la gravedad, ni se considera que los neutrinos tengan masa o que no hayan candidatos para la materia oscura. Para incluirlas, otros modelos teóricos se han desarrollado denominados en general ’Más allá del modelo Estándar’. Los más populares son Supersimetría, que propone partículas nuevas llamadas ’supersimétricas’, y Dimensiones Extra, que incorporan más dimensiones espaciales a las tres ya conocidas. Estos retos que surgen de una física nueva han sido la razón de la contrucción del acelerador de protones Large Hadron Collider. Está localizado en el CERN, tiene una circunferencia de 27 kilómetros y situado a 100 metros de profundidad. Puede alcanzar una energía en el centro de masas de 14 TeV, a una luminosidad de 10^34 cm^?2s^?1. Tiene cuatro puntos de impacto donde hay experimentos situados para detectar las colisiones. Uno de esos experimentos es ATLAS (A Large Toroidal LHC Apparatus), cuyos datos han sido analizados para este estudio. Su propósito es de carácter general, por tanto cubre una gran variedad de objetivos de la física. Tiene forma cilíndrica con 25 metros de diámetro y 46 metros de longitud con un peso de 7000 toneladas. Sus componentes o subdetectores se distribuyen de forma concéntrica alrededor del haz de protones. El primer subdetector más interior es el encargado de detectar las trazas, también llamado ‘Inner Detector’. El siguiente subdetector es el calorímetro que mide la energía de las partículas, lo que permite identificarlas. El primer componente es el calorímetro electromagnético (‘Liquid Argon’), que detecta la energía de las partículas cargadas y de los fotones. Después se situa el calorímetro hadrónico (‘TileCal’), que detecta la energía de los hadrones. La capa más exterior de subdetectores la forma las cámaras de muones que miden el momento de estas partículas y permiten una mejor identificación gracias a estar rodeados de un campo magnético toroidal. En ATLAS se producen muchos eventos sin interés para la física actual. Para filtrar los eventos no deseados y guardar aquellos eventos que nos aportan información se usa un sistema de ‘trigger’ a tres niveles. El LHC y sus experimentos está suponiendo un desafío computacional como es la necesidad de una enorme capacidad para almacenar 25 PB por año, de gran procesamiento entorno a 100,000 CPUs y de que haya acceso internacional a los datos distribuidos por todo el mundo para 8000 físicos. Los datos procedentes de todos los experimentos del LHC son procesados y analizados por medio de una computación distribuida basada en el modelo Grid. El Grid consiste en compartir recursos computacionales por todos los centros repartidos por todo el mundo que trabajan en el experimento. Para el caso del LHC, se establecieron unos parámetros comunes mediante el projecto Worldwide LHC Computing Grid (WLCG). Los experimentos del LHC han establecido una arquitectura jerárquica basada en ‘Tiers’. Un Tier es un centro computacional capaz de ejecutar la totalidad del software espec ífico para procesar los datos del experimento. Además, el centro ha de ser accesible en el Grid, lo que implica que el software del Grid (middleware) ha de ser instalado y mantenido de tal forma que cada centro pueda actuar como un componente de una red única y mundial. El modelo computacional jerarquizado en el LHC es: un Tier-0 (CERN), 10 Tier-1s (centros nacionales), unos 80 Tier-2s (centros regionales) y varios Tier-3s (recursos a nivel institucional). Dentro de ATLAS, se han ido añadiendo otros requisitos para la computación donde se han adaptado las exigencias del experimento desde que comenzó la toma de datos. Se cambió del modelo jerárquico al modelo ‘Mesh’ (de rejilla) donde las transferencias no necesitan pasar por centros intermedios al calificarse centros de destino como Tier-2 directos (T2D) por su excelente conexión y disponibilidad. Se ha desarrollado software específico por la colaboración ATLAS como por ejemplo Athena para el análisis y procesamiento de los datos. Otro ejemplo de software es la base de datos (‘Database’) que actualiza la información del detector ATLAS en geometr ía y otros parámetros. Con el fin de tener todo preparado y operativo para la toma de datos, se procedió a la verificación de todo el modelo Grid obteniéndose buenos resultados dentro del contexto general del proyecto WLCG. 3 Análisis distribuido El análisis en ATLAS se hace de manera distribuida dentro del Grid. Se desarrolló un sistema para controlar con eficacia todos los procesos relacionados con los trabajos Grid para ATLAS, este sistema se llamó PanDA. Consigue la compatibilidad de todas las granjas computacionales con los requisitos de ATLAS. La colaboración ATLAS ha creado herramientas para facilitar el acceso al análisis distribuido a los usuarios, como son Don Quixote 2 (DQ2) y ATLAS Metadata Interface (AMI) para la gestión de datos, y PanDA-Client y Ganga para el envío de los trabajos al Grid. Concretamente, hemos utilizado Ganga para el estudio de subestructura de jets. La colaboración ATLAS, para mejorar el análisis distribuido, ha implementado una serie de tests basados en modelos de análisis y producción llamados HammerCloud, que excluyen aquellos centros de participar en esas actividades. Otro ejemplo de estas mejoras son las copias automáticas de datos oficiales a otras granjas según la demanda cuya actividad se denomina PanDA Dynamic Data Placement (P2DP). También hay que mencionar la gran tarea de atender las dudas y problemas de los usuarios en análisis distribuido por parte del Distributed Analysis Support Team (DAST). Un ejemplo de cómo se ha usado el análisis distribuido ha sido el realizado para el estudio de subestructura de jets. Ganga se ha usado para enviar el paquete de Athena necesario y elegir la herramienta adecuada para encontrar los datos de entrada que analizar. Si se escogía datos simulados como datos de entrada entonces se usaba DQ2 pero si se trataba de datos reales entonces se elegía AMI porque podía interpretar una lista de mejores eventos bajo criterios de calidad que se denomina Good Run List. Una vez obtenida la información de los datos de entrada, se dividió el trabajo principal en sub-trabajos en base al número de ficheros. Buscó los centros de computación disponibles con los datos. Ganga también aportó instrucciones para que se pidiera una réplica automática de los datos de salida a otro centro, que en este caso se guardó en el Tier-3 del IFIC. Estos trabajos se han distribuido en 36 centros, y el tiempo empleado ha sido de 31 horas para 15 millones de eventos simulados y 36 horas para 158 millones de eventos de datos reales. Estos datos corresponden al año 2010 con energía del centro de masas de 7 TeV. 4 El Tier-2 español federado de ATLAS Con el fin de ilustrar el funcionamiento de un centro Tier-2 de ATLAS, nos hemos centrado en el Tier-2 español. Es una federación de tres centros: IFIC (Valencia), IFAE (Barcelona) y UAM (Madrid). Tiene una contribución del 5% respecto de todos los Tier-2 de ATLAS en recursos computacionales. Sus funciones han cambiado por pasar a otro modelo de computación donde ha recibido y enviado transferencias sin necesidad de ir a través del Tier-1 español, PIC. También los cambios se han notado al poder hacer tareas de calibración, debido a un acceso más flexible de toda la base de datos mediante el Frontier/Squid por parte de los Tier-2s. Según los tests de Service Availability Monitoring (SAM) en el periodo de tres años, los parámetros de fiabilidad y accesibilidad fueron entre 90– 100%, y la accesibilidad específica media de ATLAS se ha evaluado en un 83% para análisis y 92% para producción en el periodo desde septiembre de 2011 hasta abril de 2013. Las transferencias han sido de 14 millones tanto las recibidas como las enviadas, donde se ha transferido un volumen de datos de 9 PB y 3.5 PB respectivamente. Se ha observado que la ocupación del espacio supera 2 PB. Mediante la observación de la evolución del espacio de los space tokens (espacios reservados), se ha reflejado los diferentes usos por cada una de las actividades de ATLAS. La produccion de datos simulados y el análisis son las actividades más importantes en un Tier-2 de ATLAS. 4.7 millones de trabajos de producción llegaron a este Tier-2 estos últimos tres años con una eficiencia alta de 93% que contribuye el 1.78% respecto de todos los trabajos en ATLAS. En la actividad de análisis se ejecutaron 7.2 millones de trabajos, contribuyendo en un 1.76% respecto al total de ATLAS, con una eficiencia del 87.9%. En la instalación, mantenimiento, operación y explotación del Tier-2 federado español han participado un grupo de expertos que lo han hecho posible y eficaz. Algunos de ellos han formado parte del equipo de ayuda para los físicos que realizan los análisis en los tres centros españoles. Este equipo es el denominado User Support en el que yo formo parte activa. 5 Subestructura de jets Finalmente, destacar que se ha colaborado en el estudio de física pionero en ATLAS de la subestructura de jets, que está sirviendo para determinar objetos ‘boosted’ (empujados). Éstos objetos son de interés para la física más allá del Modelo Estándar dentro de ATLAS y LHC. Se caracterizan porque a momentos transversos mucho más grandes que su masa, los productos de desintegración se concentran en una pequeña parte del detector y no pueden diferenciarse. Entonces se aplica la técnica de considerar un único jet que englobe todos los productos de desintegración, para luego estudiar su estructura interna y así poder identificar las partículas pesadas ‘boosted’ y descartar gluones y quarks ligeros. El algoritmo de jet estudiado ha sido el denominado AntiKt, que es el usado por defecto en el detector, aunque el parámetro R se ha aumentado hasta 1.0 para poder englobar todos los productos de la desintegración. Se han escogido como variables de subestructura de jets las más fundamentales, que son la masa intrínseca del jet y las ‘splitting scales’ (escalas de división). Estas últimas se obtienen deshaciendo los últimos pasos del algoritmo Kt para pasar de un jet a dos partes (?d_12) y de dos a tres partes (?d_23). Se han analizado muestras simuladas de procesos de interacción fuerte con diferentes generadores de Monte Carlo y datos reales procedentes del detector ATLAS obtenidas en el año 2010 con una energía en el centro de masas de 7 TeV y con una luminosidad de 35.0 ± 1.1 pb^?1. Las variables de subestructura se ven afectadas por las colisiones adicionales que se originan (‘pile-up’). Al estudiar los primeros datos y fijar que el número de vértices primarios sea uno, hemos conseguido evitar el efecto que el ‘pile-up’ hace en estas variables. La calibración usada se ha obtenido mediante Monte Carlo (generador usado es Pythia), comparando el valor a nivel hadrónico con el de los jets reconstruidos de las variables de subestructura, los cuales dependen de la masa, la energía y la ‘pseudorapidity’ eta. Las contribuciones más importantes en los errores sistemáticos han sido en la escala y resolución del momento transverso del jet. Se han incluido además errores sistemáticos de la escala y resolución de la masa del jet y las ‘splitting scales’. Para validar los errores sistemáticos de escala se han usado los jets sacados del detector de trazas, que se han comparado con los jets del calorímetro usando el mismo algoritmo de jets. Para calcular los errores sistemáticos en la resolución se ha usado varios modelos de Monte Carlo con parámetros variados como el tipo de generador, el modelo teórico de la formación de hadrones e incluso cambiando la geometría del detector. Se ha corregido el efecto de la resolución y la aceptancia del detector, y así conseguir que pueda ser comparado con predicciones teóricas. Para ello se ha usado una técnica de desdoblamiento con matrices denominado Iterative Dynamically Stabilised unfolding. La técnica consiste en crear una matriz de conversión con datos simulados comparando los valores a nivel de generación y a nivel detector, de donde se obtienen las parejas de jets que coinciden. La comparación se hace para cada intervalo de momento transverso. Para obtener los datos corregidos se ha multiplicado la eficiencia de la coincidencia en la parte reconstruida luego se ha multiplicado por la matriz de conversión y dividido por la eficiencia de la coincidencia en la parte a nivel de generación. Se han obtenido como resultados las distribuciones de la sección eficaz normalizada en función de las variables de subestructura. El generador Pythia ha descrito bien los datos reales, sin embargo, no ha pasado lo mismo con el generador Herwig++. De entre las variables de subestructura, las ‘splitting scales’ han concordado mejor con los datos que la masa del jet. 6 Conclusiones Este estudio ha mostrado los primeros resultados de subestructura de jets para el algoritmo AntiKt con R=1.0 en el experimento ATLAS y a través de un análisis distribuido mediante computación Grid. El modelo computacional de ATLAS ha evolucionado de un modelo MONARC a otro ‘Mesh’ ante las mejoras de conexión a internet que ha afectado positivamente a las operaciones de los Tier-2s. El objetivo final es interconectar todos los Tiers hasta que todo se comporte como una única Cloud. El análisis distribuido en ATLAS se está realizando con éxito gracias a las herramientas desarrolladas por la colaboración, que facilitan el uso del Grid. Las herramientas para la gestión de datos y enviar los trabajos de análisis permiten un manejo más fácil del Grid para los físicos de ATLAS, como es el caso de Ganga que se ha usado para este trabajo. A medida que se han tomado los datos en el experimento y ha aumentado el uso de las granjas que conforman la computación de ATLAS en la actividad de análisis, se ha ido mejorando el análisis distribuido aplicando nuevas ideas. También se está dando un servicio de apoyo a los usuarios de ATLAS por medio de DAST, que facilita la resolución de problemas y aclaración de dudas en el tema de análisis distribuido. Se ha presentado un caso de análisis distribuido que representa el proceso utilizado para la obtención de los datos del estudio de subestructura de jets. Se han enviado un total de 11373 sub-trabajos (3205 procesaron datos simulados y 8168 datos reales). Se han distribuido a 36 granjas y ejecutado en un periodo de tiempo de 31 horas para 15 millones de eventos simulados y 36 horas para 158 millones de eventos de datos reales siendo sólo los pertenecientes al 2010 con energía del centro de masas de 7 TeV. Hemos mostrado como ejemplo de Tier, el Tier-2 federado español de ATLAS. Su contribución del 5% satisface todos los requisitos de un Tier-2 en accesibilidad (entre 90 y 100%), transferencias (14 millones de transferencias realizadas), almacenamiento (ocupación de más de 2PB) y procesamiento (4.7 millones de trabajos en producción y 7.2 millones en análisis). Observando estas operaciones durante tres años se ha apreciado cómo ha influido el cambio de modelo y las propias actividades de ATLAS al Tier-2. Además el trabajo realizado ha dado lugar a el User Support que presta ayuda a usuarios de los tres centros en temas de análisis distribuido y computación Grid. En cuanto a la parte de análisis de física: Las variables de subestructura de jets que se han medido son la masa del jet y las ‘splitting scales’. Han sido las primeras medidas en el LHC. Las predicciones de Monte Carlo con generador Pythia han estado en concordancia con los datos del experimento. El generador Herwig++ no ha reproducido bien la distribución de la masa del jet, pero se ha adaptado para las splitting scales. La variable de subestructura con peor concordancia con Monte Carlo ha sido la masa del jet. Las splitting scales han aportado errores sistemáticos pequeños. Existe una dependencia de las variables de subestructura con el ‘pile-up’ y para reducir ese efecto hemos fijado en uno el número de vértices primarios. En estudios posteriores se han desarrollado métodos que han disminuido en parte esa dependencia. Se han corregido las distribuciones para que pueda ser comparada con modelos teóricos. De hecho, se pueden consultar estudios teóricos en los que se ha pretendido obtener la masa de los jets. Desde la publicación de este resultado, grupos de física que realizan estudios de resonancias top-antitop han usado este trabajo para buscar quarks top ‘boosted’ del alto momento. Estas técnicas aumentan la sensibilidad en búsquedas de nueva física.