Tamaño del efecto y su intervalo de confianza y meta-análisis en psicología
- María Dolores Frías Navarro Directora
- Amparo Bonilla Campos Codirectora
Universidad de defensa: Universitat de València
Fecha de defensa: 15 de diciembre de 2016
- Julio Sánchez Meca Presidente/a
- Héctor Monterde Bort Secretario
- Raquel Soares Pacheco Esteves Vocal
Tipo: Tesis
Resumen
La Práctica Basada en la Evidencia (PBE) se define como “la integración de la mejor evidencia disponible con la experiencia clínica en el contexto de las características, cultura y preferencias del paciente” (American Psychological Association (APA), Presidencial Grupo de Trabajo sobre la Práctica Basada en la Evidencia, 2006, p. 273). Por definición, la PBE se basa en la utilización de la investigación científica en la toma de decisiones en un esfuerzo por producir los mejores servicios posibles en la práctica clínica (Babione, 2010; Sánchez-Meca y Botella, 2010). En consecuencia, la PBE requiere de los profesionales nuevas habilidades como la capacidad para evaluar y jerarquizar la calidad de la evidencia o las investigaciones psicológicas, para proporcionar el mejor servicio posible a los pacientes mediante la incorporación de la mejor evidencia en la experiencia o el juicio profesional, junto a las opiniones de los pacientes (Sackett, Straus, Richardson, Rosenberg, y Haynes, 2000). Dentro de este proceso de evaluación crítica de la evidencia es crucial conocer y comprender el proceso de la prueba de significación de la hipótesis nula (Null Hypothesis Significance Testing, NHST) como herramienta para el análisis de datos, dado que este procedimiento goza de una considerable difusión en la investigación en Psicología, siendo utilizado en la mayor parte de los artículos publicados en revistas del área (Cumming y cols., 2007). En consecuencia, saber cómo interpretar los valores p de probabilidad es una competencia básica del profesional en Psicología y en cualquier disciplina en que se aplique la inferencia estadística. El valor de p relacionado con los resultados de una prueba estadística es la probabilidad de obtener los datos observados o un valor más extremo si la hipótesis nula es verdadera (Kline, 2013). La definición es clara y precisa, sin embargo, los conceptos erróneos de los valores p siguen siendo numerosos y repetitivos (Badenes-Ribera, Frías-Navarro, y Pascual-Soler, 2015; Falk y Greenbaum, 1995; Haller y Krauss, 2002; Kühberger, Fritz, Lermer, y Scherndl, 2015; Oakes, 1986). Los errores de interpretación más comunes del valor p son la “falacia de la probabilidad inversa”, la “falacia de la replicación”, la “falacia del tamaño del efecto” y la “falacia de la significación clínica o práctica” (Carver, 1978; Cohen, 1994; Harrison, Thompson, y Vannest, 2009; Kline, 2013; Nickerson, 2000; Wasserstein y Lazar, 2016). La “falacia de la probabilidad inversa” es la falsa creencia de que el valor de p indica la probabilidad de que la hipótesis nula (H0) es cierta, dado ciertos datos (Pr (H0|Datos)). Esto significa confundir la probabilidad del resultado, asumiendo que la hipótesis nula es verdadera, con la probabilidad de que la hipótesis nula sea verdadera, dados ciertos datos (Kline, 2013; Wasserstein y Lazar, 2016). La “falacia de la replicación” vincula el valor de p con el grado de replicabilidad del resultado de un estudio. Supone creer erróneamente que el valor de p indica el grado de replicabilidad del resultado y su complemento, 1-p, a menudo se interpreta como indicación de la probabilidad exacta de replicación (Carver, 1978; Nickerson, 2000). La “falacia del tamaño del efecto” relaciona la significación estadística con la magnitud del efecto detectado. En concreto, supone creer erróneamente que el valor de p proporciona información directa sobre el tamaño del efecto (Carver, 1978). Es decir, que cuanto más pequeño es el valor de p más grandes son los tamaños del efecto. Sin embargo, el valor de p no informa sobre la magnitud de un efecto. Éste sólo puede ser determinado mediante la estimación directa de su valor con los estadísticos apropiados y su intervalo de confianza (Cumming, 2012; Cumming, Fidler, Kalinowski, y Lai, 2012; Kline, 2013; Wasserstein y Lazar, 2016). La “falacia de la significación clínica o práctica” es la falsa creencia de que el valor de p indica la importancia de los hallazgos (Nickerson, 2000; Wasserstein y Lazar, 2016). De esta manera, un efecto estadísticamente significativo es interpretado como un efecto importante. Sin embargo, un resultado estadísticamente significativo no indica que el resultado sea importante, de la misma manera que un resultado no estadísticamente significativo todavía podría ser importante. Dados los errores de interpretación del valor de p y otras críticas sobre el uso y abuso de del procedimiento de la NHST (e.g., Monterde-i-Bort, Frías-Navarro, y Pascual-Llobell, 2010; Wasserstein y Lazar, 2016), la APA (2001, 2010a) recomendó reportar los estadísticos de tamaño del efecto y sus intervalos de confianza, que, en conjunto, transmiten más claramente la magnitud de los hallazgos de investigación (Ferguson, 2009). Existen docenas de estadísticos del tamaño del efecto disponibles (Henson, 2006; Kline, 2013), los cuales se pueden clasificar en dos grandes grupos: las medidas de diferencias de medias y las medidas de la fuerza de las relaciones entre variables (Frías-Navarro, 2011b; Kline, 2013; Rosnow y Rosenthal, 2009). El primero se basa en la diferencia de medias estandarizadas (e.g., d de Cohen, g de Glass, g de Hedges, f de Cohen, etc.) y el segundo se basa en la proporción de varianza explicada o la correlación entre dos variables (e.g., R2/r2, η2, w2). Los estadísticos del tamaño del efecto reportados con mayor frecuencia son la R2, d de Cohen, y η2 (e.g., Peng y Chen, 2014). Estos estadísticos han sido criticados por su sesgo (es decir, que tienden a estar positivamente sesgados), su falta de robustez a los valores atípicos, y su inestabilidad bajo las violaciones de los supuestos estadísticos (Grissom y Kim, 2012; Kline, 2013; Wang y Thompson, 2007). Por último, dentro de este contexto de cambio y avances metodológicos, las revisiones sistemáticas y meta-analíticas han ganado una considerable relevancia y prevalencia en las revistas de mayor prestigio (APA, 2010a; Borenstein, Hedges, Higgins, y Rothstein, 2009). Los estudios meta-analíticos ofrecen varias ventajas sobre las revisiones narrativas: el meta-análisis implica un proceso de investigación con base científica que depende del rigor y la transparencia de cada una de las decisiones tomadas durante su elaboración, y permite dar una respuesta definitiva acerca de la naturaleza de un efecto cuando hay resultados contradictorios (Borenstein y cols., 2009). Los meta-análisis facilitan estimaciones del tamaño del efecto más precisas, permiten evaluar la estabilidad de los efectos, y ayudar a los investigadores a contextualizar los valores de los tamaños del efecto obtenidos en su estudio (Cumming y cols., 2012). Sin embargo, los estudios meta-analíticos no están libres de sesgos, por ejemplo, el sesgo de publicación, que es una de las mayores amenazas para la validez de este tipo de estudios, cuya consecuencia es una sobreestimación del tamaño del efecto (Borenstein y cols., 2009; Sánchez-Meca y Marín-Martínez, 2010). Así, Ferguson y Branninck (2011) analizaron 91 estudios de meta-análisis publicados en la American Psychological Association y en la Association for Psychological Science Journal y encontraron que de 91 estudios analizados, 26 (41%) reportaron evidencia del sesgo de publicación. Por lo tanto, los investigadores, los profesionales de la Psicología y, en general, los lectores de los estudios meta-analíticos deben conocer métodos para detectar este tipo de sesgo. En este sentido, el funnel plot es una gráfica que se utiliza con frecuencia como método de detección de sesgo de publicación en las Ciencias de la Salud (Sterne, Gavaghan, y Egger, 2005). En definitiva, es necesario llevar a cabo investigaciones sobre el grado de conocimiento metodológico que los psicólogos académicos y profesionales tienen sobre la calidad metodológica de las evidencias y de la investigación psicológica para la correcta aplicación del enfoque de la PBE y la adquisición de un conocimiento científico válido. Este tipo de investigación puede aportar luz sobre estos problemas y dar lugar a programas de formación para tratar de corregirlos o minimizarlos. Objetivos El primer objetivo de este trabajo fue detectar los errores de razonamiento estadístico que los psicólogos académicos y profesionales españoles cometen cuando se les presentan los resultados de una prueba de inferencia estadística. Con este fin, se analizaron dos cuestiones: la primera fue la extensión de los errores más comunes de interpretación con respecto al valor de p y la segunda fue el grado en que se interpretan correctamente los valores de p por parte de ambos colectivos. El segundo objetivo fue analizar lo que los psicólogos académicos y profesionales españoles conocen sobre los tamaños del efecto, sus intervalos de confianza y los estudios de meta-análisis, teniendo en cuenta que esta es una de las principales recomendaciones propuestas por la APA (2010a) para mejorar la práctica estadística en la investigación psicológica y favorecer la acumulación de conocimiento y la replicación de los hallazgos. Por último, se trató de comprobar si los resultados de la investigación sobre los errores de interpretación del valor de p y el nivel de conocimiento sobre los tamaños del efecto, sus intervalos de confianza y los meta-análisis, realizados en los psicólogos académicos españoles, son constantes, para lo cual llevamos a cabo sendos estudios de replicación con una muestra de psicólogos académicos chilenos e italianos. Método Procedimiento Se realizaron una serie de estudios transversales mediante encuesta on-line. Para ello, se registraron las direcciones de correo electrónico de los psicólogos académicos españoles, chilenos e italianos a través de la consulta de las webs de las universidades en estos países. Los potenciales participantes fueron invitados a completar una encuesta a través del uso de un sistema CAWI (Computer Assisted Web Interviewing). Se envió un mensaje de seguimiento dos semanas después a los potenciales participantes que no habían contestado a la encuesta. La recogida de datos se llevó a cabo durante el año académico 2013-2014 para la muestra española y desde marzo a mayo de 2015 para la muestra chilena e italiana. En cuanto a la muestra española de psicólogos profesionales, se envió un e-mail a los Colegios Oficiales de Psicólogos invitándoles a participar en la encuesta on-line sobre práctica profesional en Psicología. Los potenciales participantes fueron invitados a completar una encuesta a través del uso de un sistema CAWI. Tres semanas después se envió un mensaje de seguimiento. La recogida de datos se llevó a cabo durante los meses de mayo a septiembre de 2015. Participantes La muestra de psicólogos académicos españoles estuvo formada por 472 participantes. La media de años de los profesores en la Universidad fue de 13.56 años (DT = 9.27). Los hombres representaron 45.8% (n = 216) y las mujeres 54.2% (n = 256). La muestra de psicólogos académicos chilenos e italianos estaba compuesta por 194 participantes. De estos 194 participantes, 159 eran italianos y 35 chilenos. De los 159 participantes italianos, 45.91% eran hombres y 54.09% mujeres, con una edad media de 47.65 años (DT = 10.47). El número medio de años que los profesores habían pasado en el ámbito académico fue de 12.90 años (DT = 10.21). De los 35 psicólogos académicos chilenos, los hombres representaron el 45.71% de la muestra y las mujeres el 54.29. Además, la edad media de los participantes fue de 43.60 años (DT = 9.17). El número medio de años que los profesores habían pasado en el ámbito académico fue de 15 años (DT = 8.61). Por último, la muestra de psicólogos profesionales españoles estuvo formada por 77 participantes (68.8% mujeres, 31.2% hombres, edad media de 41.44 años, DT = 9.42). Instrumento El instrumento aplicado consistió en una encuesta dividida en dos secciones. La primera sección incluía ítems relacionados con información sobre el sexo, la edad y los años de experiencia como psicólogo académico, el área de conocimiento a la que está adscrita, y el tipo de Universidad (pública/privada). Además, para los psicólogos profesionales españoles, la primera sección también incluyó ítems relacionados con los años de experiencia como psicólogo profesional, el entorno clínico (pública/privada), y el grado de familiaridad con el movimiento de la PBE. La segunda sección incluyó ítems relacionados con el conocimiento sobre aspectos metodológicos relacionados con la PBE, como por ejemplo, la interpretación del valor p, el nivel de conocimiento de los estadísticos del tamaño del efecto, intervalos de confianza, estudios de meta-análisis, y las listas de comprobación de la calidad metodológica de los estudios. Análisis de datos Todos los estudios incluyeron estadísticos descriptivos de las variables objeto de evaluación, tales como frecuencias y porcentajes. Además, los análisis incluyeron la estimación del intervalo de confianza para los porcentajes. Para el cálculo del intervalo de confianza se utilizaron los métodos de puntuación basados en la obra de Newcombe (2012). Todos los análisis se realizaron con el programa estadístico SPSS v. 20 de IBM para Windows. Resultados y conclusiones Los resultados indican que la comprensión de muchos conceptos estadísticos sigue siendo problemática entre los psicólogos académicos y profesionales españoles, y también entre los psicólogos académicos chilenos e italianos. Los errores metodológicos de interpretación y los pobres conocimientos de determinados estadísticos y procedimientos han sido y continúan siendo una fuente de amenaza directa para una adecuada implementación de la PBE en la práctica profesional y para la adquisición de un conocimiento científico válido. En cuanto a los errores de interpretación del valor de p, la “falacia de la probabilidad inversa” fue la interpretación errónea más prevalente entre los psicólogos académicos españoles, italianos y chilenos. Esto significa que algunos psicólogos académicos confunden la probabilidad de obtener un resultado dado o un resultado más extremo si la hipótesis nula es verdadera (Pr (Datos|H0) con la probabilidad de que la hipótesis nula sea cierta dados algunos datos (Pr (H0|Datos). Además, los psicólogos académicos españoles, italianos y chilenos adscritos al área de Metodología no fueron inmunes a las interpretaciones erróneas del valor de p, lo que puede dificultar la formación estadística de los estudiantes y facilitar la transmisión de estas falsas creencias, así como su perpetuación (Haller y Krauss, 2002; Kirk, 2001; Kline, 2013; Krishnan y Idris, 2014). Estos resultados son consistentes con estudios previos (Haller y Krauss, 2002; Lecoutre, Poitevineau, y Lecoutre, 2003; Monterde-i-Bort y cols., 2010). Por otra parte, la “falacia de la significación clínica o práctica” fue la interpretación errónea más frecuente entre los psicólogos profesionales españoles. Sin embargo, un resultado estadísticamente significativo no indica que el resultado es importante, de la misma manera que un resultado no estadísticamente significativo aún podría ser importante (Nickerson, 2000; Wasserstein y Lazar, 2016). La importancia clínica se refiere a la utilidad práctica o aplicada o a la importancia del efecto de una intervención. Es decir, si produce alguna diferencia real (auténtica, palpable, práctica, notable) para los clientes o para otros con los que interactúan en la vida cotidiana (Kazdin, 1999, 2008). Las pruebas de significación estadística tienen un propósito y responden a unos problemas y no a otros. Una prueba de significación estadística no indica la importancia de un resultado, la replicabilidad del mismo, o incluso la probabilidad de que un resultado sea debido al azar (Carver, 1978). El valor de p nos informa de si existe un efecto, pero no revela el tamaño del efecto, ni su significación clínica/práctica (Ferguson, 2009; Sullivan y Feinn, 2012). El tamaño del efecto sólo puede ser determinado mediante la estimación directa de su valor con los estadísticos apropiados y su intervalo de confianza (Cohen, 1994; Cumming, 2012; Kline, 2013; Wasserstein y Lazar, 2016). Sin embargo, interpretar un resultado estadísticamente significativo como importante o útil, confundir el nivel de significación de alfa con la probabilidad de que la hipótesis nula sea cierta, relacionar el valor de p con la magnitud del efecto, y creer que la probabilidad de replicación de un resultado es 1-p son interpretaciones erróneas o falsas creencias que siguen existiendo entre los psicólogos académicos y psicólogos profesionales, como muestran los resultados. Estos conceptos erróneos son problemas de interpretación y no son un problema del procedimiento de la NHST en sí mismo (Leek, 2014). Detrás de estas interpretaciones erróneas existen algunas creencias y atribuciones acerca de la significación estadística de los resultados. Por lo tanto, es necesario mejorar la enseñanza de la estadística, la formación de los psicólogos y el contenido de los manuales de estadística con el fin de garantizar una formación de alta calidad a los futuros profesionales (Babione, 2010; Cumming, 2012; Kline, 2013; Haller y Krauss, 2002). Los problemas en la comprensión del valor p influencian las conclusiones que los profesionales extraen de sus datos (Hoekstra, Morey, Rouder, y Wagenmakers, 2014), poniendo en peligro la calidad de los resultados de la investigación psicológica (Frías-Navarro, 2011a). El valor de la evidencia científica depende de la calidad de los análisis estadísticos y de su interpretación (Faulkner, Fidler, y Cumming, 2008). Por otro lado, la mayoría de los participantes en los estudios realizados afirmaron utilizar estudios meta-analíticos en su práctica profesional y tener un conocimiento adecuado sobre los mismos, así como de los estadísticos del tamaño del efecto. Sin embargo, reconocieron que tienen un pobre conocimiento de los gráficos que se utilizan en los meta-análisis, como por ejemplo, el forest plot y el funnel plot, lo cual puede llevar a una mala interpretación de los resultados y, por lo tanto, dar lugar a una mala práctica, teniendo en cuenta que la mayoría de los participantes declaró que usaba estudios meta-analíticos en su práctica profesional. Como varios autores señalan, la presentación gráfica de los resultados es una parte importante de un meta-análisis y se ha convertido en la principal herramienta para la presentación de los resultados de múltiples estudios sobre la misma pregunta de investigación (Anzures-Cabrera y Higgins, 2010; Borenstein, y cols., 2009). De este modo, el forest plot y el funnel plot son gráficos utilizados en los estudios de meta-análisis para presentar las estimaciones del tamaño del efecto medio y el sesgo de publicación, respectivamente. El sesgo de publicación es una importante amenaza para la validez de los estudios meta-analíticos, ya que las estimaciones meta-analíticas derivadas podrían ser imprecisas, típicamente, sobreestimando el efecto. A ese respecto, el funnel plot se utiliza como método de detección del sesgo de publicación en las Ciencias de la Salud (Sterne y cols., 2005). Por lo tanto, investigadores, académicos y profesionales deben tener un conocimiento adecuado de este tipo de gráfica, que es una herramienta básica de los estudios de meta-análisis para detectar el sesgo de publicación y la heterogeneidad de los tamaños de efecto. Con respecto al tipo de estadístico del tamaño del efecto que conocen los participantes, estos mencionaron en mayor medida los estadísticos de la familia de las diferencias de medias estandarizadas y η2 (estadísticos del tamaño del efecto paramétricos). Sin embargo, estos estadísticos del tamaño del efecto han sido criticados por su falta de robustez frente a los valores atípicos o desviación de la normalidad, y la inestabilidad bajo las violaciones de los supuestos estadísticos (Algina, Keselman, y Penfield, 2005; Grissom y Kim, 2012; Kline, 2013; Peng y Chen, 2014; Wang y Thompson, 2007). Hay razones teóricas y evidencia empírica de que los valores atípicos y las violaciones de los supuestos estadísticos son comunes en la práctica (Erceg-Hurn y Mirosevich, 2008; Grissom y Kim, 2001). Los resultados sugieren que la mayoría de los psicólogos académicos y profesionales españoles y los psicólogos académicos italianos y chilenos no conocen las alternativas para los estadísticos del tamaño del efecto paramétricos, tales como los estadísticos no paramétricos (e.g., correlación de Spearman), los estadísticos robustos de la diferencia de medias estandarizada (basados en las medias recortadas y varianzas winsorizada), la probabilidad de superioridad (PS), el número necesario a tratar (NNT) o el área bajo la curva ROC (AUC) (Erceg-Hurn y Mirosevich, 2008; Ferguson, 2009; Grissom y Kim, 2012; Keselman, Algina, Lix, Wilcox, y Deerin, 2008; Kraemer y Kupfer, 2006; Peng y Chen, 2014; Wilcox, 2010; Wilcox y Keselman, 2003). Como Erceg-Hurn y Mirosevich (2008) señalaron esto podría ser debido a la falta de exposición a estos métodos. De esta manera, “el plan de estudios de estadística en Psicología, los artículos de las revistas, los manuales populares, y el software están dominados por la estadística desarrollada antes de la década de 1960” (op. cit., p. 593). En cuanto a las listas de control de la calidad metodológica de los estudios, de nuevo la mayor parte de los participantes dijeron no tener conocimiento sobre ellas. Sin embargo, éste es un campo en expansión y actualmente existen listas de comprobación para estudios primarios (por ejemplo, CONSORT), para estudios de meta-análisis clásicos (por ejemplo, AMSTAR) y para estudios de meta-análisis en red (por ejemplo, PRISMA-NMA). Por otro lado, el análisis del comportamiento de los investigadores asociado con sus prácticas metodológicas señala que, en las tres muestras de psicólogos académicos, los participantes que podían nombrar algún estadístico del tamaño del efecto presentaron un perfil más cerca de las buenas prácticas estadísticas y de diseño de investigación. Sin embargo, hay tres temas de alerta en relación al conocimiento que los psicólogos académicos españoles, chilenos e italianos tienen acerca del tamaño del efecto y la validez de la conclusión estadística: asocian erróneamente el tamaño del efecto con la importancia de un hallazgo (“falacia de la significación clínica o práctica”), siguen utilizando en una alta proporción expresiones del valor p que giran en torno al oráculo del valor alfa, y no conocen el propósito de planificar a priori la potencia estadística en un estudio. Por último, dos acontecimientos que han permitido el debate en la ciencia sobre procedimientos estadísticos, el progreso hacia una reforma estadística y una mayor transparencia y calidad de los estudios, como son el debate abierto sobre los usos y abusos de las pruebas de significación estadística (que comenzó casi desde el inicio de su uso) y el desarrollo de herramientas de verificación como los listados de comprobación (CONSORT, STROBE, PRISMA...), siguen siendo desconocidos para una alta proporción de psicólogos académicos españoles, italianos y chilenos y entre los psicólogos profesionales españoles. Por lo tanto, el presente trabajo proporciona evidencia de la necesidad de formación estadística de los psicólogos académicos y profesionales españoles, y de los psicólogos académicos chilenos e italianos, teniendo en cuenta los problemas relacionados con la interpretación adecuada de los resultados obtenidos con el procedimiento NHST y el pobre conocimiento de términos estadísticos del tamaño del efecto, estudios meta-analíticos y listas de control de la calidad metodológica. La PBE requiere tener un conocimiento adecuado sobre los fundamentos de la metodología de investigación con el fin de ser capaces de evaluar críticamente los tests y las evidencias que los estudios incluyen en sus informes. Los problemas de comprensión del valor p de probabilidad, de los estadísticos del tamaño del efecto y de los estudios meta-analíticos, influyen en las conclusiones que los profesionales extraen de los datos, lo que pone en peligro la calidad de los resultados de la investigación psicológica y una adecuada implementación de una PBE en la práctica profesional. Como Faulkner y cols. (2008) señalan, el valor de la evidencia científica depende de la calidad de los análisis estadísticos realizados y de su interpretación. Por lo tanto, la interpretación de los resultados es un filtro de calidad que no puede ser sometido a las creencias erróneas o pobres interpretaciones del procedimiento estadístico. No obstante, varias limitaciones en la serie de estudios realizados en este trabajo deben ser reconocidas. Por ejemplo, la baja tasa de respuesta podría afectar a la representatividad de las muestras y, por lo tanto, a la generalización de los resultados entre los psicólogos académicos y profesionales. Sin embargo, es posible que los participantes que respondieron a la encuesta se sintieran más seguros de su conocimiento estadístico que aquellos que no respondieron. Si este fuera el caso, los resultados podrían subestimar las barreras a la PBE. Además, los resultados de nuestra investigación sobre concepciones erróneas del valor p están de acuerdo con los resultados de estudios anteriores sobre este tema en muestras de psicólogos académicos y estudiantes de Psicología (Badenes-Ribera, Frías-Navarro y Pascual Soler, 2015; Falk y Greenbaum, 1995; Haller y Krauss, 2002; Kühberger y cols., 2015; Monterde-i-Bort, y cols., 2010; Oakes, 1986). Por otra parte, los resultados de la investigación sobre el nivel de conocimiento de la magnitud del efecto y los estudios de meta-análisis en las muestras de psicólogos españoles (ambos grupos, psicólogos profesionales y académicos) fueron consistentes con los resultados del estudio sobre estos temas en la muestra de psicólogos académicos italianos y chilenos. Todo esto lleva a concluir en la necesidad de formar adecuadamente a los psicólogos para mejorar la práctica profesional. La PBE requiere de profesionales que evalúen críticamente los resultados de la investigación psicológica. Para ello, se requiere una formación adecuada en conceptos estadísticos, metodología y diseños de investigación, así como en los resultados de las pruebas de inferencia estadística y en los estudios de meta-análisis. Por ejemplo, los manuales de estadística deberían incluir una sección sobre el actual debate y las críticas del procedimiento NHST, en términos de si las pruebas de significación estadística son la mejor manera de avanzar en la adquisición de un conocimiento científico válido. Además, deberían añadir información sobre cómo calcular e informar el tamaño del efecto y sus intervalos de confianza, tanto en los resultados estadísticamente significativos y como en los resultados no estadísticamente significativos. Y, por último, los autores de los manuales deberían dar ejemplos de cómo decidir si un resultado estadísticamente significativo tiene importancia práctica o clínica (Gliner, Leech, y Morgan, 2002). Por otra parte, los programas de software estadístico deberían actualizarse para incluir en sus menús otras técnicas como la estimación de los intervalos de confianza de los estadísticos del tamaño del efecto paramétricos, y la estimación de estadísticos del tamaño el efecto más resistentes a los valores extremos (outliers) y a las violaciones de los supuestos de las pruebas paramétricas (normalidad de la variable y homogeneidad de la varianza), tales como los estadísticos robustos modernos y sus intervalos de confianza. En ese sentido, hay varios sitios web que ofrecen programas para el cálculo de los estimadores del tamaño del efecto y sus intervalos de confianza (ver Frías-Navarro, 2011b; Fritz, Morris, y Richler, 2012; Grissom y Kim, 2012; Kline, 2013; Peng, Chen, Chiang y Chiang, 2013). En definitiva, el objetivo de esta serie de estudios ha sido especialmente hacer hincapié en la necesidad de una re-educación estadística de los psicólogos profesionales y académicos, que incluye la difusión del uso de las listas de control, como una herramienta para evaluar la calidad metodológica de los estudios, y motivar el desarrollo de manuales que describan conceptualmente las pruebas estadísticas y señalen las consecuencias de una mala práctica estadística en la acumulación de conocimientos científicos válidos. Además, el propósito ha sido tener en cuenta la necesidad de incorporar los modernos estadísticos robustos del tamaño del efecto a los programas estadísticos como el SPSS. En la actualidad existe un debate científico y social abierto que podría cambiar el curso de las prácticas estadísticas entre los investigadores de la Psicología y las Ciencias de la salud. Por ejemplo, durante los últimos tres años las críticas contra el procedimiento de inferencia estadística clásica basada en el valor de probabilidad p y la decisión dicotómica para mantener o rechazar la hipótesis nula se han endurecido (Allison, Brown, George, y Kaiser, 2016; Nuzzo, 2014; Wasserstein y Lazar, 2016). Además, la baja proporción de estudios de replicación, el sesgo de publicación que conducen a una sobreestimación de la magnitud de los efectos, las prácticas estadísticas cuestionables (Questionable Research Practices, QRPs) dirigidas a alcanzar resultados estadísticamente significativos como no informar de los resultados de todas las variables dependientes medidas en el estudio, informar solamente de los resultados estadísticamente significativos, eliminar los valores extremos o ‘outliers’ y aumentar la muestra hasta lograr la significación estadística (p-hacking) y el fraude también son temas actuales de discusión (Earp y Trafimow, 2015; Ioannidis, 2005a, 2005b; Kepes, Banks, y Oh, 2014). Debates a los que ha tratado de contribuir la realización del presente trabajo, aportando evidencias del actual estado de la cuestión, en lo que se refiere al conocimiento y las prácticas de los psicólogos académicos y profesionales en relación a la metodología y los diseños de investigación. Los hallazgos del presente trabajo son una prueba empírica de todas las conductas inapropiadas que rodean al proceso de inferencia estadística y que durante décadas han sido objeto de estudio por los investigadores, como son las interpretaciones inadecuadas y el mal uso que se realiza de las técnicas de inferencia debido a las falacias estadísticas y de tamaño del efecto que la rodean. Profesores, científicos y profesionales de la Psicología no son inmunes a tales creencias. El problema no se ha resuelto a pesar de las recomendaciones y alertas que de manera permanente se han detallado en las publicaciones científicas. La re-educación estadística que corrija los errores de interpretación de las diferentes falacias y la incorporación de una práctica estadística basada en la evidencia, orientada al uso consciente y explícito de todos los elementos que rodean al proceso de inferencia estadística, es esencial para interpretar de forma crítica sus resultados. La literatura que se ha desarrollado sobre el razonamiento estadístico y su educación tiene toda una línea de investigación abierta sobre los errores de interpretación de los valores de p (Beyth-Maron, Fidler y Cumming, 2008; Garfield, Ben-Zvi, Chance, Medina, Roseth, y Zieffler, 2008; Garfield, y Franklin, 2011; Garfield, Zieffler, Kaplan, Cobb, Chance, y Holcomb, 2011), a la cual se pretende sumar la presente investigación, poniendo en evidencia su importancia, su vigencia y sus implicaciones en el desarrollo y la transmisión del conocimiento científico válido.