El "Estudio Nacional de Demonstración"
Bradley, R.T., McCraty, R., Atkinson, M., Arguelles, L., Rees, R.A. & Tomasino, D. (2007). Reduciendo la Ansiedad por Exámenes y Mejorando el Rendimiento en los Exámenes en las Escuelas de Estados Unidos: Resultados del Estudio Nacional TestEdge. Boulder Creek, CA: Instituto HeartMath.
En este estudio, los sujetos eran estudiantes de décimo grado en dos escuelas secundarias del norte de California. En una escuela, 602 estudiantes recibieron capacitación en HeartMath. En la otra escuela, descrita como el "grupo control", 332 estudiantes no recibieron capacitación. El programa HeartMath TestEdge® incluía practicar la técnica Freeze-Frame y tratar de "reexperimentar" emociones positivas. Los estudiantes lo hicieron mientras utilizaban el sistema de computadoraizado "emWave® PC Stress Relief System" que proporciona retroalimentación biofísica.
Cuando se reportan las calificaciones de los estudiantes, el resumen de los investigadores dice:
En cuatro comparaciones de grupos emparejados (involucrando submuestras de 50 a 129 estudiantes) hubo un aumento significativo en el rendimiento en el test del grupo experimental en comparación con el grupo control, que osciló en promedio entre 10 y 25 puntos. (p. 6)
En las secciones que siguen, discuto las debilidades en esa afirmación.
CUANDO UN "GRUPO DE CONTROL" NO ES REALMENTE UN GRUPO DE CONTROL
Este estudio no tuvo asignación aleatoria de sujetos individuales. Sin embargo, utilizando un procedimiento cuasi-experimental, los investigadores asignaron al azar dos escuelas: grupos naturales y grandes de sujetos. Este es un método de investigación legítimo, pero requiere la recopilación de datos adicionales para evaluar la similitud de los grupos naturales. El peligro es que las escuelas podrían tener diferencias preexistentes que causen a los estudiantes que realicen diferentes.
En este estudio, una diferencia preexistente fue el número de personas en los grupos. Al inicio del estudio, se recopilaron datos completos para 602 estudiantes en la escuela asignada a usar HeartMath, pero solo había 332 estudiantes similares en la otra escuela. Esta discrepancia compromete las pruebas estadísticas que podrían mostrar que las puntuaciones promedio de los exámenes en las dos escuelas fueron significativamente diferentes debido a HeartMath o cualquier otra cosa.
También hubo una diferencia de sexo entre los grupos. En la escuela asignada a usar HeartMath, el 48% de los estudiantes eran femeninos; en la otra escuela, el 60% de los estudiantes eran femeninos. También había diferencias étnicas: en la escuela HeartMath, aproximadamente el 50% de los estudiantes eran hispanos o latinos, el 37% eran blancos y el 3% eran asiáticos. En la otra escuela, solo aproximadamente el 12% eran hispanos o latinos, el 54% eran blancos y el 20% eran asiáticos. (Estas cifras son para estudiantes que realizaron las pruebas postestantes así como las pretestantes.)
Los investigadores también compararon las escuelas utilizando una medida estándar de rendimiento académico: el Índice de Rendimiento Académico de California (API). Los resultados del API eran para el año anterior a la realización del estudio. En la escuela HeartMath, el API fue 666; en la otra escuela el API fue 740, una diferencia significativa de 74 puntos. (En ese momento, la puntuación promedio estatal era de 671.) Dado que la "escuela control" estaba desempeñándose a un nivel más alto antes de comenzar el estudio, habría menos espacio para que estos estudiantes mejoraran cuando se completara el estudio. En otras palabras, el grupo control podría no mostrar mucha mejora en las puntuaciones de los exámenes simplemente porque sus puntuaciones eran
tan altas ya.
Por otro lado, "Las cargas de trabajo de los maestros fueron más altas y los gastos por estudiante fueron menores en el sitio de intervención en comparación con el sitio control." (65) Esta diferencia podría reducir las posibilidades de éxito del estudiante en la escuela HeartMath e inhibir los posibles beneficios de cualquier técnica de aprendizaje.
No debes asumir que las ventajas y desventajas de las escuelas se equilibran de alguna manera. No hay una forma científica de igualar estas variables diferentes. El problema general es que las escuelas parecen haber sido muy diferentes al inicio del estudio, y por lo tanto, cualquier diferencia al final podría deberse a las características de las escuelas y no porque una escuela usara HeartMath.
Además de la falta de asignación aleatoria de los sujetos individuales, y la aparente nonequivalencia de las dos escuelas, el estudio no tuvo observadores "cegos". Por lo tanto, este estudio tuvo los tres problemas principales descritos en mi otra página.
También, los investigadores utilizaron algunas procedimientos estadísticos sospechosos al analizar los resultados.
PROBLEMAS ESTADÍSTICOS
Rotación: Manejo de Abandonos
A pesar de que el estudio duró solo cuatro meses, muchos estudiantes que iniciaron el estudio no lo completaron. En la escuela que utilizaba HeartMath, 602 iniciaron pero solo 488 terminaron--una tasa de retención del 19.1%. En la otra escuela, 332 iniciaron el estudio pero solo 261 terminaron--una tasa de retención del 21.4%. El gran número de abandonos significa que las poblaciones probadas al final del estudio podrían haber sido significativamente diferentes a las poblaciones probadas al principio.
¿Cuáles podrían ser las consecuencias de tantas personas abandonando? Una posibilidad es que estudiantes más inteligentes y con mayor motivación fueron los que probablemente continuaron participando. Supongamos, por un momento, que esto ocurrió. Si así fue, el promedio de IQ y/o necesidad de logro de los estudiantes que permanecieron al final del estudio sería mayor que el promedio de todos los estudiantes que iniciaron el estudio. Esto significa que las puntuaciones de prueba más altas al final del estudio podrían deberse a una inteligencia y/o motivación promedio más alta, y no al modo en que se enseñó a los estudiantes. Los investigadores ni siquiera mencionaron esta posibilidad en su informe. Por supuesto, solo estoy haciendo una sugerencia aquí. La retención podría tener otras consecuencias. El problema es que las altas tasas de retención plantean dudas sobre el significado de los resultados.
Además, los investigadores reportaron las puntuaciones pretest de todos los estudiantes que iniciaron el estudio y luego compararon esas con las puntuaciones posttest solo de los estudiantes que seguían participando al final. Esto significa que se comparó el rendimiento pretest de grupos más grandes con el rendimiento posttest de grupos más pequeños--se compararon manzanas con naranjas. Los investigadores deberían haber comparado las puntuaciones pretest y posttest solo de los estudiantes que completaron el estudio--los que tenían datos completos--para ver si ocurrieron cambios significativos.
Análisis Post Hoc: Creación de Sub-Muestras
Los investigadores realizaron muchos análisis estadísticos de las calificaciones de los estudiantes. Ellos reportaron los resultados de su primer análisis de la siguiente manera:
Sin embargo, los resultados de un ANCOVA (no mostrados) para todos los estudiantes en la escuela de intervención no encontraron evidencia de una relación entre la frecuencia de uso de las herramientas TestEdge y la reducción del estrés pre-post intervención en pruebas. Tampoco hubo evidencia de una relación entre el uso de las herramientas por parte del estudiante y el rendimiento en la prueba CST ELA de 10º grado [la Prueba Estandarizada de California de Inglés y Literatura]. (119)
En otras palabras, cuando primero revisaron los datos de todos los estudiantes, no encontraron evidencia de que las técnicas HeartMath redujeron la ansiedad por exámenes o aumentaran las puntuaciones en una prueba estándar de inglés.
Este primer fracaso, sin embargo, no les ralentizó mucho. Como muchos otros investigadores, aplicaron una regla simple: "Si no encuentras lo que estás buscando, busca en otro lugar." Comenzaron a dividir su población total de estudiantes en varios subgrupos y analizar los puntajes de estos subgrupos para ver si había diferencias.
Para ser justos, la creación de uno de estos subgrupos abordó un problema con el estudio. Los investigadores habían pretendido medir el rendimiento en exámenes utilizando las puntuaciones de los estudiantes en la Prueba Estándar de California (CST). Las puntuaciones de CST de los estudiantes en 9º grado servirían como preprueba—una medida tomada antes del inicio del tratamiento HeartMath. Las puntuaciones de CST de los estudiantes en 10º grado servirían como postprueba, tomada después del tratamiento. Entonces se podrían comparar las puntuaciones de preprueba y postprueba para ver si el tratamiento hizo una diferencia. Este procedimiento es típico de cuasi-experimentos y una muy buena manera de probar hipótesis. En este estudio, sin embargo, los investigadores encontraron problemas:
. . . con la excepción de la prueba de Inglés y Artes del Lenguaje CST, que parecía haberse administrado universalmente en una base estandarizada a todos los estudiantes tanto de 9º como de 10º grado, y así cumplió con nuestra necesidad de un formato de medidas repetidas, un número de complicaciones inesperadas impidió nuestro uso de gran parte de los datos CST." (87)
El problema era que el CST es en realidad una colección de pruebas en varios temas, y diferentes estudiantes tomaron diferentes combinaciones de estas pruebas. Los estudiantes no siempre tomaron las mismas pruebas en los 9º y 10º grados, y algunos estudiantes en las dos escuelas tomaron diferentes combinaciones de pruebas.
Por ejemplo, en el 9º grado el 91% del grupo experimental tomó Ciencias de la Tierra mientras que el 85% del grupo control tomó Biología; en el 10º grado la mayoría del grupo experimental tomó Biología mientras que el grupo control tomó Química. Esto significaba que las puntuaciones de CST en Ciencias no podían ser comparadas y por lo tanto eran inútiles." (87)
El buenas noticias, mencionadas anteriormente, fue que todos los estudiantes tomaron las pruebas de inglés, y por lo tanto, sus puntajes pre- y post-HeartMath en inglés pudieron ser comparados. Los investigadores también se pusieron creativos y encontraron una manera de utilizar los puntajes matemáticos de algunos de los estudiantes:
... encontramos un subconjunto notable de 183 estudiantes (121 en el grupo experimental y 62 en el grupo control) quienes todos tomaron Geometría en el noveno grado y quienes también tomaron Álgebra 2 en el décimo grado. En los análisis que siguen en una sección posterior, este grupo de estudiantes se refiere como Math Group 1." (87)
No sé lo que pueda pensar el cuerpo docente de matemáticas sobre equistar la rendición en geometría con la rendición en álgebra, pero supongamos que esto fue una manera razonable de seleccionar estudiantes que tuvieron tanto un pretest como un posttest en matemáticas. Desafortunadamente, el grupo de estudiantes de matemáticas en la escuela HeartMath era casi el doble de grande que el grupo en la otra escuela. Como mencioné anteriormente, grandes diferencias en los tamaños de los grupos hacen que los análisis estadísticos sean muy problemáticos.
Hay otro problema: cuando los investigadores informan los resultados del análisis de los grupos de "Matemáticas 1", los números cambian:
Pasando a los resultados para el Grupo Matemático 1 . . . En total, hubo 129 estudiantes en esta sub-muestra, de los cuales 69 (53.5%) estaban en el grupo experimental y 60 (46.5%) estaban en el grupo control." (157)
Algunamente, los 183 estudiantes con puntajes de matemáticas se convirtieron en 129 estudiantes; los 121 de ellos en la escuela HeartMath se convirtieron en 69; y los 62 estudiantes en la otra escuela se convirtieron en 60. Es cierto que los tamaños de los grupos se volvieron similares—and esto es bueno—pero no hay explicación en el informe de cómo los investigadores eligieron usar a estos estudiantes en su análisis y excluyeron al resto de los estudiantes. Descrepancias como esta plantean más dudas sobre el significado de los resultados reportados.
Para volver a la discusión sobre las afirmaciones sobre HeartMath, haga clic aquí.