Prueba de Kruskal-Wallis: guía definitiva para analizar diferencias entre múltiples grupos

La Prueba de Kruskal-Wallis, también conocida como Kruskal-Wallis H o prueba no paramétrica de Kruskal-Wallis, es una de las herramientas más útiles para investigadores que trabajan con datos ordinales o cuando no se cumplen los supuestos de normalidad. En este artículo exploramos en profundidad qué es, cuándo conviene utilizarla, cómo se calcula paso a paso, cómo interpretar sus resultados y qué hacer cuando se requieren comparaciones entre pares tras una significancia global. Si buscas una explicación completa y práctica sobre la prueba de Kruskal-Wallis, llegaste al lugar adecuado.

¿Qué es la Prueba de Kruskal-Wallis?

La Prueba de Kruskal-Wallis es un test estadístico no paramétrico diseñado para comparar tres o más grupos independientes. A diferencia de la ANOVA tradicional, que asume normalidad en las poblaciones y varianzas homogéneas, la Prueba de Kruskal-Wallis se basa en el ranking de los datos y no exige esas condiciones. Esto la hace especialmente adecuada cuando se trabaja con escalas ordinales, cuando los tamaños de muestra son pequeños o cuando existen valores atípicos que podrían distorsionar las medias de los grupos.

Cuándo utilizar la Prueba de Kruskal-Wallis vs ANOVA

Elegir entre la Prueba de Kruskal-Wallis y la ANOVA depende de las características de tus datos y de tus objetivos de investigación. Considera lo siguiente:

Si tus datos son ordinales o presentan distribuciones que no se aproximan a la normalidad, la Prueba de Kruskal-Wallis es más adecuada que la ANOVA.
Si tienes tres o más grupos independientes y quieres evaluar si al menos uno difiere de los demás, la Prueba de Kruskal-Wallis ofrece una respuesta global.
Si las muestras son muy desiguales en tamaño, la Prueba de Kruskal-Wallis tiende a ser más robusta que la ANOVA clásica.
Recuerda que, aunque la Prueba de Kruskal-Wallis puede indicar diferencias entre grupos, no especifica cuáles grupos difieren entre sí. Para eso se requieren pruebas post hoc.

En contraste, la ANOVA es más adecuada cuando los datos cumplen normalidad y homogeneidad de varianzas, y cuando se desea inferir diferencias entre medias específicas de forma paramétrica. Elegir mal puede llevar a conclusiones engañosas, por lo que comprender las condiciones de cada prueba es clave.

Fundamento estadístico de la Prueba de Kruskal-Wallis

La idea central de la Prueba de Kruskal-Wallis es comparar la distribución de rangos entre los grupos. Cada valor de la muestra recibe un rango cuando se ordenan todos los datos de forma global, y luego se suman esos rangos dentro de cada grupo. Si las distribuciones de los grupos son equivalentes, las sumas de rangos deberían ser similares entre grupos. Si no lo son, es probable que existan diferencias estadísticas entre al menos dos grupos.

Supuestos y condiciones de uso

La Prueba de Kruskal-Wallis se apoya en unos supuestos más simples que la ANOVA. Sus principales condiciones son:

Independencia de las muestras: los datos de cada grupo deben ser independientes entre sí.
Datos al menos en escala ordinal: pueden ser valores numéricos o rangos, siempre que exista ordenación entre observaciones.
Distribuciones similares en forma entre grupos: la prueba es menos sensible a diferencias de forma que la ANOVA, pero grandes divergencias pueden afectar la interpretación.

Una de las ventajas clave es que no se requieren suposiciones de normalidad ni de homogeneidad de varianzas. Sin embargo, si hay un gran desequilibrio en tamaños de muestra entre grupos, conviene interpretar con precaución y considerar métodos complementarios.

Cómo se calcula: paso a paso

A continuación se describe el procedimiento estándar de la Prueba de Kruskal-Wallis para un conjunto de k grupos con tamaños muestrales n1, n2, …, nk y tamaño total N = n1 + n2 + … + nk.

Convierte todos los datos en sus rangos globales: ordena las observaciones de todas las muestras juntas y asigna rangos del 1 al N. En empates, asigna el rango promedio de las posiciones implicadas.
Calcula la sumatoria de rangos para cada grupo: Rj es la suma de los rangos dentro del grupo j.
Calcula el estadístico H con la fórmula:
H = (12 / (N (N + 1))) * sum_{j=1}^{k} (Rj^2 / nj) – 3 (N + 1)
donde nj es el tamaño del grupo j y Rj es la suma de rangos del grupo j.
Si existen empates, aplica una corrección por empates para ajustar la varianza y obtener un valor más preciso de H. La corrección se aplica multiplicando por un factor de corrección de empates, que depende de la cantidad y el tamaño de los empates.
Determina los grados de libertad: df = k – 1.
Interpreta el resultado comparando el estadístico H con la distribución chi-cuadrada con df grados de libertad, o obteniendo el p-valor equivalente. Si p < α (por ejemplo 0.05), se rechaza la hipótesis nula.

La Prueba de Kruskal-Wallis no ofrece por sí misma información sobre qué grupos difieren entre sí; para ello se requieren pruebas post hoc, como la prueba de Dunn o comparaciones por pares ajustadas, descritas más adelante.

Corrección por empates y su importancia

En datos con empates, la distribución de rangos no es exacta y la varianza se ve afectada. Por ello, se aplica una corrección por empates que ajusta la varianza y, en consecuencia, el valor de H y el p-valor. Este paso puede parecer técnico, pero es esencial para evitar conclusiones erroneas cuando hay muchos empates en las observaciones.

Interpretación de resultados y toma de decisiones

Una vez obtenido el valor de H y su p-valor, la interpretación básica es la siguiente: si el p-valor es menor que el nivel de significancia elegido (por ejemplo 0,05), se concluye que al menos un grupo difiere de los otros. Sin embargo, la Prueba de Kruskal-Wallis no identifica qué pares de grupos son diferentes. Para saber exactamente qué grupos difieren, se deben realizar pruebas post hoc.

Interpretar correctamente también implica considerar el tamaño de la muestra, la magnitud de las diferencias y la robustez de la prueba ante empates o tamaños desiguales de muestra. En la práctica, es común reportar el estadístico H, los grados de libertad, el p-valor y, cuando corresponde, un resumen de las diferencias entre pares tras un post hoc.

Pruebas post hoc tras la Prueba de Kruskal-Wallis

Cuando la Prueba de Kruskal-Wallis indica diferencias significativas, conviene realizar comparaciones entre pares para identificar qué grupos difieren. Las opciones más utilizadas son:

Prueba de Dunn: compara cada par de grupos y ajusta el p-valor para controlar la tasa de falsos positivos debido a múltiples comparaciones. Es la opción más común en este contexto.
Pruebas de contraste por ranks: enfoques basados en rangos que permiten detectar diferencias específicas entre pares con ajustes adecuados.
Ajustes de p-valor: métodos como Bonferroni, Holm o Benjamini-Hochberg para reducir el riesgo de error de tipo I en múltiples comparaciones.

La elección del método de post hoc depende del número de grupos y del tamaño de la muestra. En estudios con muchos grupos, se recomienda un ajuste conservador para evitar conclusiones erróneas.

Ejemplos prácticos de la Prueba de Kruskal-Wallis

Los ejemplos ayudan a visualizar cómo se aplica esta prueba en contextos reales. A continuación se presentan dos escenarios comunes:

Ejemplo 1: Diferencias entre tres tratamientos en un ensayo clínico

Imagina un ensayo clínico que compara tres tratamientos para mejorar una puntuación de dolor en pacientes con una enfermedad crónica. Se recolectan puntuaciones de dolor de individuos asignados de forma independiente a cada tratamiento. Dado que las puntuaciones pueden no distribuirse normalmente y pueden existir outliers, se decide aplicar la Prueba de Kruskal-Wallis para evaluar si al menos uno de los tratamientos es distinto en su efecto respecto a los demás. Si la prueba devuelve p < 0.05, se procede con la prueba post hoc de Dunn para determinar entre qué tratamientos hay diferencias significativas.

Ejemplo 2: Satisfacción laboral entre cuatro departamentos

Supón que se evalúa la satisfacción laboral en cuatro departamentos de una empresa con escalas de Likert de 1 a 5. Los datos no cumplen la normalidad y hay diferencias en tamaño de muestra entre departamentos. La Prueba de Kruskal-Wallis se utiliza para testear si hay diferencias en la satisfacción entre departamentos. Un p-valor significativo indica diferencias, y luego se aplican comparaciones por pares para identificar qué departamentos difieren y en qué magnitud, lo que puede guiar acciones de gestión y políticas internas.

Implementación práctica en software popular

A continuación se describen rutas rápidas para realizar la Prueba de Kruskal-Wallis en herramientas estadísticas comunes:

En R

En R, la Prueba de Kruskal-Wallis se ejecuta con la función kruskal.test. Ejemplo:

kruskal.test(y ~ grupo, data = datos)

donde y es la variable dependiente y grupo es la variable categórica que representa los diferentes grupos. Para casos con empates, la corrección se maneja automáticamente. Si se obtienen resultados significativos, se recomienda seguir con pruebas post hoc como
Dunn::dunnTest(y ~ grupo, data = datos, method = ‘bh’)

En Python (scipy)

En Python, la librería scipy.stats ofrece la función kruskal para realizar la Prueba de Kruskal-Wallis entre múltiples grupos. Ejemplo:

from scipy.stats import kruskal
stat, p = kruskal(grupo1, grupo2, grupo3)

Si tienes más de tres grupos, puedes pasar una lista de arreglos: kruskal(*lista_de_grupos). Para pos-hoc, hay paquetes como scikit-posthocs que permiten ejecutar pruebas Dunn post hoc de forma sencilla.

En SPSS, SAS o Excel

Muchas plataformas comerciales como SPSS y SAS disponen de procedimientos para la Prueba de Kruskal-Wallis, con menús que guían el cálculo paso a paso y ofrecen opciones para corrección por empates y pruebas post hoc. En Excel, existen complementos o funciones de terceros que permiten realizar esta prueba, aunque el flujo puede ser menos directo y suele requerir obtener rangos y cálculos manuales o con macros.

Buenas prácticas para informes y visualización

La claridad en la presentación de los resultados es clave para la toma de decisiones. Algunas recomendaciones útiles:

Presenta el estadístico H, los grados de libertad y el p-valor de la Prueba de Kruskal-Wallis. Indica también si se aplicó corrección por empates.
Indica el tamaño de cada grupo y, si es posible, proporciona medidas de tendencia central basadas en rangos (mediana) para cada grupo, ya que la Prueba de Kruskal-Wallis se alinea con rangos y mediana.
Resalta la necesidad de pruebas post hoc cuando el p-valor global es significativo, y reporta los resultados de estas pruebas con ajustes de p-valor.
Utiliza gráficos de cajas y extensos diagramas de violín para ilustrar diferencias entre grupos de forma intuitiva sin depender exclusivamente de números p-valor.

Variantes y pruebas relacionadas

Existen versiones y pruebas relacionadas que amplían el alcance de la Prueba de Kruskal-Wallis o que se pueden usar cuando se sustituyen ciertos supuestos por otros enfoques:

Prueba de Kruskal-Wallis con corrección para ties

La corrección para empates es una particularidad importante cuando hay muchos empates entre los valores. Sin esta corrección, el p-valor puede estar sesgado. La versión corregida es la forma recomendada para casos prácticos.

Post hoc tras Prueba de Kruskal-Wallis: la ruta Dunn

La ruta Dunn es la opción más utilizada para realizar pruebas de diferencias entre pares después de una Prueba de Kruskal-Wallis significativa. Se ajusta el p-valor para múltiples comparaciones, típicamente mediante métodos como Holm, Benjamini-Hochberg o Bonferroni, para controlar la tasa de error tipo I.

Alternativas no paramétricas para comparaciones múltiples

En algunos contextos, puede considerarse usar pruebas no paramétricas alternativas para comparar grupos múltiples, como la prueba de Friedman (para diseños apareados) o enfoques basados en ranking adaptados a estructuras de datos específicas. Sin embargo, la Kruskal-Wallis es la opción estándar para diseños independientes con tres o más grupos.

Tamaño de muestra, potencia y recomendaciones prácticas

El tamaño de muestra influye en la potencia de la Prueba de Kruskal-Wallis. En general, mayores tamaños aumentan la probabilidad de detectar diferencias reales, mientras que tamaños muy pequeños pueden hacer que diferencias relevantes pasen desapercibidas. No obstante, incluso con tamaños moderados, la Prueba de Kruskal-Wallis puede proporcionar evidencia suficiente para tomar decisiones cuando las condiciones de normalidad no se cumplen.

Como regla práctica, se recomienda disponer de al menos 5-10 observaciones por grupo para obtener resultados confiables, aunque esto puede variar según la magnitud de las diferencias y la variabilidad de los datos. Siempre es útil hacer un análisis de potencia a priori si el diseño lo permite.

Limitaciones y consideraciones críticas

Aunque la Prueba de Kruskal-Wallis es robusta y versátil, no está exenta de limitaciones:

No informa sobre la magnitud de las diferencias entre grupos; sólo indica que al menos un grupo es diferente.
La interpretación de diferencias entre grupos puede ser más compleja cuando las distribuciones entre grupos difieren mucho en forma o dispersión.
Si se tienen grupos dependientes (diseños apareados), la Prueba de Kruskal-Wallis estándar no es adecuada y se deben usar pruebas no paramétricas específicas para muestras relacionadas, como la prueba de Friedman.
En presencia de muchos grupos o de estructuras complejas (p. ej., diseños factorial con interacciones), conviene considerar modelos no paramétricos más complejos o métodos mixtos.

Conclusiones sobre la Prueba de Kruskal-Wallis

La Prueba de Kruskal-Wallis es una herramienta fundamental en el conjunto de métodos no paramétricos para comparar múltiples grupos independientes. Su fortaleza radica en su bajo requerimiento de supuestos y su capacidad para trabajar con datos ordinales o no normalmente distribuidos. Al realizarla, es crucial considerar la necesidad de pruebas post hoc para identificar qué grupos difieren, y utilizar correcciones para empates y ajustes por múltiples comparaciones para garantizar decisiones estadísticas sólidas.

Preguntas frecuentes sobre la Prueba de Kruskal-Wallis

A continuación se resumen respuestas rápidas a dudas comunes:

¿Qué indica un p-valor significativo en la Prueba de Kruskal-Wallis? Indica que existe al menos una diferencia entre grupos, pero no especifica entre cuáles.
¿Qué hacer si la muestra es muy desigual entre grupos? La Prueba de Kruskal-Wallis suele aguantar bien la desigualdad, pero conviene complementar con pruebas post hoc y reportar con claridad las limitaciones.
¿Es necesario corregir por empates? Sí, cuando hay empates entre valores para obtener un p-valor correcto y evitar sesgos.
¿Puede usarse para diseños pareados? No; para diseños apareados se utiliza una versión distinta, como la Prueba de Friedman.

Recapitulando: claves para dominar la Prueba de Kruskal-Wallis

Para cerrar, estas son las ideas centrales que debes recordar sobre la Prueba de Kruskal-Wallis:

Es una prueba no paramétrica para comparar tres o más grupos independientes.
Se basa en rangos y no exige normalidad ni homogeneidad de varianzas.
Proporciona un estadístico H y un p-valor; si es significativo, realiza pruebas post hoc para identificar diferencias entre pares.
La corrección por empates es importante cuando hay many empates en los datos.
Se puede implementar fácilmente en R, Python y en herramientas estadísticas comerciales, con soporte para pruebas post hoc como Dunn.

En definitiva, la Prueba de Kruskal-Wallis ofrece un marco sólido, práctico y accesible para analizar diferencias entre múltiples grupos sin depender de suposiciones paramétricas fuertes. Ya sea que trabajes en investigación biomédica, ciencias sociales, ingeniería o economía, dominar esta prueba te ayudará a extraer conclusiones confiables y comunicar resultados con claridad y rigor.