Síntesis de las principales técnicas estadísticas aplicadas en la investigación sanitaria

M. del M. Rodríguez del Águila
M.A. Fernández Sierra
Unidad de Investigación. Hospital Virgen de las Nieves. Granada.

Publicado en JANO, Viernes 10 Julio 1998. Volumen 55 - Número 1265 p. 48.



De todos es sabido que cualquier investigación clínica planteada con rigor debe estar reflejada en el correspondiente protocolo de investigación, que contendrá los apartados metodológicos que regirán el desarrollo de la misma.
Dentro de la sección "Material y métodos", se debe reflejar de forma concisa el análisis estadístico, que recoge todas aquellas técnicas utilizadas para extraer consecuencias válidas del estudio, ya sea para describir la muestra o inferir a la población.

Formando parte de la inferencia estadística están los llamados test de hipótesis, que consisten en comprobar si son ciertas determinadas afirmaciones hechas sobre las características de una población, pudiendo comparar si un método o tratamiento es más efectivo que otro, a partir de los resultados obtenidos en una muestra.
Existen infinidad de planteamientos posibles para un test de hipótesis y, dependiendo de la situación en que nos encontremos, tendremos distintas vías para resolverlo.

La información contenida en las hojas de recogida de datos, diseñadas para la anotación de todas las variables pertinentes del estudio, será utilizada posteriormente para su volcado en un programa informático con el objeto de aplicar los procedimientos descritos en el análisis estadístico.
Esta última tarea es, a priori, la más sencilla pero también es donde más errores se cometen, por lo que se debe tener muy claro qué técnica estadística se debe utilizar en cada momento, o en su defecto consultar a un estadístico para que asesore de manera correcta.

El objetivo de esta revisión es establecer una clasificación general de las técnicas estadísticas más utilizadas teniendo en cuenta diversos criterios; para ello necesitamos distinguir previamente entre los tipos de variables recogidas:

TABLA 1.- Clasificación de las variables.-

Existen dos criterios no excluyentes entre sí para clasificar las variables:

1: Atendiendo a la escala de medición, las variables pueden ser:

CUALITATIVAS: son las que expresan distintas cualidades (tipo de tto aplicado, grado de enfermedad,...) cada modalidad que se presenta se denomina atributo o categoría.
CUANTITATIVAS: vienen expresadas por medio de cantidades numéricas (cifra de hemoglobina, número de caries,...)

2: Según la manipulación del investigador, tenemos:

VARIABLE INDEPENDIENTE: son las que el investigador controla y servirán para establecer agrupaciones en una investigación (tipo de tto aplicado), también son aquellas que identifican intrínsecamente a los sujetos (edad, sexo,...)
VARIABLE DEPENDIENTE: son las de respuesta que se observan en la investigación, a partir de las cuales se obtendrán las conclusiones validas del estudio.
Estarán condicionadas por los valores que adopte la variable independiente.


CLASIFICACION DE LOS TESTS DE HIPOTESIS

En este artículo se verá el caso bivariante, es decir, aquel en el que se relacionan 2 variables, ya que suele ser el caso más frecuente y base para posteriores análisis más complejos. Los casos multivariantes son generalizaciones de éste, en los que se incluyen múltiples variables independientes y/o dependientes, siendo las técnicas a aplicar similares a éstas pero de mayor complejidad en su cálculo, análisis e interpretación.

Según que las variables dependiente o independiente sean cualitativas o cuantitativas pueden presentarse 4 casos distintos.
Así, se pueden establecer para cualquier test estadístico las hipótesis nula y alternativa de forma genérica, quedando de la siguiente forma:
- H0 (hipótesis nula): no existe relación entre la variable dependiente e independiente.
- H1 (hipótesis alternativa): las variables dependiente e independiente están relacionadas.

Caso A

Cuando las 2 variables son cualitativas o están categorizadas, el test estadístico a aplicar es el de ji-cuadrado.
Este test consiste en cruzar las 2 variables en una tabla formada por tantas celdas como categorías combinadas tengamos entre ambas variables. Hay que hacer 2 distinciones para aplicarlo: por una lado, si tenemos 4 o más celdas y, por otro, si el porcentaje de celdas con frecuencia esperada menor de 5 es superior o no al 20% (se define la frecuencia esperada de una celda como la cantidad que cabría esperar en dicha celda en el supuesto de que la hipótesis nula sea cierta).

Caso B

Cuando la variable de respuesta es cualitativa y la independiente es cuantitativa, se puede optar por:
1. Agrupar los valores de la variable cuantitativa en intervalos y aplicar el caso A (ji-cuadrado). Esta vía tiene como ventaja la facilidad de uso que proporciona esta técnica, pero tiene el inconveniente de que, al realizar la agrupación, se pierde información; además los resultados pueden depender en gran medida de los intervalos que se construyan.

2. Recodificar la variable cualitativa como cuantitativa y aplicar el caso D (regresión y correlación). Sólo tiene sentido realizarlo cuando la variable cualitativa es ordinal, es decir, que admite cierta ordenación en sus categorías. La ventaja de seguir este camino es que estamos con variables cuantitativas, que aportan en general más información que las cualitativas, pero tiene como desventaja el hecho de que la asignación de números a las distintas modalidades se hace de forma arbitraria, a criterio del investigador, y es difícil que el número refleje realmente la categoría referenciada.

Caso C

Dentro este caso (variable dependiente cuantitativa e independiente cualitativa) es donde más variedad de tests de hipótesis se presentan, atendiendo a 3 criterios no excluyentes entre sí:

Primer criterio: parametricidad.

Según este criterio, los tests de hipótesis pueden ser:
- Tests de hipótesis paramétricos: son aquellos en los que las variables se ajustan a distribuciones conocidas de antemano (por ejemplo: distribución normal...).
- Tests de hipótesis no paramétricos: están basados en el hecho de que los datos no se ajustan a distribuciones preestablecidas; también se aplican cuando tenemos un número reducido de observaciones.

Para saber si hemos de aplicar un test paramétrico o no paramétrico, se suele recurrir al test de Kolmogorov-Smirnov, por el que se concluirá si una serie de observaciones sigue la distribución normal.
Esta es una condición que en numerosas ocasiones no se considera, con la consiguiente mal aplicación de tests paramétricos a datos que no se ajustan a dicha distribución.
Si se sabe que los datos se distribuyen normalmente (caso de muchas determinaciones bioquímicas), no será necesario emplear este test. Lo utilizaremos cuando no haya clara evidencia de que tenemos una distribución normal y el número de observaciones sea inferior a 30 (si estamos con más de 30 casos, se pueden aplicar tests paramétricos, independientemente de la distribución que se tenga).

Segundo criterio: número de grupos a comparar.

Este criterio se basa en la cifra de grupos que se establecen de antemano en la comparación.
Según esto, tenemos:
- Tests de hipótesis con 2 muestras: en ellos partimos de 2 grupos en los que se comprueba si el comportamiento de una variable cuantitativa es el mismo en ambos o no (por ejemplo: comparar niveles medios de hematócrito en un grupo estudio y uno control).
- Tests de hipótesis con varias muestras: consisten en comparar simultáneamente los datos observados en más de 2 grupos poblacionales (por ejemplo: establecer diferencias entre la tasa media de colesterol en 3 grupos cada uno con otras tantas dietas distintas).

Tercer criterio: apareamiento de los grupos.

Cuando estemos trabajando con 2 o más muestras, éstas se pueden seleccionar de dos formas:
- Muestras independientes: son las que se obtienen de 2 grupos de sujetos distintos, es decir, que a cada muestra le vamos a aplicar una situación experimental distinta (por ejemplo: comprobar si los valores de creatinina difieren entre un grupo estudio y uno control).
- Muestras dependientes o apareadas: se obtienen a partir del mismo grupo en distintas situaciones, o sea, que a cada individuo se le aplicarán los distintos hechos experimentales (por ejemplo: comprobar si las cifras de creatinina difieren en un mismo grupo en una medición inicial y a los 3 meses).

El test de la t de Student consiste en comparar las medias de dos grupos, distinguiendo si éstos son apareados o no.
Cuando tengamos que equiparar más de 2 medias se utilizará el análisis de la variancia (ANOVA), llamado así porque se basa en analizar las variabilidades existentes entre los grupos de estudio.
Estos 2 tests se aplican cuando se demuestre previamente que los datos de los distintos grupos se ajustan a distribuciones normales.
Además en el ANOVA también se verificará que las variancias de la variable son homogéneas en todos los grupos. Al igual que para la t de Student, en el ANOVA también podremos elegir el caso en que tengamos grupos independientes (ANOVA I) o apareados (ANOVA II).
En el supuesto de que no se verifiquen las condiciones anteriormente expuestas, existen tests equivalentes a los paramétricos que serían los de Mann-Withney y Wilcoxon (corresponden a la t de Student no apareada y apareada) y los tests de Kruskall-Wallis y Friedman que equivalen al ANOVA I y ANOVA II, respectivamente.
Si se quieren comparar porcentajes (variable cualitativa con sólo dos categorías) para muestras independientes se debería aplicar la ji-cuadrado. Si las muestras se toman de forma apareada se utilizará, por un lado, el test de McNemar para sólo 2 proporciones o porcentajes y, por otro, el test de Cochran, en caso de que sean más de 2 porcentajes.

Caso D

Por último, cuando las dos variables son cuantitativas se aplicarán técnicas de regresión y correlación.
La regresión consiste en encontrar una ecuación matemática (generalmente una recta) que relacione la variable dependiente con la independiente, de manera que a través de dicha ecuación se puedan efectuar predicciones para la variable dependiente.
La correlación es una forma de evaluar la fuerza lineal de esa relación, oscilando ese coeficiente entre ±1 (correlación máxima en sentido positivo o negativo), siendo 0 en caso de que no haya asociación.
La regresión se desglosará en 3 tipos en función de la variable dependiente, ya que si ésta es cualitativa, cuantitativa o está basada en mediciones temporales, tendremos una técnica u otra.
Para la aplicación de estas técnicas, también ocurre como en el caso C, es decir, las variables deben cumplir unas premisas previas. Aquí es que la variable dependiente tenga un comportamiento lineal respecto a la independiente. Además en el cálculo del coeficiente de correlación se verá el criterio de parametricidad; en el caso paramétrico se utilizará el coeficiente de correlación de Person y en el no paramétrico los coeficientes de Spearman o Kendall.

Resumen de técnicas estadísticas a utilizar.

Variable Indep. Cualitat Indep. Cuantitat

Dep. Cualitat

Caso A.
Chi-cuadrado
Caso B.
Aplicar Caso A o D

Dep. Cuantitat

Caso C.
t-student-ANOVA
Caso D.
Correlación y Regresión


Caso A.-

Determinar si la proporción de enfermos que experimentan mejoría es la misma con los ttos A o B.
Variable dependiente cualitativa: mejoría o no mejoría.
Variable independiente cualitativa: tto A o tto B.

Caso B.-

Comprobar si el experimentar mejoría o no está asociado a determinados parámetros hormonales.
Variable dependiente cualitativa: mejoría o no mejoría.
Variable independiente cuantitativa: parámetros hormonales (hormonas tiroideas).

Caso C.-

Verificar si las cifras de creatinina son iguales en 3 grupos de sujetos a los que le hemos aplicado 3 fármacos distintos.
Variable dependiente cuantitativa: creatinina.
Variable independiente cualitativa: fármaco administrado.

Caso D.-

Determinar si el valor de colesterol de los sujetos se puede predecir en función de la edad de los sujetos.
Variable dependiente cuantitativa: colesterol.
Variable independiente cuantitativa: edad.

 

 José A. Lomeña Villalobos

7/05/2001