CALCULO DEL TAMAÑO DE LA MUESTRA EN PSIQUIATRIA Y ...

Médico-Psiquiatra. Profesor Asistente . Departamento de Psiquiatría y Salud Mental y Unidad de. Epidemiología Clínica y Bioestadística. Pontificia Universidad ...
80KB Größe 26 Downloads 44 vistas
Tamaño de la muestra

CALCULO DEL TAMAÑO DE LA MUESTRA EN PSIQUIATRIA Y SALUD MENTAL (principios básicos para su estimación) Carlos Gómez Restrepo1. Ricardo Sánchez Pedraza 2 . El presente trabajo tiene por objeto repasar los conceptos subyacentes al cálculo del tamaño de la muestra necesarios en la etapa de planeación de cualquier estudio en Psiquiatría y Medicina. Se revisan conceptos tales como el de error tipo I o alfa, error tipo II o beta , poder del estudio, variabilidad de los resultados y diferencias estadística y clínicamente significativas. Estos son los elementos básicos a utilizar en las fórmulas que ayudan a establecer el número de pacientes necesarios en un estudio. Palabras clave: Cálculo, Tamaño de muestra This work deals with concepts related with sample size estimation that are necessarywhen planing any study in Psychiatry or Medicine. Concepts such as type I error or alpha error, type II error or beta error, Power, variability and clinical and statistical significative differences are revised. These elements are needed to apply statistical formulas useful to determine the number of patients needed in a study. Key words: Estimation, Sample size

INTRODUCCION Una vez el investigador ha definido qué pregunta desea responder y cómo lo va hacer, surge el cuestionamiento acerca del tamaño de la muestra. ¿Cuántos pacientes se requieren para el estudio?, ¿Cuál sería el número mínimo de pacientes con los cuales podría llegar a conclusiones válidas?, ¿Cómo se calcula el tamaño de la muestra?, ¿en qué consiste el poder y el nivel de significancia de un estudio?, ¿Qué diferencia habría entre 12, 25 o más pacientes en cada grupo?, ¿Qué ocurre si se sobreestima la muestra?, ¿Cuánto tiempo puede durar el estudio de acuerdo con la muestra calculada?, ¿Es factible el estudio dada la cantidad de pacientes requeridos? Estas y otras preguntas son a menudo un obstáculo para colegas interesados en la investigación o en evaluar de una manera más responsable y adecuada la literatura y la evidencia clínica disponible. 1 2

Médico-Psiquiatra. Profesor Asistente . Departamento de Psiquiatría y Salud Mental y Unidad de Epidemiología Clínica y Bioestadística. Pontificia Universidad Javeriana. Médico-Psiquiatra . Profesor Asociado. Departamento de Psiquiatría y Centro de Epidemiología Clínica. Universidad Nacional de Colombia.

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.

131

Gómez C. y Sánchez R.

Desde hace algunos años los editores de revistas médicas internacionales, y en ciertos casos nacionales, exigen a los autores de un determinado artículo que expliquen con mayor detenimiento los lineamientos metodológicos utilizados y la forma en que se realizó el muestreo y el cálculo del tamaño de la muestra. Este cambio de actitud, que en un principio se pudo haber calificado como sorprendente, persecutorio o inclusive innecesario, obedeció a las pruebas cada vez más concluyentes de parte de la Epidemiología Clínica, de la Epidemiología General y de otras especialidades médicas, de la necesidad de garantizar que estudios rigurosamente planeados y realizados no fallaran en encontrar diferencias significativas debido a tamaños de muestra insuficientes. En esta línea se ha demostrado que múltiples experimentos clínicos controlados han errado en encontrar diferencias entre grupos por falta de muestras lo suficientemente grandes que permitan discriminar entre determinadas características(1). Este detalle, que podría sonar para algunos como una minucia epidemiológica, tiene consecuencias éticas de gran relevancia. Sí por ejemplo, estamos probando una nueva droga que fuera útil para la Esquizofrenia Desorganizada, para la cual no existe un tratamiento del todo exitoso y por falta de una muestra suficientemente grande concluyéramos que este medicamento no es diferente del placebo, esta droga útil sería descartada del mercado y perderíamos una opción terapéutica para estos pacientes. Por otro lado, si existe un extracto floral que en realidad no tiene ninguna utilidad para pacientes esquizofrénicos y lo comparamos con un antipsicótico tradicional, podemos llegar a la falsa conclusión de que es un tratamiento adecuado, debido a que una muestra muy pequeña me permite detectar diferencias con el tratamiento convencional. Para el adecuado cálculo del tamaño de la muestra se requieren algunos conceptos fundamentales que facilitan aproximarse a la lógica y a la mecánica del procedimiento (2,3,4). Los autores consideran que el objetivo de un escrito sobre este tema no debe ser el presentar una o más formulas mágicas que permitan estimar muestras para proporciones, medias, validación de escalas, evaluación de pruebas diagnósticas u otros procedimientos estadísticos. Lo fundamental es conocer los conceptos subyacentes al procedimiento con el fin de saber qué es lo que se busca, qué diferencias clínicamente relevantes se espera encontrar y finalmente cuál es el procedimiento matemático más adecuado para la aproximación al tamaño de muestra requerido. En otras palabras, más importante que la fórmula, es conocer los aspectos que determinan las diferencias en el tamaño de la muestra para el estudio que se realizará. De no ser así, un estudio bien concebido alrededor de una hipótesis de gran interés en nuestra área, podría venirse abajo por no tener en cuenta los tópicos que se describirán posteriormente. Todo libro o artículo que trate sobre el tema del cálculo del tamaño de la muestra tiene como base los siguientes conceptos : - Error Tipo I o Alfa. - Error Tipo II o Beta. - Poder. 132

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.

Tamaño de la muestra

- Variabilidad. - Diferencia clínica y estadísticamente significativa. El presente trabajo no pretende agotar el tema sino dar las bases para que el lector pueda profundizar en esta área, sugiriendo a los intesados alguna bibliografía de profundización. (5 ,6 ,7 ,8). CONCEPTOS BASICOS Siempre que un investigador inicia un estudio debe tener una pregunta bien establecida de la cual deriven hipótesis susceptibles de ser rebatidas o confirmadas. Por ejemplo, un investigador se plantea la siguiente pregunta: ¿Entre la psicoterapia cognoscitiva y la psicoterapia de orientación dinámica, cuál es más efectiva para el tratamiento a mediano plazo (1 año) de pacientes con Trastorno Hipocondríaco? A partir de esta pregunta se puede postular una hipótesis de trabajo en términos que se pueda rebatir, lo cual equivale a lo que conocemos en el lenguaje médico y estadístico como Hipótesis Nula. Esta podría plantearse así: Ho: “No hay diferencias en la eficacia de la psicoterapia cognoscitiva y la de orientación dinámica para el tratamiento a mediano plazo del Trastorno Hipocondríaco”. A su vez la Hipótesis Alternativa, que aceptaríamos en caso de rechazar la nula, podría ser planteada de las siguientes forma: H1: “La psicoterapia cognoscitiva es más eficaz que la psicoterapia de orientación dinámica para el tratamiento a mediano plazo del Trastorno Hipocondríaco” H2: “La psicoterapia de orientación dinámica es más eficaz que la psicoterapia cognoscitiva para el tratamiento a mediano plazo del Trastorno Hipocondríaco” H3: “Existen diferencias significativas entre la eficacia de la psicoterapia cognoscitiva y la psicoterapia de orientación dinámica para el tratamiento a mediano plazo del Trastorno Hipocondríaco”. De acuerdo con esto podemos construir una tabla que nos represente todas las opciones, teniendo en cuenta que existe una verdad absoluta a la cual cada estudio intenta aproximarse con mayor o menor éxito (Tabla 1). En la tabla podemos observar que tomamos la decisión correcta cuando los resultados del estudio corresponden a la verdad en la población. En caso contrario incurriríamos en errores, que son precisamente, los que intentamos minimizar cuando calculamos correctamente el tamaño de muestra. Estos conceptos se describen a continuación: 1 - Error Tipo I, o Falso Positivo, o Error Tipo

Alfa Alfa:

Refiriéndonos al ejemplo citado, supongamos que en realidad la terapia cognoscitiva es tan efectiva como la de corte dinámico en el tratamiento del Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.

133

Gómez C. y Sánchez R.

Tabla 1 RESULTADOS POSIBLES EN UN ESTUDIO VERD AD EN LA POBLACIÖN

RESULTADOS DEL ESTUDIO

HIPOTESIS NULA CORRECTA ( X=Y)

HIPOTESIS ALTERNA CORRECTA (X¹Y)

HIPOTESIS NULA CORRECTA ( X=Y)

Verdadero Negativo

Error Tipo II o Falso Negativo o Beta

HIPOTESIS ALTERNA CORRECTA (X¹Y)

Error Tipo I o Falso Positivo o Alfa

Verdadero Positivo

Trastorno Hipocondríaco, pero que en el estudio concluimos que la primera es más efectiva que la de corte dinámico. Esto quiere decir que rechazamos la hipótesis nula de no diferencias entre las dos terapias (que es la verdad) y aceptamos erróneamente la hipótesis alternativa que establece una mayor efectividad para la terapia cognoscitiva en el manejo del Trastorno Hipocondríaco. En este caso estamos incurriendo en lo que se denomina un Error tipo I. Se concluye falsamente que una terapia es mejor que la otra cuando en realidad no lo es. Ahora, este error que medimos a través del nivel Alfa o del nivel de significación P puede ser, de acuerdo con el estudio, más o menos indeseable. Por ejemplo, si tenemos un medicamento X que es tan eficaz para el tratamiento de la Esquizofrenia Indiferenciada como los fármacos ya disponibles, pero que es costoso o posee algún potencial de efectos secundarios serios y por error decimos que es mejor que los otros (se rechaza equivocadamente la hipótesis nula de no diferencias), se podría estar aconsejando un medicamento que incrementa gastos y otros problemas al paciente, lo cual a todas luces resulta indeseable. Como se mencionó, el Error Tipo I ha sido medido con el nivel alfa o nivel de significación P que se define como la probabilidad, habitualmente menor del 5 %, de obtener un resultado tan extremo o más que el encontrado por azar. Dicho de otra forma, la probabilidad de encontrar el resultado del estudio por azar es tan pequeña (menor del 5%) que se puede asumir que esta diferencia es debida a la intervención o al tratamiento realizado. Tradicionalmente y por consenso, en la literatura biomédica el nivel de P, o nivel de significación, o alfa se ha establecido en el 5 % y ningún resultado por encima de este nivel es aceptado como positivo, por el riesgo de incurrir en Error de Tipo I. Este nivel del 5 % (p< 0.05) sería aquel por debajo del cual se rechazaría la hipótesis nula de no diferencias entre grupos. Por otra parte, para estudios con comparaciones múltiples, se ha establecido que la realización de pruebas estadísticas repetidas lleva a que por simple azar alguna de ellas sea 134

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.

Tamaño de la muestra

positiva. Por tal razón hay una tendencia cada vez mayor a disminuir el valor de p a nivel de p< 0.001 (1 %) (9). Para reducir el Error Tipo I se requiere incrementar el tamaño de la muestra, cuestión que implica un costo adicional para el investigador. De esta forma, una sencilla regla es que a menor Alfa o p se incrementa el número de sujetos requeridos para el estudio. 2- Error Tipo II, o Falso Negativo, o Error Tipo Beta: Como se planteó anteriormente, resulta inconveniente concluir que hay diferencias estadísticamente significativas cuando en realidad no las hay. Sin embargo lo contrario también es cierto. ¿Qué ocurriría si teniendo un tratamiento altamente efectivo para el manejo de Trastornos Fóbicos específicos concluyéramos que no es diferente o que es equivalente a otros tratamientos convencionales? Este es el que llamamos Error Tipo II o Beta que simplemente significa que falsamente aceptamos la Hipótesis Nula y descartamos la Hipótesis Alterna cuando realmente existen diferencias entre los grupos. Esta situación traería, como es obvio, consecuencias éticas evidentes. Podemos definir el error tipo Beta como la máxima probabilidad que se esta dispuesto a arriesgar por un resultado falso negativo. Al igual que con el Alfa, se ha establecido un nivel máximo de Beta tolerable, que de acuerdo con la comunidad científica es del 0.20 (20 % ). Dicho de otra manera, es bueno desconfiar de todo estudio que nos sugiera una probabilidad mayor del 20 % de que sus resultados sean falsos negativos. Por otra parte, y al igual que con el Error Tipo I, en la medida en que deseemos disminuir la posibilidad de error de falsos negativos, por ejemplo, un Beta del 10 % (0.1) en lugar del 20% (0.2), se requiere un tamaño de muestra mayor. Es el precio por disminuir el margen de error y tener así mayor certeza en los resultados. 3- Poder

del Estudio:

Intimamente ligado al concepto de Error Tipo II esta el de Poder de un estudio que matemáticamente lo podríamos definir como: Poder = 1 - Beta Como puede verse, el Poder depende enteramente del nivel de Beta fijado por el investigador. Teniendo en cuenta un máximo tolerable del 20% (0.2), se tendrá un poder del 80% (0.80). La anterior fórmula también permite apreciar que al disminuir el Error Tipo II se aumentará el Poder del estudio para detectar diferencias. Otra forma de interpretar el Poder o Sensibilidad es considerarlo como la capacidad del estudio para detectar diferencias significativas entre los grupos, sí es que estas existen. Por ejemplo, un estudio con un poder del 80% tiene una probabilidad de 0.8 de detectar diferencias sí las hay. Ahora, si deseamos tener un poder mayor (0.9, 0.95, etc.) se requerirían muestras de un tamaño superior. Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.

135

Gómez C. y Sánchez R.

Algunos autores (10 ,11 ,12) sugieren la importancia de determinar como no conclusivos aquellos trabajos o estudios que no hubiesen podido rechazar la hipótesis nula y que tengan un poder menor del 60%. En esta línea Freiman, Chalmers y Colaboradores (1) reportan que 50 de 71 ensayos clínicos controlados publicados en el New England Journal of Medicine carecían del poder suficiente para detectar amplias diferencias entre grupos. Lo anterior nos obliga a pensar en el concepto de poder del estudio cada vez que se deban tomar decisiones clínicas basadas en artículos o publicaciones médicas. 4- Variabilidad: Esta se refiere a la dispersión de los datos que se esperan encontrar. Estadísticamente se representa por la varianza y su raíz cuadrada (desviación estándar). A menor dispersión de los resultados, será más fácil diferenciar un grupo de otro, puesto que cada uno conformará conglomerados alrededor del promedio y así no se confundirán los hallazgos de un grupo y del otro. Estadísticamente se ha comprobado que al incrementar el número de sujetos, los resultados tienden a agruparse con mayor probabilidad alrededor del promedio y a variar cada vez menos. A la inversa, con pocos sujetos, las mediciones tienden a variar más y por lo tanto a confundirse, más fácilmente, con las mediciones del otro grupo. De esta forma podemos concluir que a mayor variabilidad esperada de los resultados se requerirá de un mayor tamaño de muestra que lleve a discriminar los grupos participantes y evidenciar las diferencias entre estos. Por otro lado, si se espera un desenlace con escasa variación, la muestra requerida tenderá a ser menor. 5- Diferencias estadística y clínicamente significativas: Tradicionalmente se nos ha enseñado la importancia de hallar una diferencia estadísticamente significativa y es así como muchos colegas se enorgullecen diciendo que los resultados de su estudio lo son. Habremos oído o leído repetidamente que se da un gran valor a un hallazgo que resulte significativo a un nivel de p menor al 5 o 1% (p< 0.05 ó 0.01). Tabla 2 RESULTADOS: ESTUDIO COMPARATIVO DE DOS ANTIDEPRESIVOS PARA EL MANEJO DE LA DEPRESIÓN MAYOR Puntajes de depresión-escala de Hamilton para depresión

Tratamiento antidepresivo A

Nivel Basal - HAM-D

28

Nivel Final - HAM-D

Tratamiento antidepresivo B

28

10

8

N = 130 pacientes en cada Grupo

136

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.

Tamaño de la muestra

Antes de discutir estas afirmaciones, sería útil comentar un estudio que comparaba la eficacia de dos antidepresivos para el tratamiento de la Depresión Mayor y cuyo desenlace fue medido a través de los puntajes obtenidos en la Escala de Hamilton para depresión arrojando los resultados que se presentan en la Tabla 2: El estudio informaba diferencias estadísticamente significativas (p< 0.05) que favorecían la terapia con el antidepresivo B, a partir de lo cual concluyeron los autores que se debería utilizar este medicamento como tratamiento de elección. En este punto vemos que ciertamente ambos antidepresivos fueron útiles para reducir los puntajes en la Escala de Hamilton (de 28 a 10 y de 28 a 8). Sin embargo se podría plantear: ¿es relevante clínicamente una diferencia de 2 puntos (10 vs 8) en el HAM-D? Posiblemente la mayoría de colegas responderán que no. Con este ejemplo se quiere ilustrar que no siempre lo que es estadísticamente significativo tiene importancia clínica. No obstante, toda diferencia que sea clínicamente relevante lo debe ser desde el punto de vista del análisis estadístico. Si complicamos un tanto el ejemplo y agregamos que la droga A tiene un costo 3 veces menor que la droga B, ¿Cuál se recetaría?. Con lo anterior se intenta demostrar que para el cálculo del tamaño de la muestra se debe conocer de antemano, no sólo el valor de la diferencia que estadísticamente consideremos significativa y que está fijada por el alfa o valor de p en 1 o 5 %, sino la diferencia que se espera encontrar entre los grupos, también relevante clínicamente. Así, en el ejemplo anterior, dado el costo diferencial de las drogas (mayor 3 veces para el medicamento B), se podría suponer que una diferencia de menos de 7 a 10 puntos a favor del tratamiento B no sería clínicamente importante. Esta última (mínima diferencia clínicamente significativa ) es determinada por el investigador o por el consenso que exista en la literatura médica en ese momento, consideración que, obviamente, repercute en el tamaño de la muestra escogida. En resumen, cuando deseamos detectar diferencias grandes entre grupos se necesitan pocos pacientes o muestras pequeñas y si se desea detectar diferencias pequeñas se requieren muestras grandes. PROCEDIMIENTOS BÁSICOS PARA CALCULAR EL TAMAÑO DE LA MUESTRA El proceso de selección de una muestra se basa en dos aspectos: 1. Se desea conocer alguna característica de una población y el tamaño de esa población es tan grande que resulta muy difícil hacer la medición en cada uno de los miembros de ella. 2. Trabajar con una muestra puede tener una buena aproximación a la característica de la población que se quiere conocer, con la ventaja de ahorrar tiempo y recursos. Por ejemplo, si el propósito es conocer la estatura promedio de los colombianos, se pueden hacer dos cosas: Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.

137

Gómez C. y Sánchez R.

1. Tomar la estatura de todos y cada uno de los colombianos y calcular el valor promedio. 2. Tomar una muestra de colombianos y calcular el valor promedio de esa muestra. El valor encontrado en el primer caso es el valor real y se denomina Parámetro . En el segundo caso tendremos un valor aproximado al valor real que se denomina Estimador Estimador. En la notación utilizada en publicaciones sobre estos temas los Parámetros se representan con letras griegas y los Estimadores con letras latinas. En el ejemplo que se vinen manejando el valor real del promedio de estatura de los colombianos se denota como m y el valor que arroja la muestra, es decir el Estimador, se denota como x. Vemos que en muchos casos obtener el verdadero valor de una población (Parámetro) es prácticamente imposible debido a lo difícil que resulta hacer la medición en un número muy grande de personas. Por esta razón se debe trabajar con una muestra que permita obtener un Estimador lo más cercano posible al Parámetro. Para lograrlo se deben dar dos condiciones: 1. Asegurar un adecuado proceso de muestreo: Los resultados del proceso de muestreo serán válidos sólo si se parte de la certeza de contar con una muestra que satisfaga las condiciones exigidas por la inferencia (13). Por ejemplo, si en una muestra se incluye únicamente los habitantes de Neiva, o exclusivamente mujeres, no se obtendrá un buen Estimador del Parámetro. 2. Obtener un buen tamaño de muestra: Entre mayor el número de sujetos seleccionados más cerca estará el Estimador del Parámetro. La clave en esta situación es obtener un número suficientemente grande de casos de manera que se logre un satisfactorio nivel de precisión. El obtener un buen Estimador permite sacar conclusiones que sean aplicables a toda la población de la cual se obtuvo la muestra. Los estudios en los cuales se maneja este propósito se pueden enmarcar dentro de dos categorías: 1. Estudios para estimar alguna característica de la población: Por ejemplo conocer el porcentaje de personas esquizofrénicas que hay en Bogotá (estimación de una proporción) o la edad promedio de inicio del primer episodio depresivo en los habitantes de Cali (estimación de una media). 2. Estudios para evaluar diferencias: Es el caso de un estudio que busca diferencias en los puntajes promedio de una escala de depresión luego de administrar un tratamiento farmacológico (diferencia de medias), o de un estudio que pretende evaluar cambios en la prevalencia de hechos violentos después de aplicar un programa educativo en las escuelas de una ciudad (diferencia de proporciones). Con base en lo anterior se plantearán las estrategias elementales para el cálculo del tamaño de la muestra en estas dos situaciones (14) : 138

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.

Tamaño de la muestra

1 . Estudios de esti mación de características poblacionales estimación poblacionales: Los Estimadores de estas características deben tener un determinado nivel de precisión. Esta precisión se mide con los intervalos de confianza: entre más estrecho el intervalo, mayor será la precisión. Un intervalo de confianza del 95% entre «x» y «y» quiere decir que si se repite el procedimiento de selección de muestra y de medición 100 veces, en 95 oportunidades el verdadero valor se encontrará entre las cantidades «x» y «y». 1.1. Estimación de un promedio: para calcular el tamaño de la muestra en esta circunstancia se necesita conocer: 1.1.1 La amplitud del intervalo de confianza (∆). 1.1.2. Un estimativo de la desviación estándar de las observaciones (S) 1.1.3. El nivel de confianza (100 (1-α )%). Generalmente se establece en el 95 ó 99 %. 1.1.4. Los valores de f (1-α): son valores constantes que, dependiendo del nivel de confianza se establecen en: Para el 90% de nivel de confianza 2,706. Para el 95% de nivel de confianza 3,842. Para el 99% de nivel de confianza 6,635. La fórmula utilizada para el cálculo respectivo es:

n=S 2/∆2 f (1-α) Como ejemplo para ilustrar este cálculo, supongamos que se ha diseñado un estudio en el cual se pretende determinar la edad promedio de los consumidores de basuco en un sector de Bogotá. Se desea que el estimativo del promedio tenga una probabilidad del 95% de estar 3 años por encima o por debajo del verdadero valor. Con estos datos efectuamos los siguientes cálculos:

n=152 /32 x 3,842= 225/9 3,842= 96 para este estudio se necesita una muestra de 96 habitantes del sector. 1.2. Estimación de una proporción (15)) : para este cálculo se necesita conocer: 1.2.1 La amplitud del intervalo de confianza (∆). 1.2.2 Un estimativo de la desviación estándar de las observaciones (S) 1.2.3 El nivel de confianza (100 (1-α )%). Generalmente se establece en el 95 ó 99 %. 1.2.4 Los valores de f (1-α ) mencionados previamente. La fórmula utilizada es la siguiente:

n= P(100-P)/∆2 f(1-α) Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.

139

Gómez C. y Sánchez R.

A manera de ejemplo, supongamos que se desea conocer la proporción de fumadores en el grupo de estudiantes que ingresan a primer semestre en una universidad. Se cree que el estimativo de esa proporción será de aproximadamente 30% y se espera que el resultado tenga una probabilidad del 95% de estar 4% por encima o por debajo del verdadero valor. Con estos datos se realizan los siguientes cálculos:

n=30(100-30)/4 2 x 3,842= 2100/16 x 3,842= 504 Se necesita una muestra de 504 estudiantes. 2 . Estudios para evaluar diferencias diferencias: 2.1. Diferencia entre medias: los datos que se necesitan para el cálculo son: 2.1.1 El tamaño de la diferencia que clínicamente me interesa (∆) 2.1.2 Un estimativo de la desviación estándar de las observaciones (S). 2.1.3 Un nivel de significación o de error tipo I aceptable (generalmente 0.05 ó 0.01). 2.1.4 Definir si se pretende establecer diferencia en cualquier sentido, es decir que no interesa si un promedio es mayor que otro siempre y cuando sean diferentes (Hipótesis a dos colas), o probar una diferencia en un solo sentido, es decir que se está interesado en demostrar que uno de los promedios es mayor que el otro (hipótesis a una cola). 2.1.5 El poder requerido, usualmente 80%. Con los elementos anteriores se aplica la siguente fórmula:

n=2S 2/∆2 f (α-β) Los valores f(α,β) se toman de la siguiente tabla (16) : Nivel de significación alfa Una cola

Dos colas

Poder, 1 - β 0.05

0.01

0.05

0.01

0.8

6.18

10.04

7.85

11.68

0.9

8.56

13.02

10.51

14.88

Por ejemplo, se desea evaluar si una intervención educativa puede mejorar en 5 puntos el CI de niños de escuelas distritales de Bogotá y se tiene el dato que la desviación estándar del CI en niños de esas características es 10, y lo que se pretende evaluar, es si el CI es mayor después de la intervención educativa, se tiene una hipótesis a una cola. Usando un nivel de significación del 0.05% y un poder del 80%, los cálculos son los siguientes: n= 2 X 102/ 52 X6,18=50 140

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.

Tamaño de la muestra

Se requieren 50 niños para hacer el estudio. 2.2. Diferencia entre proporciones: los datos que que requieren para el cálculo son: 2.2.1 Un estimativo de la proporción en cada uno de los grupos (P1 y P2). 2.2.2 El nivel de significación o de error tipo I aceptable (generalmente 0.05 ó 0.01). 2.2.3 Definir si se propone establecer diferencia en cualquier sentido, es decir que no interesa si una proporción es mayor que la otra, siempre y cuando sean diferentes (Hipótesis a dos colas) o interesa probar una diferencia en un solo sentido, es decir, se pretende demostrar, por ejemplo, que una de las proporciones es mayor que la otra (hipótesis a una cola). 2.2.4 El poder requerido, usualmente 80%. Con estos datos se utiliza la siguiente fórmula:

n= P1(100-P1)+P2(100-P2)/(P1-P2)2 X f(α,β) Se quiere evaluar un programa psicoeducativo para mejorar la adherencia al tratamiento en pacientes deprimidos. Calculando que la no adherencia pueda reducirse de un 40 a un 35%, se establece una hipótesis a dos colas (también se espera detectar si el programa produce un efecto paradójico), y se determina un nivel de significación del 0.005, con un poder del 0.9. Los cálculos son los siguientes:

n= (40X60)+(35X65)/52 X 7,85+ 1.468 En este caso se necesita un número de pacientes muy grande (1.468), por lo cual es necesario buscar estrategias que reduzcan el tamaño de la muestra. Lo más sencillo seria aumentar el tamaño de la diferencia que se busca, aceptando una disminución del 10%, el tamaño de la muestra resultante será de 353 pacientes. Los métodos aquí presentados corresponden a las técnicas básicas aplicadas a diseños de investigación elementales. Existen métodos más precisos y aplicaciones específicas para diseños metodológicos particulares, que sobrepasan la intención del presente escrito pero que pueden ser utilizadas sin dificultad cuando se conocen los principios básicos enunciados en este texto (17,18,19) . Puede agilizarse, e incluso obviarse, los cálculos respectivos utilizando programas de computación, dentro de los cuales uno de los más ampliamente difundidos, por su disponibilidad y facilidad, es Epiinfo Epiinfo. Este programa puede descargarse sin ningún costo desde la dirección http://www.cdc.gov/ epo/epi/downepi6.htm. También existe una versión española del programa que se puede obtenerser sin ningún costo en la dirección http://www.cica.es/ aliens/sveacsa/epiinfo.htm. El programa dispone de varios módulos para calcular tamaños de muestras tales como Statcalc (permite hacer cálculos para encuestas poblacionales, para estudios transversales, de cohortes y de Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.

141

Gómez C. y Sánchez R.

casos y controles no apareados), Epitable (dispone de comandos para calcular tamaño y poder de muestras) y CSample.

REFERENCIAS 1

Freiman JA, Chalmers TC y Cols. The importance of Beta, the type II errors and the sample size in the design and interpretation of the randomized controlled trial. N Engl J Med 1978; 299: 690-4, .

2

Dupont WD. y Plummer WD. Power and Sample Calculations: A Review and a Computer Program. Controlled Clinical Trials 1990; 11:116-128.

3

Browner WS. Newman TB y Cols. Getting Ready to Estimate Sample Size:Hypothesis and Underlying Principles. En: Hulley, Stephen y Cummings, Steven R. Designing Clinical Research. Baltimore: Williams y Wilkins, 1988; Pp.128 -138.

4

Lachin JM. Introduction to Sampole Size determination and Power Analysis for Clinical Trials. Controlled Clin Trials 1981; 2: 93-114,

5

Ingelfinger JA, Mosteller F, Thibodeau LA y Col. Biostatistics in Clinical Medicine. New York: Macmillan Publishing Co. Inc.,1983.

6

Kelsey Jl, Thompson W D y Evans A S. Methods in Observational Epidemiology. New York: Oxford University Press, 1986.

7

Schlesselman JJ. Case Control Srtudies.New York: Oxford University Press, 1982.

8

Rosner B. Fundamentals of Biostatistics.Belmont: Duxburry Press, 1990.

9

Dennis R. Como estimar el Tamaño de Muestra necesario en Investigaciones Humanas. Unidad de Epidemiología Clínica. Pontificia Universidad Javeriana.

10

Henneckens C H y Mayrent S L. Epidemiology in Medicine. Boston: Little, Brown and Company, 1987.

11

Guyatt GH, Sackett DL. y Cols. User´s Guides to the Medical Literature: How to Use an article about Therapy or Prevention. Are the Results of the Study Valid. JAMA 1993; 270.(21): 2598-2601.

12

Guyatt GH, Sackett DL. y Cols. User´s Guides to the Medical Literature: How to Use an article about Therapy or Prevention. What were the Results and will they help me in Caring for my Patients? JAMA 1994: 271(1): 59-63.

13

Bautista L. Diseños de Muestreo Estadístico. Bogotá: U.N. de Colombia: 1998.

14

Machin D,Campbell M, Fayers P, Pinol A. Sample Size Tables for Clinical Studies. London: Blackwell Science, 1987.

15

Kahn HA, Sempos CT. Statistical Methods in Epidemiology. New York: Oxford University Press, 1989.

16

Dobson AJ. Calculating Sample Size. Transac. Menzies Found 1984; 7:75-79.

17

Schelesselman JJ. Sample Size Requirements in Cohort and Case-Control Studies of Disease. Am J Epidemiology 1974;99:381-384.

18

Donner A, Eliasziw M. Sample Size Requirements for Realibility Studies. Statistics in Medicine 1987; 6:441-448.

19

Connett JE,Smith JA, McHugh B. Sample Size and Power for Pair-Matched CaseControl Studies. Statistics in Medicine 1987;6:53-59.

142

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.