EVALUACIÓN DE IMPACTO DEL PROGRAMA DE SOPORTE PEDAGÓGICO DEL MINISTERIO DE EDUCACIÓN DEL PERÚ Marjorie Chinen y Juan Bonilla Mayo, 2017
1
EVALUACIÓN DE IMPACTO DEL PROGRAMA DE SOPORTE PEDAGÓGICO DEL MINISTERIO DE EDUCACIÓN DEL PERÚ*1 Documento Técnico Proyecto FORGE Autores: Marjorie Chinen12 y Juan Bonilla23 Mayo, 2017 El presente documento se realizó por encargo del Proyecto Fortalecimiento de la Gestión de la Educación en el Perú (FORGE) que es implementado por el Grupo de Análisis para el Desarrollo – GRADE con el apoyo técnico y inanciero del Gobierno de Canadá a través de Global Affairs Canada. (Proyecto Nº A-034597)
*
1
2
Los autores reconocen la contribución de muchas personas y organizaciones sin los cuales no hubiera sido posible concluir este informe. Nuestro sincero agradecim iento al Grupo de Análisis para el Desarrollo (GRADE) y al proyecto Fortalecimiento de la Gestión de la Educación en el Perú (FORGE) por el apoyo financiero y técnico. En especial queremos agradecer a Martín Benavides y Patricia Arregui. Asimismo, agradecemos al equipo de la Secretaría de Planificación Estratégica del Ministerio de Educación del Perú por sus comentarios y apoyo durante esta evaluación. Ofrecemos también un especial agradecimiento a Fabiola Cáceres y Andrea Salazar. Asimismo, queremos brindarle nuestro agradecimiento al equipo de Soporte Pedagógico por la información brindada para diseñar y entender la intervención. En especial a Vania Minami y a la ex directora de la Dirección General de Educación Básica Regular, Cecilia Ramírez. En AIR, también reconocemos las contribuciones de Álvaro Ballarin con la preparación de las bases de datos, y de Verónica Ruiz de Castilla por sus comentarios y revisión del informe. Autora correspondiente: Marjorie Chinen es investigadora Afiliada al Grupo de Análisis para el Desarrollo (GRADE),
[email protected]. Juan Bonilla es investigador senior en el American Institutes for Research (AIR).
2
LISTA DE ACRÓNIMOS
CITS
Comparative interrupted time series
DiD
Difference in difference o modelo en diferencias
ECE
Evaluación censal de estudiantes
FORGE
Fortalecimiento de la Gestión de la Educación en el Perú
GRADE
Grupo de Análisis para el Desarrollo
IEP
Programa de Educación Integrada
MINEDU
Ministerio de Educación del Perú
PSM
Propensity score matching
SP
Soporte Pedagógico
SPE
Secretaria de Planificación Estratégica
3
CONTENIDOS Resumen ejecutivo
5
1. Introducción
8
Marco conceptual Organización del documento 2. Descripción de Soporte Pedagógico
9 10 11
Teoría de cambio
14
Criterios de focalización de Soporte Pedagógico
16
3. Revisión de la literatura
18
4. Objetivos y preguntas de investigación
23
Objetivos del estudio
23
Preguntas de investigación
23
5. Metodología de la evaluación de impacto
24
Indicadores de impacto y fuentes de datos
24
Estrategia empírica
25
Modelo en diferencias y modelo Comparative Interrupted Time Series
25
Propensity Score Matching de escuelas
30
6. Resultados
42
Impacto en comprensión lectora y matemática
42
Impacto en los niveles de logro de la ECE
45
Análisis de robustez
48
Análisis de heterogeneidad por nivel de implementación
50
7. Discusión y recomendaciones
54
8. Consideraciones finales
57
Bibliografía
59
Apéndice A: Metodología
62
Apéndice B: Resultados del Método de Emparejamiento
64
4
se hicieron varias pruebas de robustez para determinar la estabilidad y consistencia de los efectos encontrados. Los resultados de este estudio sugieren que el programa de SP, después de poco menos de un año de imperfecta implementación, logró mejorar los resultados de rendimiento académico de los estudiantes intervenidos. Es decir, los estudiantes de segundo grado de primaria que fueron intervenidos obtuvieron puntajes más altos en matemática y comprensión lectora que sus contrapartes del grupo de comparación en la Evaluación Censal Escolar. El tamaño del efecto es de aproximadamente 0.1 desviaciones estándar para comprensión lectora, y de 0.09 desviaciones estándar para matemática. Los resultados también indican que Soporte Pedagógico tuvo un mayor impacto en aquellos estudiantes que se encontraban en el nivel de logro más bajo o nivel “en inicio” de las pruebas de la ECE; es decir, el programa parece estar ayudando más a aquellos estudiantes que tienen los puntajes más bajos de desempeño académico. El tamaño de estos efectos, si bien son modestos en términos absolutos, son estadísticamente significativos. Estos resultados son encontrados en un contexto en el que SP no logró implementarse con fidelidad y de acuerdo a lo planeado. Asimismo, cabe resaltar que el programa se implementó en un entorno muy heterogéneo: en 16 regiones y en escuelas polidocentes completas y urbanas, es decir, en las escuelas más grandes y por tanto complejas del país. Cuando comparamos los resultados de este estudio con otros estudios internacionales realizados en países de mediano y bajo ingreso, observamos que están en el rango encontrado en otros programas con componentes similares. Por ejemplo, en una revisión sistemática de la literatura realizada por el International Initiative for Impact Evaluation (Snilstveit et al., 2015) encontraron que el efecto promedio para intervenciones que desarrollan nuevos enfoques de enseñanza (mediante acompañamiento al docente, materiales instructivos y programación escolar) era de 0.23 desviaciones estándar en lenguaje y 0.14 desviaciones estándar en matemática. Además, este estudio reporta un efecto promedio similar a 0.04 en lenguaje, y 0.16 en matemática para intervenciones que intervienen en varios componentes educativos o “programas multinivel” (Snilstveit et al., 2015). Este estudio también investigó la heterogeneidad de los efectos encontrados al nivel de implementación de dos componentes del programa, tales como el porcentaje de docentes fortaleza y de acompañantes pedagógicos contratados antes de la primera mitad del año escolar. Específicamente, investigamos si el efecto de SP era mayor
6
en las unidades ejecutoras en donde más del 90 por ciento de dichas contrataciones se habían realizado antes de mediados del año escolar (o mes de julio de 2015). No obstante, no encontramos diferencias notables en comparación con los efectos obtenidos con toda la muestra. De igual modo, tampoco encontramos diferencias significativas al investigar los efectos del programa entre aquellas escuelas de unidades ejecutoras que a julio de 2015 habían implementado el programa al 100%. Es decir, aun cuando se restringió la muestra a las escuelas intervenidas con “alto” nivel de implementación (y sus escuelas emparejadas), el tamaño del efecto encontrado fue de aproximadamente 0.10 desviaciones estándar para comprensión y matemática, respectivamente. Estos efectos son muy similares a los obtenidos con toda la muestra analítica. Estos resultados se podrían explicar, en parte, por la poca variabilidad que existía en las escuelas intervenidas entorno a los dos indicadores “próximos” de implementación del programa. Pero también estos resultados podrían estar sugiriendo que la contratación del personal clave del programa es tan solo uno de los muchos componentes o pasos necesarios para implementar el programa con fidelidad. Por ejemplo, si bien el personal clave pudo haberse contratado a tiempo, tal vez no recibió suficiente capacitación para ejercer las labores del programa; o tal vez sí se dieron suficientes capacitaciones, pero los docentes necesitaban más práctica y retroalimentación para realizar su labor de acuerdo a lo planeado por la intervención.
7
INTRODUCCIÓN Este informe describe los resultados de la evaluación de impacto de la intervención de Soporte Pedagógico del Ministerio de Educación del Perú. Esta intervención tiene como objetivo mejorar la calidad del servicio educativo brindado en las escuelas polidocentes públicas de primaria para mejorar los niveles de aprendizaje de los estudiantes. Para lograr sus objetivos, Soporte Pedagógico interviene en cuatro áreas: a) Fortalecimiento de desempeños en docentes y directivos de las instituciones educativas, b) Refuerzo escolar, c) Materiales y recursos educativos y d) Articulación con la familia y la comunidad. Esta evaluación es un estudio de carácter cuasi-experimental que hace uso exclusivo de datos secundarios recogidos por el Ministerio de Educación. El estudio emplea los modelos de Comparative Interrupted Time Series y de Diferencia en Diferencias, en combinación con una estrategia de emparejamiento de escuelas para estimar el impacto de Soporte Pedagógico. La combinación de la técnica de emparejamiento con los modelos de CITS y DiD, y el uso de datos históricos y longitudinales, permitió incrementar la comparabilidad de los dos grupos antes de la introducción del programa. La comparabilidad entre los grupos de intervención y comparación fue lograda en términos de características observables y no observables que no cambian en el tiempo, dado que las mismas escuelas fueron analizadas y comparadas a través del tiempo. Asimismo, se logró la comparabilidad de los grupos no solo en los niveles medios de diferentes variables, sino también en las trayectorias (o pendientes) de rendimiento de los dos grupos. Como resultado, las estimaciones de impacto presentadas en este estudio se presumen no sesgadas de los efectos del programa de SP. No obstante, dado el carácter cuasi-experimental del estudio, se hicieron pruebas de robustez para determinar la estabilidad y consistencia de los efectos encontrados. Los resultados presentados en este informe se basan en datos anuales e históricos recogidos de las escuelas desde el año 2009 usando fuentes secundarias recogidas por el MINEDU como la Evaluación Censal Escolar y el Censo Escolar. Estas bases incluyen una serie de variables tales como el rendimiento académico de los estudiantes en matemática y comprensión lectora, datos de la escuela, de su infraestructura, de los materiales recibidos, entre otros. El Programa de SP comenzó las actividades de implementación en julio de 2014. Los datos de rendimiento que se levantaron después de iniciado el programa se recogieron en el mes de noviembre de 2014 y 2015. Tal como se detalla a continuación, esta evaluación encontró que el programa SP mejoró
8
los resultados de comprensión lectora y matemática de los estudiantes de segundo grado de primaria. Estos impactos son de un tamaño modesto pero estadísticamente significativo y en el rango de los efectos encontrados en otros programas educativos con componentes similares. Dado que la intervención de Soporte Pedagógico se evaluó tan solo después de poco menos de un año de su introdución en diferentes regiones y escuelas del Perú, concluimos que esta intervención tiene el potencial de mejorar los rendimientos de los estudiantes en el mediano plazo. No obstante, dada la complejidad de la intervención será importante que el MINEDU desarrolle mecanismos eficientes de monitoreo de las actividades del programa, y se establezcan procesos claros para poder actuar sobre las dificultades y desafíos que se encuentren en el camino, tanto en las escuelas como en las unidades ejecutoras.
Marco conceptual En el Perú, los niños y niñas que asisten a la escuela primaria se encuentran generalmente entre los 6 y 11 años. En 2014, el 93.2 por ciento de niños y niñas en esta franja de edades asiste a una escuela de educación primaria (UNICEF, 2014). A inicios del año 2015, este grupo era equivalente a 3 millones y medio de estudiantes distribuidos en diferentes ámbitos geográficos (urbano y rurales), instituciones educativas con diferentes número de docentes (polidocente completa, polidocente incompleta, o multigrado, y unidocente), modalidad (educación básica regular y básica especial) y tipo de gestión (pública de gestión directa, publica de gestión privada, y de gestión privada). Los estudiantes de primaria están distribuidos en seis grados, y la mayor proporción de estudiantes de primaria están matriculados en instituciones educativas polidocentes completas (77 por ciento). Según el Ministerio de Educación (2015a), en el Perú un 6.5 por ciento de los niños y niñas que están matriculados en la educación primaria asiste a un grado inferior al que le corresponde para su edad. Sin embargo, mientras que en las zonas urbanas el porcentaje de atraso escolar es 4.4 por ciento, los niños y niñas en zonas rurales tienen un atraso del 14.8 por ciento. Esta brecha también se manifiesta en la edad de culminación de primaria: un 88.3 por ciento de las niñas y niños termina la primaria entre los 12 y 13 años, comparado con un 68.6 por ciento en las zonas rurales. El atraso también es mucho mayor para estudiantes de lengua materna indígena: un 16.3 por ciento, frente a un 5.7 por ciento entre los estudiantes que tienen el español como lengua materna. Entre los niños que
9
tienen una lengua amazónica como primer idioma, el atraso está por encima del 20 por ciento. Asimismo, los resultados de la ECE en matemática y comprensión lectora muestran una mejora a través del tiempo, especialmente en el año 2014: si bien de 2012 a 2013 los resultados en compresión lectora y matemática aumentaron 2.1 y 4.1 puntos, de 2013 a 2014 estas mismas pruebas aumentaron 10.5 y 9.1 puntos porcentuales, respectivamente. Sin embargo, esto equivale a que en 2014 solo el 48.4 por ciento de los estudiantes de instituciones educativas polidocentes alcanzó el nivel más alto o satisfactorio1 de aprendizaje en comprensión lectora; y solo el 28,7 por ciento lo hizo en matemática (Resultados Evaluación Censal, 2014). En este contexto, el Ministerio de Educación del Perú, mediante la Dirección de Educación Primaria, implementó la intervención de Soporte Pedagógico con el objetivo de brindar apoyo técnico pedagógico a las instituciones educativas primarias polidocentes completas de zonas urbanas. La intervención espera movilizar estrategias metodológicas que garanticen la atención a la diversidad y el uso de las herramientas curriculares y pedagógicas de manera efectiva, y así mejorar la calidad de los aprendizajes y lograr que un mayor porcentaje de estudiantes alcance mejores resultados. El presente estudio tiene el objetivo principal de evaluar el impacto de Soporte Pedagógico sobre los niveles de logro de aprendizaje en las áreas de comprensión lectora y matemática de segundo grado de primaria.
Organización del documento El documento presenta a continuación la descripción del programa de Soporte Pedagógico (Capítulo 2), seguido por la revisión de la literatura (Capítulo 3), los objetivos y preguntas de investigación (Capítulo 4) y la metodología del estudio (Capítulo 5). El capítulo 6 presenta los resultados de este estudio y los análisis de robustez. Finalmente, este reporte concluye discutiendo los resultados de la evaluación de impacto en el Capítulo 7 y con algunas consideraciones finales en el Capítulo 8.
1 La prueba diseñada por la Oficina de la Medición de la Calidad de los Aprendizajes del MINEDU cuenta con 3 posibles niveles de logros de aprendizaje: en inicio (no lograron los aprendizajes esperados), en proceso (no lograron los aprendizajes esperados pero están en proceso de lograrlo) y satisfactorio (lograron los aprendizajes esperados).
10
2. DESCRIPCIÓN DE SOPORTE PEDAGÓGICO Soporte Pedagógico es una estrategia de apoyo integral a las instituciones educativas públicas polidocentes completas de educación primaria y de zonas urbanas. La intervención tiene como finalidad generar condiciones en el ámbito educativo que permitan disminuir el atraso escolar, y mejorar los niveles de aprendizaje en las áreas de comunicación, matemática, ciencia y ambiente, personal social. SP se define como una intervención que involucra un conjunto de actividades y procesos que fomentan la interacción entre los docentes, directivos, padres y madres de familia, y demás actores de la comunidad educativa para resolver problemas que incidan en la mejora de los aprendizajes de los estudiantes. Estas acciones han sido diseñadas en concordancia con los lineamientos de política curricular vigente y el marco del buen desempeño docente y del directivo. Específicamente, SP busca el logro de cuatro objetivos2 relacionados con los docentes, el equipo directivo, los padres de familia y la comunidad:
• Promover el adecuado desempeño pedagógico del docente que incida favorablemente en el desarrollo de las competencias de los estudiantes. • Fortalecer prácticas de liderazgo pedagógico para la gestión escolar por parte de los directivos; articulada a la mejora de los desempeños docentes y el desarrollo de competencias en los estudiantes. • Involucrar a los padres de familia en el acompañamiento y apoyo al proceso de aprendizaje de sus hijos e hijas. • Brindar a los estudiantes atención a través de las jornadas y encuentros con padres en relación con los aprendizajes logrados durante el grado. Para lograr dichos objetivos, Soporte Pedagógico cuenta con cuatro distintas líneas de intervención que involucran a los docentes y directivos, estudiantes, los padres de familia y los miembros de la comunidad. Las cuatro líneas de intervención son las siguientes:
2 De acuerdo a la RSG N° 007-2015-MINEDU.
11
1. Fortalecimiento de desempeños en docentes y directivos de la institución educativa Esta línea busca generar espacios formativos y de motivación, mediante los cuales se pueda fortalecer el desempeño profesional del docente y de los directivos, teniendo en cuenta los enfoques pedagógicos, las capacidades socio-afectivas, las estrategias de aprendizaje, los recursos educativos, evaluación, y la gestión de aprendizaje. Adicionalmente, esta línea promueve la coordinación y supervisión de los equipos directivos en las instituciones educativas, para que verifiquen y orienten el desarrollo adecuado de los procesos pedagógicos, y el uso oportuno de recursos empleados en el aula con el objetivo de mejorar los aprendizajes de los estudiantes. Estas actividades se desarrollan a través de: a) capacitaciones y talleres para docentes, los cuales buscan fortalecer el desempeño profesional de los docentes sobre la base de la identificación de necesidades pedagógicas, replicando las innovaciones y buenas prácticas pedagógicas; b) acompañamiento pedagógico, el cual consiste en el desarrollo de una secuencia de acciones que busca fortalecer las competencias pedagógicas de los docentes, y promover el logro de los aprendizajes; c) grupos de interaprendizaje, que son espacios de aprendizaje que buscan generar reflexión colectiva en la institución educativa. En estos grupos se busca plantear propuestas y alternativas para mejorar el desempeño docente y fortalecer las capacidades pedagógicas de los directivos en comunicación, matemática, ciencia y ambiente, y personal social; d) programas de actualización en didáctica para docentes, los cuales constan de al menos 400 horas lectivas que permiten una certificación progresiva y la obtención de un diploma de actualización; y e) asesoramiento virtual, el cual consiste en un servicio de consulta permanente en línea con el objetivo de asesorar sobre aspectos pedagógicos y de gestión. 2. Refuerzo escolar El refuerzo está dirigido a estudiantes de primero, segundo y tercer grado de primaria que muestran retraso para alcanzar el nivel de logro óptimo en matemática y/o comunicación de acuerdo al grado que cursan. Esta línea de intervención considera un conjunto de actividades y estrategias pedagógicas para desarrollar las competencias específicas que requieren mayor acompañamiento para ser alcanzadas. Las sesiones de aprendizaje tienen una duración de 60 minutos, y se ofrecen a grupos con un máximo de seis
12
estudiantes después del horario oficial de clase. La implementación de refuerzo escolar está a cargo del docente fortaleza, el cual debe realizar las siguientes actividades: a) coordinación para la implementación de la línea de acción con el director y docente de aula; b) la identificación de los estudiantes que necesitan mayor acompañamiento para el logro de las competencias en comunicación y matemática; c) evaluación a los estudiantes sobre las competencias reforzadas; y d) coordinación e información del nivel de avance de logros de los estudiantes en refuerzo escolar a directivos y docentes de la institución educativa. 3. Materiales y recursos educativos Los materiales y recursos educativos son paquetes didácticos y de ayuda a la labor pedagógica destinados a los docentes, directivos, estudiantes y padres de familia. Para los docentes, estos paquetes didácticos incluyen unidades y sesiones de aprendizaje, rutas de aprendizaje, y el kit de evaluación de segundo y cuarto grado. Para los estudiantes, estos materiales incluyen cuadernos de trabajo, textos escolares y kit de útiles escolares. Para el aula, estos materiales son entregados en la forma de bibliotecas de aula, material concreto de las áreas curriculares de comunicación, matemática, personal social y ciencia y ambiente. Finalmente, para los padres de familia, estos paquetes incluyen guía de padres de familia, fascículos y material concreto para orientar aprendizajes de los hijos e hijas.
4. Articulación con la familia y la comunidad Esta línea de acción tiene como objetivo promover la interacción de la comunidad y la familia en torno a actividades que generen condiciones para los aprendizajes deseados en los estudiantes. Para lograr estos objetivos se establecen las siguientes actividades: a) jornadas con padres y madres de familia. Son talleres lúdicos, reflexivos y de intercambio de experiencias donde se brindan estrategias y orientaciones para que los padres puedan acompañar los aprendizajes de sus hijos en situaciones cotidianas; b) encuentros familiares de aprendizaje. Son talleres dirigidos a todas las familias de primero, segundo y tercer grado de primaria en los cuales los padres de familia e hijos pueden compartir, divertirse y aprender; c) finalmente, esta línea de intervención involucra actividades que fomentan la participación comunitaria con el objetivo de establecer vínculos entre la escuela y la comunidad con miras a mejorar el logro de los aprendizajes en los estudiantes.
13
Teoría de cambio La evaluación de impacto está basada en la teoría de cambio de la intervención que presentamos en la Figura 1. La teoría de cambio resume de manera simplificada la secuencia lógica de eventos que en principio deberían ocurrir para que se logre el objetivo final de esta intervención, que es la mejora del rendimiento académico de los estudiantes. En primer lugar, la teoría de cambio presenta las condiciones iniciales, es decir, la situación educativa de los estudiantes de primaria de escuelas polidocentes completas de zonas urbanas que motivaron el surgimiento de la intervención. En segundo lugar se presentan las cuatro líneas que Soporte Pedagógico interviene directamente y describe brevemente cada una de esas líneas. Tercero, la teoría de cambio describe lo que comúnmente se denominan “outputs” o, en este caso, resultados de implementación, que representan la realización de las actividades de la intervención, es decir, las actividades que deberían ocurrir para que el programa se implemente con fidelidad. En cuarto lugar se presentan los resultados intermedios, o resultados que deberían ocurrir de acuerdo a esta intervención, para que mejoren el rendimiento académico y se reduzca el atraso escolar. En este caso, los resultados intermedios están relacionados a la mejora de las condiciones en el ámbito educativo. Finalmente, y en quinto lugar, la teoría de cambio presenta los resultados finales que esta intervención busca alcanzar.
14
15
• Las escuelas no tienen metas claras de aprendizaje
• El docente no tiene el soporte pedagógico necesario para mejorar los aprendizajes de los estudiantes
• Los estudiantes y escuelas no logran aprendizajes pertinentes y de calidad
• 37% de los estudiantes de escuelas polidocentes alcanzó nivel satisfactorio en comprensión lectora y 19% lo hizo en matemática (ECE 2013)
• Incidencia de atraso escolar en zonas urbanas es 13% y en zonas de extrema pobreza 35%
• 20% de los niños 6-11 años matriculados en primaria asiste a un grado inferior al que le corresponde
CONDICIONES INICIALES
CONTEXTO
4. Articulación con la familia y la comunidad • Jornadas con padres y madres de familia • Encuentros familiares de aprendizaje • Participación comunitaria
3.Materiales y recursos educativos • Distribución y uso de materiales educativos
2.Refuerzo escolar • Refuerzo escolar para estudiantes que no alcanzan aprendizajes esperados
1.Fortalecimiento de desempeños en docentes y directivos • Talleres y capacitación • Acompañamiento y monitoreo pedagógico • Grupos de interaprendizaje para docentes • Soporte virtual
ACTIVIDADES
• Se fomenta la participación comunitaria
4. Articulación con la familia y la comunidad • Se realizan jornadas y encuentros de aprendizaje con padres/madres de familia
3. Materiales y recursos educativos • Usuarios reciben y usan materiales y recursos educativos
2. Refuerzo escolar • Estudiantes con rendimiento bajo reciben refuerzo escolar
1. Fortalecimiento de desempeños en docentes y directivos • Docentes/directivos son capacitados • Docentes/directivos reciben acompañamiento pedagógico • Se establecen grupos de interaprendizaje • Docentes/directivos reciben soporte virtual
RESULTADOS DE IMPLEMENTACIÓN
IMPLEMENTACIÓN DEL PROGRAMA
• Padres adquieren mayor información sobre aspectos que conllevan a mejorar el aprendizaje de sus hijos
• Nuevas prácticas, materiales, y refuerzo escolar llevan que los estudiantes adquieran nuevas capacidades y tengan un comportamiento más conducente hacia el aprendizaje
• Docentes/directivos adquieren nuevos conocimientos y habilidades • Docentes mejoran prácticas pedagógicas • Equipo directivo promueve clima favorable
RESULTADOS INTERMEDIOS
Se reduce el atraso escolar
• Personal-social
• Ciencia y ambiente
• Matemática
• Comunicación integral
Mejoran los niveles de aprendizaje en:
RESULTADOS FINALES
RESULTADOS
Figura 1. Teoría de cambio de la intervención de Soporte Pedagógico
Criterios de focalización de Soporte Pedagógico Soporte Pedagógico inició actividades aproximadamente en julio de 2014. En este primer año, el programa se focalizó en escuelas primarias, públicas, polidocentes completas, y urbanas de 10 regiones del país. Estas escuelas fueron escogidas de manera que cumplan con la condición de haber participado en la Evaluación Censal de Estudiantes durante los años 2011, 2012 y 2013. Asimismo, se seleccionaron las regiones que mostraban una mejora continua en el resultado promedio de esos tres años (variación positiva en puntajes promedio), pero que todavía tenían una proporción moderada de alumnos en el nivel “no satisfactorio” que se encuentre en los siguientes rangos: que tengan aproximadamente entre 15% y 30% de los alumnos en el nivel “no satisfactorio” en comunicación, y entre 40% y 60% en matemática. Sin embargo, estos criterios no fueron exclusivos, y también se usaron otros criterios adicionales, de carácter político y administrativo, para asignar escuelas al programa. Por ejemplo, se agregó Lima Metropolitana por ser una región atípica y con alta concentración de estudiantes; se incorporó San Martín, dado que SP coincidía con el plan estratégico de la región; Huancavelica y Apurímac, por ser zonas con altos índices de pobreza; Loreto y Ucayali, por factores institucionales; y Piura, por factores políticos. En el segundo periodo o año 2015 se agregaron nuevas escuelas al programa en siete de las regiones intervenidas en 2014 (Apurímac, Ayacucho, Cusco, Cajamarca, Huancavelica, Lima Metropolitana, Loreto, Piura). Asimismo, se agregaron cuatro regiones: Ica, La Libertad, Lambayeque y Lima Provincias por ser regiones con alta población de estudiantes y docentes en zonas urbanas, y porque presentaban condiciones políticas favorables para la coordinación e implementación del programa.3 Finalmente, aproximadamente en agosto de 2015, se incorporó la UGEL de Islay del departamento de Arequipa a solicitud de esta región. Si bien el programa priorizó escuelas polidocentes completas, urbanas, públicas, también incorporó algunas escuelas rurales y polidocentes multigrado. En su gran mayoría estas escuelas fueron agregadas a solicitud de las mismas regiones y en reemplazo a otras escuelas propuestas inicialmente por el programa.4 En total, el número de escuelas intervenidas en 2015 asciende a 3,180. La Tabla 1 presenta la distribución del número de escuelas intervenidas por región y por año. De las 3,180 escuelas intervenidas, 3,006 (94.5%) correspondían a escuelas urbanas y 3 La región de Madre de Dios no estaba prevista inicialmente para formar parte del programa, pero fue incorporada a partir de una solicitud directa de la región. 4 De acuerdo a la base de focalización de Soporte Pedagógico, en 2014 se intervinieron 22 escuelas rurales, mientras que en 2015 se intervinieron 82 escuelas rurales.
16
polidocentes completas. En el 2015, las escuelas con SP representaban aproximadamente el 23 por ciento de las escuelas polidocentes completas, el 20 por ciento de las escuelas urbanas y aproximadamente el 12 por ciento de las escuelas públicas del Perú.
Tabla 1. Número de escuelas beneficiarias de Soporte Pedagógico por año de inserción al programa5 Departamento
Número de escuelas beneficiarias de Soporte Pedagógico según año de inserción 2014
2015
Apurímac
43
138
Arequipa
0
17
Ayacucho
57
207
Cajamarca
89
221
Callao
2
2
Cusco
103
256
Huancavelica
26
91
Ica
0
115
La Libertad
0
222
Lambayeque
0
114
Lima
702
1,073
Loreto
119
205
0
31
Piura
50
327
San Martín
104
116
Ucayali
33
45
1328
3180
Madre de Dios
Total
Fuente. Base de focalización de Soporte Pedagógico.
5 Los datos presentados en esta tabla se obtuvieron directamente de la base de focalización de Soporte Pedagógico entregada a los investigadores.
17
3. REVISIÓN DE LA LITERATURA La intervención de Soporte Pedagógico es única en América Latina, ya que no hay precedentes de una intervención que se enfoque simultáneamente en las cuatro líneas de intervención. A diferencia de SP, la mayor parte de los programas de mejora educativa en la región se han enfocado en una o dos de estas líneas de intervención. Por lo tanto, esta evaluación contribuye a la literatura al generar evidencias sobre el impacto de corto plazo de intervenir varias áreas de la educación primaria sobre el rendimiento académico de los estudiantes. No obstante, sí existen evidencias sobre la efectividad de las líneas de intervención de SP por separado. En general, la evidencia sobre la efectividad de intervenir algunas de las líneas de intervención es mixta y procede principalmente de países fuera de América Latina. A pesar de que existen muchos programas en la región que tratan áreas similares a los componentes de SP, la mayor parte de ellos no ha sido sometida a una evaluación rigurosa (Villegas-Reimers, 1998; Navarro & Verdisco, 2000). La investigación cuantitativa generalmente no ha detectado impactos positivos de programas de capacitación de docentes en el aprendizaje de los estudiantes (Chingos & Peterson, 2011), aunque evidencia más reciente ha cuestionado esta conclusión (Boyd et al., 2009). Según el Banco Mundial, muchos programas de desarrollo de los docentes no son efectivos porque no están bien diseñados ni integrados con el trabajo del profesor (Devarajan & Reinikka, 2003). Por ejemplo, Jacob y Lefgren (2002) evaluaron un programa de desarrollo del profesorado en escuelas con bajo rendimiento en Estados Unidos, y concluyeron que el programa no tuvo ningún efecto positivo significativo en los resultados de los alumnos. Estas conclusiones fueron robustas usando diferentes modelos de estimación y no se encontraron diferencias entre capacidad, género, raza o situación económica. Los autores atribuyeron la falta de resultados en parte a la falta de estructura en la capacitación de los docentes. Chingos y Peterson (2011) sugieren que una dificultad de evaluar la efectividad de estos programas en conjunto es que son muy diferentes entre sí. Según explican estos investigadores, es posible que la efectividad de estos programas dependa de su estructura y contenidos. Por tanto, podría haber programas que sí sean muy efectivos, aunque no se detecte un impacto sistemático de los programas de capacitación. Boyd et al. (2009) evaluaron 31 programas de desarrollo de profesores de primaria en Nueva York, y sus resultados dan apoyo a esta hipótesis: los autores concluyeron que hay variación significativa en la efectividad de estos programas. Según los autores, los
18
resultados dependen de si la preparación está directamente vinculada a la práctica de la enseñanza. Por ejemplo, aquellos programas que enfatizan tener más supervisión de las prácticas de enseñanza proporcionan docentes que son mucho más productivos durante su primer año de trabajo. Los efectos son significativos, con una magnitud de efecto similar a la del primer año de experiencia como profesor. Los autores también encontraron evidencia de que los programas que enfatizan contenidos en matemática tienen resultados, aunque estos no son visibles hasta el segundo año de instrucción. Parece ser que aquellos maestros con buena preparación en cuestiones del día a día son relativamente más eficaces en su primer año, mientras que aquellos con un conocimiento fuerte del contenido son capaces de hacer uso de ese conocimiento durante su segundo año. En cuanto a la línea de intervención de Refuerzo Escolar de Soporte Pedagógico, la investigación cuantitativa indica que estos programas pueden ser efectivos, aunque los efectos generalmente son moderados. Por ejemplo, Lavy y Schlosser (2004) evaluaron un programa en Israel que proporciona instrucción adicional para los estudiantes de bajo rendimiento. El programa tenía como objetivo preparar a los estudiantes para exámenes de matrícula. Para estimar el efecto del programa, se utilizaron escuelas de comparación con características similares que habían sido seleccionadas para llevar a cabo el programa más adelante. Los resultados fueron que el programa aumentó en algo más de tres puntos porcentuales la tasa de matriculación. A pesar de estos resultados, los autores concluyeron que este tipo de intervención es menos rentable que programas basados en incentivos para estudiantes y docentes. Cantrell et al. (2013) también encontraron resultados moderados en un programa de refuerzo en lectura para adolescentes con poca motivación y bajo rendimiento en Estados Unidos. La intervención se ofreció a estudiantes de sexto y noveno grado, y se hizo un seguimiento de sus resultados durante cuatro años. Para estimar la efectividad del programa también se hizo un seguimiento de dos grupos de control (uno para sexto grado y otro para noveno) durante ese periodo de tiempo. Los resultados mostraron efectos positivos de la intervención de lectura en los alumnos de noveno grado, pero no en los de sexto grado. Banerjee et al. (2007) encontraron resultados más fuertes en dos experimentos realizados en las escuelas en zonas urbanas de la India. El primer programa de educación contrató a mujeres jóvenes para enseñar a los estudiantes con retraso en habilidades básicas de lectura, escritura y aritmética. Como resultado del programa, el puntaje promedio de los niños en las escuelas intervenidas aumentó 0.28 desviaciones estándar. Además, el efecto fue especialmente pronunciado en los niños con resultados de aprendizaje más bajos. La segunda intervención fue un programa de aprendizaje de
19
matemática por computadora. El programa aumentó las calificaciones de matemática en 0.47 desviaciones estándar. Un año después de que los programas finalizaran, las ganancias iniciales se mantuvieron significativas para los niños intervenidos, aunque el efecto se redujo hasta 0.10 desviaciones estándar. Otra línea de investigación que sugiere que los programas de refuerzo pueden ser efectivos son los estudios que muestran la efectividad de programas con instrucción adaptada al ritmo de aprendizaje de los alumnos. Un ejemplo de este tipo de programa es el Programa de Educación Integrada (IEP), un programa de lectura para niños de primaria en Sudáfrica (Piper, 2009). El IEP es un programa de formación de docentes pero, a diferencia de otras intervenciones, es un programa de instrucción adaptada a la velocidad de aprendizaje de los estudiantes. Para llevar esto a cabo, los estudiantes tienen que tomar un examen al principio del programa, y se enseña a los profesores a cómo evaluar el progreso de los alumnos y a cómo enseñarles según sus capacidades. Los resultados de la intervención mostraron que los niños en el grupo de intervención aprendieron a leer dos a tres veces más rápido que los niños de las escuelas de control. La magnitud de los efectos del programa es coherente con otros estudios que indican que la adaptabilidad en la instrucción es clave para hacer que los programas de formación del profesorado sean eficaces. Conn (2014) revisó un conjunto de intervenciones pedagógicas en África y encontró que, entre las intervenciones enfocadas en la formación del profesorado, el efecto medio de los programas con instrucción adaptada al ritmo de aprendizaje de los estudiantes fue de 0.42 desviaciones estándar, mientras que aquellos sin este tipo de enseñanza tuvieron un efecto medio de 0.12 desviaciones estándar. Los resultados de intervenciones basadas en la tercera línea de acción de Soporte Pedagógico, la entrega de materiales y recursos educativos, no han demostrado hasta ahora ser eficaces. Por ejemplo, una evaluación aleatoria llevada a cabo por Glewwe et al. (2002) en zonas rurales de Kenia encontró que proporcionar libros de texto no mejora el promedio de las pruebas. Aunque la intervención sí mejoró los resultados de los que ya eran buenos estudiantes, tuvo muy poco efecto en el resto del alumnado. Sin embargo, este estudio contaba con algunas limitaciones importantes, concretamente a) los libros de texto estaban escritos en inglés, que era la tercera lengua para la mayoría de los estudiantes, y b) el plan de estudios en Kenia está orientado principalmente hacia los estudiantes académicamente fuertes, lo que dificulta que programas diseñados para el resto de los estudiantes sean efectivos. En cuanto al aumento de la autonomía en las decisiones de las escuelas, parece también tener una efectividad que varía caso por caso. Hanushek et al. (2012), en un estudio con datos de las pruebas PISA que incluía 42 países y datos del año 2000 al
20
año 2009, encontraron que los efectos de la autonomía escolar son positivos en países desarrollados y negativos en países en vías de desarrollo. Los autores encontraron que estos efectos son robustos con diferentes estimaciones empíricas. Además, el hallazgo de la interacción entre nivel de desarrollo e impacto de la autonomía se manifiesta en los resultados de los estudiantes en matemática, lectura y ciencias. A diferencia de King y Özler (1998), los autores concluyeron que el aspecto de la autonomía escolar que más importa es la decisión de los contenidos académicos. Aunque las decisiones del personal y la autonomía presupuestaria también son relevantes, según Hanushek et al. (2012) estos aspectos guardan menos relación con el aprendizaje de los estudiantes. Sin embargo, King y Özler (1998) sí encontraron efectos positivos en su estudio sobre la reforma educativa de Nicaragua a principios de los años 90, la cual tenía como objetivo trasladar más poder de gestión a las escuelas. Los resultados mostraron que el rendimiento de los estudiantes tiene una relación positiva con el grado de autonomía en la toma de decisiones de la escuela. Según los autores, este efecto es especialmente fuerte en aquellas escuelas con poder de decisión sobre la elección de sus docentes y el monitoreo de los mismos. Un mecanismo que puede explicar por qué una mayor autonomía de las escuelas puede ser efectiva es el hecho de que involucrar a padres y miembros de la comunidad puede aumentar la rendición de cuentas de los profesores. Un ejemplo de una intervención de este tipo es el programa Early Grade Reading Assessment Plus, un programa de lectura para niños de primaria (Piper & Korda, 2010). La intervención creó dos tipos diferentes de grupos de tratamiento para diferenciar los efectos de la capacitación y los efectos de aumentar la responsabilidad de los profesores. En el grupo de tratamiento “completo”, los maestros obtuvieron capacitación y se les hizo responsables de los resultados de sus estudiantes. Para llevar esta última parte a cabo, se facilitó a los padres datos del rendimiento de los estudiantes. En el grupo de tratamiento “parcial”, también se hizo responsables a los maestros de los resultados de sus alumnos, pero no hubo componente de capacitación. Los resultados del programa mostraron que los estudiantes en el grupo de tratamiento completo tenían puntuaciones más altas en todas las habilidades de lectura que sus homólogos en los otros grupos. Sin embargo, los estudiantes en el grupo “parcial” de tratamiento, donde el aumento de responsabilidad de los maestros se llevó a cabo sin el componente de capacitación del profesorado, también superaron significativamente los niños en el grupo de control. Ambos resultados combinados sugieren que tanto la formación del profesorado y la rendición de cuentas contribuyen a la mejora de la lectura en edad temprana. Al igual que con la formación de profesores, otras intervenciones basadas en aumentar los incentivos y la responsabilidad de los profesores también han encontrado resultados
21
similares (Kremer et al 2013; McEwan, 2014; Muralidharan y Sundararaman 2011; Duflo, Hanna, y Ryan 2012). Birte y otros autores (2015) recientemente publicaron una revisión sistemática de la literatura en el área de educación, que tenía como objetivo sintetizar la evidencia de los efectos de programas de educación en el acceso y el aprendizaje en países de bajo y mediano ingreso. En esta revisión examinaron distintos tipos de programas, y encontraron que los programas denotados como pedagogía estructurada presentaban los efectos más grandes y consistentes sobre el aprendizaje. Las intervenciones de pedagogía estructurada típicamente involucran el desarrollo de nuevos contenidos enfocados en un área en particular, materiales para estudiantes y docentes, y capacitaciones de corto plazo para docentes en la entrega de estos nuevos contenidos. Estas intervenciones tienen como objetivo principal cambiar las prácticas pedagógicas existentes. Los autores encontraron que para que las intervenciones de pedagogía estructurada funcionen se necesita que ocurran varias condiciones. Por ejemplo, que los materiales sean de suficiente calidad, que sean provistos en las cantidades adecuadas y a tiempo en el año escolar. Las capacitaciones tienen que ser de suficiente duración y calidad, y los docentes tienen que poder entender y apoderarse (buy-in) de la capacitación. Asimismo, uno de los desafíos más grandes de este tipo de intervenciones es que las metodologías y contenidos introducidos sean aplicados en las aulas con un nivel razonable de fidelidad y por un periodo adecuado.
22
4. OBJETIVOS Y PREGUNTAS DE INVESTIGACIÓN Objetivos del estudio El principal objetivo de este estudio es evaluar el impacto de corto plazo de la intervención de Soporte Pedagógico usando exclusivamente información existente y disponible del Ministerio de Educación. Asimismo, la evaluación se llevó a cabo sin interrumpir el proceso de implementación del programa. Bajo estas restricciones, fue posible investigar el impacto de la intervención de SP sobre dos áreas curriculares, comunicación integral y matemática, y en un solo grado académico, segundo grado de primaria.
Preguntas de investigación Este estudio pretende contestar las siguientes preguntas de investigación: 1. ¿Cuál es el impacto de Soporte Pedagógico sobre los resultados de aprendizaje y los niveles de logro de los estudiantes de segundo grado de primaria en el área de comprensión lectora? 2. ¿Cuál es el impacto de Soporte Pedagógico sobre los resultados de aprendizaje y los niveles de logro de los estudiantes de segundo grado de primaria en el área de matemática? 3. ¿Cómo varia el impacto de Soporte Pedagógico cuando solo se examinan las escuelas con “altos niveles de implementación?
23
5. METODOLOGÍA DE LA EVALUACIÓN DE IMPACTO Indicadores de impacto y fuentes de datos Para contestar las preguntas de investigación usamos los siguientes indicadores de impacto resumidos en la Tabla 2.
Tabla 2. Indicadores de impacto Variable
Indicador(es)
Fuente
Para Soporte Pedagógico 1. Resultados de aprendizaje de los estudiantes de segundo grado de primaria en el área de comunicación
- Puntaje promedio a nivel de estudiante en comprensión lectora; - Porcentaje de alumnos por niveles de logro (satisfactorio, en proceso, en inicio) en comprensión lectora.
Evaluación Censal de Estudiantes, 2015
2. Resultados de aprendizaje de los estudiantes de segundo grado de primaria en el área de matemática
- Puntaje promedio a nivel de Evaluación Censal de estudiante en matemática; Estudiantes, 2015 - Porcentaje de alumnos por niveles de logro (satisfactorio, en proceso, en inicio) en matemática.
La Evaluación Censal de Estudiantes (ECE). La ECE es una prueba estandarizada que recoge el MINEDU todos los años en las áreas de comprensión lectora y matemática a los alumnos de segundo grado de primaria. Esta prueba se levantadesde el año 2007 y en principio los resultados son comparables en el tiempo.6 El enfoque de la ECE en matemática y comprensión lectora se basa en el supuesto de que estas competencias son habilidades esenciales para el aprendizaje de otras áreas curriculares. La prueba de matemática incluye preguntas sobre números, relaciones y funciones.7 Por ejemplo, la prueba podría incluir una hoja con datos sobre la velocidad a la que pueden correr varios animales, en metros por segundo. Luego se hacen preguntas a los estudiantes sobre la distancia que esos animales podrían 6 Las pruebas de los diferentes años se realizan con la misma tabla de especificaciones y utilizan una técnica psicométrica llamada “equiparación” para asegurar que las pruebas de un año a otro utilicen la misma métrica y sean comparables. 7 Si bien el plan de estudios de matemática de segundo de primaria también incluye las áreas de estadística y geometría, se decidió excluirlas para reducir la extensión de la prueba, que es aplicada de manera censal.
24
recorrer en un tiempo determinado, qué gráfica podría ser coherente con esos datos, entre otras preguntas. Por otra parte, la prueba de comprensión lectora consiste en preguntas de comprensión y reflexión sobre narraciones y textos de diversos temas. Por ejemplo, la prueba podría incluir una narración sobre un empleado de una escuela que recibe un homenaje de sus compañeros de trabajo por haber trabajado diez años allí (Ministerio de Educación, 2015). Luego se hacen preguntas a los estudiantes sobre las emociones del protagonista, los motivos de sus compañeros de trabajo para hacerle el homenaje, el orden de los eventos, etcétera. Los puntajes de las pruebas son computados usando un modelo Rasch, y tienen un índice de confiabilidad superior al 0.80. Los resultados de aprendizaje de los años 2011-2014 fueron usados en este estudio para estimar las trayectorias previas a la introducción de SP y seleccionar la muestra de escuelas para la evaluación de impacto. Mientras que los resultados de aprendizaje de los años 2009-2015 fueron usados para la especificación de los modelos de impacto. El Censo Escolar. El Censo Escolar recoge información detallada sobre las características de las escuelas, tales como su ubicación geográfica, instalaciones, acceso a materiales escolares, matrícula, ratio alumnos-docentes, horario escolar, etcétera. El censo se publica entre los meses de abril-mayo de cada año, y se divide en dos partes principales: la información del local escolar y la información sobre la matrícula, docentes y recursos de la escuela.8
Estrategia empírica Modelo en diferencias y modelo Comparative Interrupted Time Series Para evaluar los efectos de la intervención de Soporte Pedagógico empleamos el método cuasi-experimental denominado Comparative Interrupted Time Series (St. Clair, Cook & Hallberg, 2014; Somers, Zhu, Jacob, Bloom, 2013; Bloom, 2001, Bloom 1999). Con este diseño, el efecto del programa se determina al examinar si el grupo de intervención se desvía de su trayectoria base en mayor (igual o menor) medida que el grupo de control. El modelo en diferencias, o difference in difference (DiD), es un 8 La base de datos original está construida de tal forma que cinco variables especifican de forma única las observaciones. El identificador único de las escuelas son las variables código modular y anexo y la variable llamada “nroced” (número de cédula) indica el nivel educativo de la escuela (primaria, secundaria, etc.). La variable “cuadro” indica el tipo de clasificación que se está utilizando para desglosar los datos. Por ejemplo, una pregunta sobre el número de profesores en las escuelas puede estar desglosada por género, por tipo de jornada, etc. Por último, la variable “tipdato” indica a cuál de las categorías marcadas por el cuadro se refiere la pregunta, por ejemplo en un cuadro que desglosa por género el tipdato indicaría si la pregunta hace referencia a hombres o a mujeres.
25
diseño más simplificado (o un caso especial) del CITS dado que el efecto del programa se determina al examinar si el grupo de intervención se desvía de su media base en mayor (igual o menor) medida que el grupo de control. Sin embargo, el modelo CITS controla no solo por las diferencias en medias en varios años, sino también por las diferencias en trayectorias (o pendientes) entre los grupos de intervención y control. Ambos sirven como el contrafactual para evaluar las diferencias en el 2015 en vez de solamente las diferencias de medias (Somers, Zhu, Jacob, & Bloom, 2013). Asimismo, la rigurosidad del modelo en diferencias subyace en el supuesto que el grupo de control provee una estimación válida de los resultados promedio contrafactual para el grupo de tratamiento. Sin embargo, es posible que los grupos de intervención y control tengan “tasas de maduración” (maturation rates) distintas y por tanto ese supuesto no se cumpla.9 Este supuesto es evaluable con al menos cuatro años de rendimiento previo a la introducción de SP. El modelo de CITS resuelve la limitaciones del DiD al hacer uso de varios años de rendimiento previos a la introducción del programa (años base). El CITS requiere tener la misma prueba de rendimiento académico para dos grupos y para varios años, antes y después de que se introduzca SP. El efecto de la intervención es estimado a través de la comparación de las diferencias de medias y pendientes de los dos grupos antes de que se inicie la intervención, con las diferencias de medias y pendientes después de la introducción de la misma. Este método se ha encontrado que puede producir estimaciones de impacto muy parecidas a métodos experimentales (St. Clair, Cook & Hallberg, 2014). Sin embargo, no es común tener acceso a varios años de datos históricos (antes de que se introduzca la intervención) y, por ello, el CITS no es un modelo tan popular como el modelo en diferencias. No obstante, esto no representa una limitación para la evaluación de SP dado que estos datos históricos existen en el Ministerio de Educación y estuvieron disponibles para esta evaluación. La Figura 1 del Apéndice A ilustra el modelo CITS. El modelo CITS permite estimar las trayectorias “base” para cada escuela (o trayectorias para el periodo previo a la introducción de la intervención o 20112014); la magnitud por la cual los rendimientos académicos de las escuelas en el año 2015 se desvían de sus trayectorias base; la desviación promedio con respecto a la trayectoria base para los grupos de intervención y de comparación; y, finalmente, el impacto de SP se estima como la diferencia entre la desviación de la trayectoria base en el grupo de intervención, y la desviación de la trayectoria base del grupo de comparación. Si la intervención de SP es efectiva, la desviación 9 Maduración o “Maturation” hace referencia a cambios temporales en el tiempo que ocurren naturalmente aun en ausencia de la intervención.
26
𝛽0
con respecto a la trayectoria base en las escuelas del grupo de intervención será mayor que en el grupo de comparación.10 En particular, la ecuación estimada para el CITS para la escuela j en el año t es la siguiente:
Yjt = β0 + β1Soportej + β2Tendenciaj + β3SoportejXTendenciaj + β4I(2015j + Donde:
β5Soportej XI(2015)j + εjt
(1)
• Soporte es una variable dicotómica que toma el valor de 1 si la escuela recibe el programa de Soporte Pedagógico, y 0 en caso contrario. • Tendencia: tendencia lineal antes de la implementación del programa centrada en el año 2014 (Tendencia = Año - 2014). La tendencia lineal fue estimada con datos de 2009 a 2014. • Soporte X Tendencia: es la interacción entre la variable de Soporte y la tendencia lineal. • I(2015): es una variable dicotómica que toma el valor de 1 para el año 2015, y el valor de 0 para los años previos. • Soporte X I(2015): es la interacción entre la variable de Soporte y la variable dicotómica de 2015.
Por tanto: • 𝛽0 = media de Y para el grupo de comparación en el año 2014.
• 𝛽1 = diferencia de medias entre los grupos de Soporte y de comparación para el año 2014.
• 𝛽0 + 𝛽1 = media de Y para el grupo de Soporte en el año 2014.
• 𝛽2 = pendiente (Tendencia) de Y para el grupo de comparación en el periodo previo a la introducción del programa.
• 𝛽3 = diferencia en las pendientes (Tendencia) entre el grupo de Soporte y el
grupo de comparación en el periodo previo a la introducción del programa. Este
10 Cabe resaltar que este modelo asume que los datos de rendimiento previos a la introducción de SP representan el mejor predictor del rendimiento futuro en ausencia de cambios sistemáticos en el tiempo. Asimismo, el modelo asume que varios años de rendimiento académico predicen mejor el promedio de la IE futuro que una sola observación. Sin embargo, diferentes tipos de trayectorias antes de la introducción de SP pueden generar diferentes proyecciones, por lo que es muy importante determinar de manera cuidadosa la trayectoria base antes de que se inicie SP en 2015.
27
coeficiente captura las diferencias entre las tendencias del grupo de intervención y de comparación. Lo ideal es que este coeficiente sea igual a cero porque indicaría que las tendencias son paralelas antes de 2015. • 𝛽2 + 𝛽3 = pendiente (Tendencia) de Y para el grupo de Soporte en el periodo previo a la introducción del programa.
• 𝛽4 = desviación en el año 2015 con respecto a la tendencia del grupo de comparación.
• 𝛽5 = diferencia entre el grupo de Soporte y el grupo de comparación en las
desviaciones con respecto a la tendencia en 2015. Este es el coeficiente que captura el impacto del programa en el año 2015.
• 𝛽4 + 𝛽5 = desviación en el año 2015 con respecto a la tendencia del grupo de Soporte.
Por su parte, la ecuación estimada para el DiD para la escuela j en el año t es la siguiente:
Yjt = δ0+ δ1Soportej + δ4 I(2015)j + δ5 Soportej XI(2015)j + ζjt (2)
Es decir, el modelo de DiD es estimado a partir de tres de las cinco variables del CITS.11 La variable “Soporte” toma el valor de 1 si la escuela recibe el programa de Soporte Pedagógico, y 0 si la escuela es del grupo de comparación. Esta variable mide la diferencia en rendimiento académico entre el grupo de intervención y de comparación en los años anteriores (2013-2014) a la intervención. Es decir, esta variable permite establecer qué tan diferente era el rendimiento académico de los estudiantes de ambos grupos. Segundo, empleamos una variable dicotómica de tiempo “I(2015)” que es igual a 1 si las observaciones son posteriores a la intervención (i.e., las observaciones son del año 2015) y 0 en caso contrario. Esta variable mide el cambio en el tiempo en el rendimiento académico de los estudiantes del grupo de comparación. Si esta variable es positiva es porque la cohorte de estudiantes de segundo de primaria en 2015 del grupo de comparación tuvo un rendimiento mayor en la prueba de la ECE con relación a los estudiantes de segundo de primaria de las cohortes anteriores a 2015. Por último, el coeficiente de la interacción de las dos variables anteriores “Soporte X I(2015)” corresponde al estimador de DiD. Esta última variable captura el efecto causal de la intervención de SP en la medida en que estima el cambio en el tiempo en el rendimiento académico de los estudiantes intervenidos, tras ajustar dicho cambio por lo que hubiera sido en caso de que el programa no se hubiera implementado, es decir, por el cambio en el tiempo en el rendimiento académico de los estudiantes del grupo de comparación. 11 Esto permite ver por qué el modelo de DiD es considerado un caso especial de CITS.
28
Sin embargo, los impactos de la intervención de SP estimados a partir de la estrategia de DiD solo corresponden al efecto causal del programa siempre y cuando las trayectorias de rendimiento académico de los grupos de intervención y de comparación en el periodo previo a la introducción del programa hayan tenido un comportamiento similar a lo largo del tiempo. Este supuesto se conoce en la literatura de evaluación de impacto como el supuesto de tendencias paralelas. En general, este supuesto no puede ser testeado empíricamente y representa una de las mayores limitaciones de los modelos de DiD. No obstante, en la medida en que para esta evaluación de impacto contamos con información histórica de rendimiento académico a partir de 2009, podemos construir un grupo de comparación que presente una trayectoria de rendimiento académico para el periodo anterior a la intervención que resulte muy similar a la trayectoria de rendimiento del grupo de escuelas que recibió el programa de SP. De esta forma, se puede garantizar que el supuesto de tendencias paralelas se cumple por construcción y que, por tanto, los efectos estimados pueden ser interpretados como el efecto causal del programa de SP en el rendimiento académico de los estudiantes. La ventaja del modelo de CITS sobre el modelo de DiD estándar es que el primero permite validar y controlar empíricamente el supuesto de tendencias paralelas. Específicamente, el modelo CITS permite estimar dos variables adicionales de interés, las cuales no son consideradas en el modelo de DiD. Primero, el coeficiente de la variable “Tendencia” mide la pendiente en el periodo comprendido entre 2009 y 2014 de la variable de resultado de rendimiento (e.g., comprensión lectora) para el grupo de comparación. Por su parte, el coeficiente de la interacción entre la variable dicotómica de Soporte y la tendencia lineal “Soporte X Tendencia” mide si existe alguna diferencia entre las pendientes de las trayectorias de rendimiento de los grupos de intervención y de comparación. Esta última variable nos permite testear empíricamente el supuesto de tendencias paralelas. Es decir, si el coeficiente estimado para esta variable no es estadísticamente diferente de cero significa que las pendientes del grupo de comparación y de intervención son iguales. Para reducir la posibilidad de que existan diferencias entre los grupos de intervención y de comparación que puedan sesgar las estimaciones de impacto de SP, combinamos la estrategia de CITS y de DiD con la estrategia de emparejamiento denominada Propensity Score Matching. Es decir la variable dicotómica “Soporte” en las ecuaciones 1 y 2 solo incluye escuelas emparejadas. La combinación de la técnica de emparejamiento con los modelos descritos permite incrementar la comparabilidad de los dos grupos en términos del rendimiento académico histórico y de otras variables observables relevantes antes de la introducción de SP. Pero, asimismo, permite controlar por características no observables que no cambian en el tiempo dado que las
29
mismas escuelas son analizadas a través del tiempo, y permite reducir la dependencia de controlar estadísticamente por diferencias en el modelo. En este diseño cuasiexperimental, la disponibilidad de varios años de resultados de aprendizaje antes de la introducción de SP tiene el potencial de reducir sesgo a través de la mejora de la calidad de los pares emparejados o de modelar las diferencias en las trayectorias previas. La estrategia del método de emparejamiento se detalla más adelante en este capítulo. Es importante anotar que el modelo de CITS no requiere que las tendencias de rendimiento de los grupos de intervención y de comparación tengan que ser paralelas en el tiempo a fin de estimar el efecto de un programa. Sin embargo, en la medida en que en este estudio combinamos los modelos de CITS y de DiD con la estrategia de emparejamiento, cabe esperar las tendencias del grupo de intervención y comparación resulten paralelas por construcción y que, por tanto, los efectos estimados del programa tanto por el modelo de CITS como por el de DiD sean muy parecidos. En todo caso, como se mencionó anteriormente, la gran ventaja de la especificación del modelo de CITS sobre el de DiD es que el primero permite validar empíricamente si el supuesto de tendencias paralelas se cumple. Todas las especificaciones de los modelos CITS y DiD que se presentan en el Capítulo 6 se estimaron al nivel de la escuela en donde cada observación para una escuela en un año dado está ponderada por el número de estudiantes de la escuela en ese año. Esta estrategia es equivalente a estimar regresiones a nivel del estudiante cuando la variable de tratamiento está definida a nivel de la escuela, como ocurre con el programa de SP. Asimismo, los errores estándar de todas la regresiones están agrupados (clustered) a nivel de la escuela con el fin de tener en cuenta la correlación existente en el tiempo de la variable de resultado de una misma escuela.
Propensity Score Matching de escuelas Con el fin de mejorar las estimaciones de los modelos propuestos, es decir, reducir sesgo en las estimaciones, usamos una combinación de estrategias no paramétricas para seleccionar las escuelas más similares del grupo de intervención y de comparación y por tanto incrementar la comparabilidad de los dos grupos. Es importante recordar que dado que SP se ofrece a toda la escuela, la unidad de análisis es la escuela. Primero procedimos a restringir el universo de potenciales controles imitando los criterios de focalización de la intervención de SP, es decir, seleccionando solo las escuelas que cumplían con la característica de ser públicas, urbanas y polidocentes completas dentro de este universo. Esta estrategia permitió hacer una especie de
30
emparejamiento “exacto” en variables claves de focalización del programa que están altamente correlacionadas con el rendimiento académico de los estudiantes. Pero, a su vez, ayudó a incrementar la comparabilidad de los dos grupos en términos de otras variables relacionadas con las variables de focalización y rendimiento académico que no eran directamente observables en este estudio. Por ejemplo, al excluir del universo de potenciales controles a las escuelas rurales y polidocentes multigrado, se eliminaron de la muestra escuelas que albergan a los estudiantes más pobres y con experiencias escolares y características familiares muy distintas a los estudiantes que atienden las escuelas urbanas y polidocentes completas. El proceso de emparejamiento exacto en función de las variables de focalización redujo el universo de potenciales controles a 2,609 escuelas que cumplían con la característica de ser públicas, urbanas, polidocentes completas y que contaban a su vez con datos de rendimiento en 2015.12 Mientras que el grupo de escuelas de intervención que cumplían con esas condiciones se redujo a 2,923. Dado que el ratio de escuelas control a escuelas de intervención es menor a 1, es claro que no existe un conjunto muy grande de potenciales controles y, por tanto, anticipa que no será posible emparejar a todas las escuelas intervenidas. Segundo, con la muestra de potenciales controles que quedaron después de implementar el emparejamiento exacto, procedimos a seleccionar las escuelas más parecidas entre sí usando un escalar o propensity score que resume una serie de características relevantes de las escuelas y de los estudiantes que atienden dichas escuelas (Rosenbaum y Rubin, 1983; Stuart, 2007). Dicho escalar fue usado para emparejar las escuelas de ambos grupos dentro de una distancia máxima determinado por un caliper. Finalmente, para incrementar la comparabilidad de las escuelas emparejadas no solo en términos de las variables de focalización y del propensity score, sino también en términos de variables correlacionadas con la ubicación geográfica de las escuelas, emparejamos las escuelas dentro de cada estrato geográfico. De esta manera todos los pares de escuelas emparejadas obtuvieron el mismo valor en la variable “dominio geográfico”.13 Los pasos dos y tres de esta estrategia de emparejamiento son explicados a continuación.
12 Se usaron las variables de las bases de la Evaluación Censal Escolar para definir este subgrupo de escuelas. Por lo tanto, este subgrupo corresponde al número de escuelas que cumplían con los tres criterios de focalización y que además se encontraban en la base panel conformada con las bases históricas de la ECE. 13 La variable Dominio proviene de la Encuesta Nacional de Hogares (ENAHO) de 2014.
31
Especificación del modelo de selección Para estimar el escalar o propensity score especificamos un modelo de selección o modelo de propensity score (Rosenbaum y Rubin, 1983; Stuart, 2007). Este modelo estima la probabilidad de recibir el programa de Soporte Pedagógico en función de un conjunto de variables observables. La probabilidad estimada tiene un valor en el rango de 0 a 1, donde las escuelas con puntaje cercano a 1 son más propensas a pertenecer al grupo SP que las escuelas con puntaje cercano a 0. En particular, para la especificación del modelo de selección es muy importante incluir variables asociadas con la probabilidad de pertenecer al grupo de intervención y con la variable de resultado de interés, o rendimiento académico de los estudiantes (Stuart, 2009). Dado que el programa tomó en cuenta variables de rendimiento académico para la focalización del programa (como se explicó en el Capítulo 2), resulta relevante incluir variables de rendimiento académico en el modelo de selección. Asimismo, dado que el puntaje en las pruebas de rendimiento es la variable de interés en las regresiones de impacto, la inclusión de datos de rendimiento académico previos a la implementación del programa es clave para la especificación del modelo de selección y para juzgar la comparabilidad de los dos grupos. Adicionalmente, el rendimiento académico de los estudiantes suele estar correlacionado con otras características relevantes del estudiante como las características de los padres, el nivel socioeconómico de la familia, y el entorno en el que viven, y con factores de la escuela y las características de los docentes (Rivkin, Hanushek, & Kain, 2005). Dado que la mayoría de estos factores asociados al rendimiento no son observables en este estudio, el uso de varios años de rendimiento académico histórico ayuda a incrementar la comparabilidad de los dos grupos. Finalmente, el modelo de selección incorpora una serie de variables relevantes que caracterizan a la escuela, los estudiantes que atienden la escuela, y el área en la que se encuentra la institución educativa. En resumen, se especificaron dos modelos de selección con las siguientes características: Muestra analítica o Muestra A: esta muestra asume que el programa inició las tareas de implementación en el año 2015 y por tanto usa variables previas a 2015, como datos de rendimiento de 2014, para el modelo selección. Es decir, en términos de las variables de rendimiento el modelo incluye los resultados de la ECE de los años 2011, 2012, 2013 y 2014 para matemática y comprensión, así como la proporción de estudiantes en el nivel de logro “satisfactorio” en matemática y comprensión del año 2014, y medidas de dispersión de los resultados en las pruebas de matemática y comprensión lectora en 2014 (o nivel de heterogeneidad de los resultados). Esta especificación resulta importante dado que 2014 es un año en que los rendimientos académicos de los estudiantes de segundo grado de primaria mejoraron notablemente
32
en el país. Por tanto, incluir los datos de 2014 en la especificación del modelo de selección permite incrementar comparabilidad de los grupos en términos de estos cambios en el tiempo. Asimismo, esta muestra se construye a partir de la inclusión de variables tales como el tamaño de matrícula (de 2013 y 2014), la tasa de aprobación de estudiantes (de 2013 y 2014), el número de docentes en la escuela, el porcentaje de estudiantes indígenas, descripción si la escuela es EIB o no, indicadores sobre la jornada pedagógica, el ratio de alumnos-docentes, la disponibilidad de textos y cuadernos escolares, computadoras e internet. Además, se incluyeron variables sobre la infraestructura del centro tales como características de las paredes (ladrillo), pisos (no tierra) e inodoros (en buenas condiciones), disponibilidad de agua potable, desagüe y electricidad.14 Finalmente, se incluyeron indicadores distritales que capturan el nivel de pobreza y desnutrición del distrito.15 Los resultados de este modelo se presentan en el resto del documento. Muestra para análisis de robustez o Muestra B: incluye variables similares a las de la muestra A, pero asume que el programa inició las tareas de implementación en el año 2014 y por tanto usa variables previas a 2014 para el modelo de selección. Específicamente, esta muestra incluye el valor promedio al nivel de la escuela de los resultados académicos en las áreas de matemática y comprensión lectora para los años 2010, 2011, 2012 y 2013; indicadores que capturan la proporción de estudiantes en los niveles de logro “satisfactorio” e “inicio” en los años 2012 y 2013 para matemática y compresión, e indicadores que capturan el nivel de dispersión de los resultados académicos de matemática y comprensión lectora en 2013. Asimismo, esta muestra se construye a partir de la inclusión de variables tales como el tamaño de matrícula, la tasa de aprobación de estudiantes, el número de docentes en la escuela, el porcentaje de estudiantes indígenas, descripción si la escuela es EIB o no, indicadores sobre la jornada pedagógica, el ratio de alumnos-docentes, la disponibilidad de textos y cuadernos escolares, computadoras e internet. Además, se incluyeron variables sobre la infraestructura del centro tales como características de las paredes, pisos e inodoros, disponibilidad de agua potable, desagüe y electricidad.16 Finalmente, se incluyeron indicadores distritales que capturan el nivel de pobreza y desnutrición del distrito.17 Los resultados del ejercicio de emparejamiento usando esta muestra se presentan en el Apéndice B, mientras que los resultados de impacto usando esta muestra se discuten como análisis de robustez en el Capítulo 6.
14 Estas últimas variables corresponden al año 2014. 15 Estas variables corresponden al año 2009. 16 Estas últimas variables corresponden al año 2013. 17 Estas variables corresponden al año 2009.
33
El escalar se calcula de forma conjunta para todas las regiones mediante un modelo Logit.18 En particular, la ecuación estimada para el propensity score está dada por: πi
donde:
logit(πi) = log( 1–π ) = Xiβ + Zd γ
(3)
i
• πid es igual a 1 si la escuela i pertenece al grupo de SP y 0 si pertenece al grupo de comparación.
• Xi es un vector de variables de la escuela.
• Zd es un vector de variables de rendimiento académico histórico para las áreas de matemática y comprensión lectora y para el periodo de 2011-2014.
Emparejamiento de las escuelas El escalar o propensity score estimado a través del modelo de selección se usó para emparejar y seleccionar al subgrupo de escuelas más parecidas entre sí de los grupos de intervención y de comparación. Para seleccionar y emparejar a las escuelas se usó el algoritmo denominado Nearest Neighbor Matching. Asimismo, para minimizar la distancia de las escuelas emparejadas y por tanto incrementar la comparabilidad de los pares, se determinó un caliper o distancia máxima entre dos escuelas para que se emparejen. Esta estrategia es también conocida como “caliper matching” y es considerada una variante de Nearest Neighbor Matching (Smith y Todd, 2003). El caliper es definido como el producto de un multiplicador igual a 0.01 y la desviación estándar del propensity score estimado.19 Rosenbaum and Rubin (1985) sugieren un caliper de 0.25 desviaciones estándar del propensity score, mientras que Cochran y Rubin (1973) recomiendan un caliper de 0.2 para reducir 98 por ciento del sesgo.20 Si bien la introducción del caliper restringe el número de escuelas intervenidas que se pueden emparejar, reduce la distancia entre los pares emparejados y por tanto incrementa la comparabilidad de los dos grupos.21 Asimismo, “caliper matching” automáticamente usa escuelas dentro y cerca del área de common support o área de intersección de las distribuciones de los propensity scores en los grupos de intervención y de comparación.
18 Los resultados de la estimación de la probabilidad esperada usando un modelo logit son muy similares a los obtenidos al emplear un modelo probit. No se emplea el uso de un modelo de probabilidad lineal ya que algunas observaciones pueden obtener probabilidades por fuera del intervalo [0,1]. 19 Sin embargo, mientras más pequeño es el caliper menor es la probabilidad de emparejar a una escuela. 20 Este caliper es recomendado en casos donde la varianza del propensity score en el grupo
de tratamiento es cerca del doble de la varianza del grupo de control. 21 Caliper matching automáticamente usa escuelas dentro y cerca del área de common support o área de intersección de las distribuciones de los propensity scores en los grupos de intervención y de comparación.
34
Esto es recomendado en la literatura de matching dado que ayuda a reducir sesgo de selección (Heckman, et al, 1997). En cuanto a la estructura del emparejamiento, esta se determinó como 1-1 y sin reemplazo, es decir, para cada escuela intervenida por SP se seleccionó una escuela de comparación. Otro tipo de estructura en la cual se seleccionan más de un control por escuela intervenida (1-M) comúnmente incrementa sesgo de selección dado que el segundo, tercer o cuarto control tienen por definición una distancia más grande que el primer control emparejado. De esta manera las escuelas comparación son seleccionadas una vez y no se permite que sirvan de control para otras escuelas de SP.22
Estratificación Asimismo, para incrementar la comparabilidad de los pares emparejados en términos de características geográficas se emparejaron los casos dentro de estratos geográficos determinados por la variable de dominio geográfico. Esta estrategia permite asegurar la comparabilidad de los pares en torno a variables que comúnmente están asociadas con la ubicación geográfica de la escuela y que no son fácilmente observables con datos secundarios. La variable dominio geográfico permite agrupar y clasificar a las escuelas en ocho (08) estratos geográficos tales como: costa norte, costa centro, costa sur, sierra norte, sierra centro, sierra sur, selva y Lima Metropolitana. De esta manera, todas las escuelas emparejadas tienen un valor exacto en dominio geográfico. Si bien es posible que dentro de estos estratos geográficos todavía existan diferencias importantes entre las escuelas, la combinación de la estratificación con las otras estrategias de emparejamiento ayudó a incrementar la comparabilidad de las escuelas. Asimismo, no fue posible usar estratos más pequeños tales como región, dado que en muchos casos la cantidad de escuelas no intervenidas por el programa era limitada. Pero también porque dado el ratio tan bajo de controles a tratamiento, un mayor nivel de estratificación hubiese reducido altamente el número de escuelas emparejadas.
22 Un beneficio de usar la estructura de emparejamiento 1-1 es que los estimados son más precisos. Sin embargo, un costo es que la muestra de escuelas comparación disponible para emparejar se va reduciendo conforme se emparejan las escuelas. Para reducir la posibilidad de que las escuelas emparejadas al final tengan pares con mayor distancia (y por tanto sean muy diferentes de las escuelas del grupo de intervención), usamos un caliper o distancia máxima de emparejamiento.
35
Resultados del proceso de emparejamiento Para la muestra analítica o Muestra A se lograron emparejar 1,098 escuelas con Soporte Pedagógico. Esta muestra equivale aproximadamente al 36.5 por ciento de las escuelas de SP, estatales, urbanas y polidocentes completas (N=3,006), y aproximadamente al 38 por ciento de las escuelas de SP que, además de cumplir con las tres primeras condiciones, cumplían con la condición de tener resultados de la ECE para los años 2013, 2014 y 2015 (N=2,923). La Tabla 1 del Apéndice B presenta el porcentaje de escuelas emparejadas por región para diferentes muestras: la muestra original del programa, la muestra de escuelas con SP que incluye solo polidocentes completas y urbanas, y la muestra que cumple con las condiciones anteriores además de las condiciones de ser estatales y con información de rendimiento académico. En promedio se emparejaron más del 45 por ciento de los centros asignados a SP en 10 de las 15 regiones. En Ucayali se emparejaron alrededor de 36 por ciento, mientras que en las regiones de La Libertad, Lambayeque y Piura, ubicadas en la costa norte del Perú, se emparejaron menos del 30 por ciento de las escuelas con SP. Lima Metropolitana y provincia fue la región con menos emparejados en donde aproximadamente un 17 por ciento de las escuelas con SP fueron emparejadas. Asimismo, la Tabla 2 del Apéndice B presenta el porcentaje de escuelas emparejadas para cada dominio geográfico. Para los dominios geográficos de la costa centro, costa sur, sierra centro, sierra sur y la selva, se emparejaron 50 por ciento o más de las escuelas de SP. No obstante, para la región costa norte y Lima metropolitana23, estos porcentajes son similares a 25 y 13 por ciento, respectivamente. Las siguientes Figuras 2 y 3 presentan las trayectorias de rendimiento “base” (o previas a la introducción del programa de SP) para las muestras emparejadas del grupo de intervención y de comparación. En estas figuras se puede observar que el conjunto de estrategias descritas logró crear dos grupos casi idénticos en términos de sus trayectorias y los promedios de rendimiento previos a la introducción del programa de SP. En este caso, las mejoras observadas en el grupo de intervención en el año 2015 son más creíbles que se expliquen por la introducción de SP dado que durante los años previos a la implementación del programa los dos grupos presentan promedios y tasas de crecimiento muy similares.
23 En el indicador de dominio geográfico, Lima metropolitana incluye la provincia del Callao pero no Lima Provincia.
36
Figura 2. Trayectoria de la prueba de comprensión lectora antes de introducir la intervención de Soporte Pedagógico para las muestras emparejadas del grupo de intervención y de comparación
Figura 3. Trayectoria de la prueba de matemática antes de introducir la intervención de Soporte Pedagógico para las muestras emparejadas del grupo de intervención y de comparación
37
Asimismo, la Tabla 3 presenta la media y la desviación estándar del escalar o valor estimado del propensity scores antes y después de emparejar las escuelas. Como es de esperarse, antes de emparejar las escuelas el valor medio del propensity score es más alto para las escuelas intervenidas que para las escuelas no intervenidas (0.59 versus 0.46). Sin embargo, después de aplicar el método emparejamiento el valor medio del propensity score es idéntico en los dos grupos. Asimismo, el ratio de las varianzas del propensity score en los dos grupos es casi igual a 1, como lo recomienda la literatura de matching para generar estimaciones de impacto confiables (Rubin, 2001). Estos resultados también se pueden apreciar en la Figura 4, la cual presenta distribuciones idénticas del propensity score para las muestras emparejadas del grupo de intervención y comparación.
Tabla 3. Descriptivos Estadísticos del Propensity Score antes y después de aplicar el método de emparejamiento Media
Desviación estandar
N
Escuelas sin Soporte Pedagógico
0.460
0.174
2,423
Escuelas con Soporte Pedagógico
0.592
0.165
2,732
Total muestra con propensity scores
5,155
Antes de aplicar el método de emparejamiento:
Después de aplicar el método de emparejamiento: Escuelas sin Soporte Pedagógico
0.509
0.160
1,098
Escuelas con Soporte Pedagógico
0.509
0.159
1,098
Total muestra emparejada
2,196
Fuente. Elaboración propia.
38
Figure 4. Distribución del Propensity Score para las muestras emparejadas del grupo de intervención y comparación
La Tabla 4 presenta descriptivos estadísticos para las variables de logro de aprendizaje de los alumnos de segundo grado de primaria en las áreas de comprensión lectora y matemática para el periodo 2011-2014. Específicamente, la Tabla 4 presenta el valor medio, el número de escuelas, la diferencia de medias entre las escuelas emparejadas del grupo de intervención y de comparación, el error estándar de la diferencia, el valor p, y el tamaño del efecto (o diferencia de medias estandarizadas). En general los grupos de intervención y de comparación son muy parecidos después del emparejamiento y que en casi todos los casos la diferencia de medias estandarizada es menor a 0.25, como lo recomienda la literatura de matching. La Tabla 3 del Apéndice B presenta estadísticos similares para un conjunto extenso de variables de la escuela, y nuevemante confirma la comparabilidad de los dos grupos.
39
Tabla 4. Descriptivos estadísticos de las variables de rendimiento para las muestras emparejadas del grupo de intervención y comparación Escuelas Sin Soporte Pedagógico Variables
Media
N1
Con Soporte Pedagógico Media
N2
DiferenError cia estándar
valor-p
Tamaño del Efecto
Comprensión 2014
561.39
1,098
559.87
1,098
-1.52
2.26
0.50
-0.03
Matemática 2014
558.87
1,098
558.57
1,098
-0.29
3.46
0.93
-0.00
Comprensión 2013
537.13
1,098
535.92
1,098
-1.21
2.16
0.57
-0.02
Matemática 2013
526.78
1,098
524.98
1,098
-1.81
2.93
0.54
-0.03
Comprensión 2012
528.79
1,098
525.82
1,098
-2.97
2.15
0.17
-0.06
Matemática 2012
519.46
1,098
516.11
1,098
-3.34
2.80
0.23
-0.05
Comprensión 2011
520.94
1,062
520.49
1,018
-0.46
2.20
0.84
-0.01
Matemática 2011
511.65
1,062
510.28
1,018
-1.38
2.90
0.64
-0.02
% logro Inicio Comprensión 2014
0.11
1,098
0.10
1,098
-0.00
0.01
0.67
-0.02
% logro Inicio Mate 2014
0.39
1,098
0.38
1,098
-0.00
0.01
0.96
-0.00
% logro Satisfactorio Comprensión 2014
0.38
1,098
0.37
1,098
-0.01
0.01
0.55
-0.03
% logro Satisfactorio Mate 2014
0.26
1,098
0.26
1,098
-0.00
0.01
0.90
-0.01
% logro Inicio Comprensión 2013
0.16
1,098
0.17
1,098
0.01
0.01
0.46
0.03
% logro Inicio Mate 2013
0.49
1,098
0.50
1,098
0.01
0.01
0.61
0.02
% logro Satisfactorio Comprensión 2013
0.27
1,098
0.27
1,098
-0.00
0.01
0.95
-0.00
% logro Satisfactorio Mate 2013
0.16
1,098
0.16
1,098
0.00
0.01
0.93
0.00
% logro Inicio Comprensión 2012
0.20
1,098
0.22
1,098
0.01
0.01
0.13
0.07
% logro Inicio Mate 2012
0.51
1,098
0.52
1,098
0.02
0.01
0.13
0.06
% logro Satisfactorio Comprensión 2012
0.24
1,098
0.23
1,098
-0.01
0.01
0.30
-0.04
% logro Satisfactorio Mate 2012
0.12
1,098
0.12
1,098
-0.00
0.01
0.94
-0.00
Desviación Estándar Comprensión 2014
64.88
1,098
65.74
1,098
0.86
0.71
0.23
0.05
Desviación Estándar Matemática 2014
93.85
1,098
94.78
1,098
0.93
1.05
0.38
0.04
Desviación Estándar Comprensión 2013
65.37
1,098
65.48
1,098
0.11
0.66
0.86
0.01
Desviación Estándar Matemática 2013
82.24
1,098
81.13
1,098
-1.12
0.92
0.23
-0.05
Fuente: Elaboración propia.
40
Asimismo, el Apéndice B presenta otros resultados de diagnóstico que validan la comparabilidad de los grupos de intervención y comparación formados a partir del método de emparejamiento. Estos resultados incluyen la Tabla 3 que presenta los resultados de balance (el valor promedio de diversas variables, el número de escuelas, la diferencia de medias entre las escuelas emparejadas del grupo de intervención y de comparación, el error estándar de la diferencia, el valor p, y el tamaño del efecto). Adicionalmente, la Figura 2 de dicho apéndice presenta los gráficos de boxplots del propensity score antes y después del emparejamiento para losgrupos de intervención y de comparación. Los resultados de diagnóstico para la muestra creada para los análisis de robustez o Muestra B se presentan en el Apéndice B, en las Figuras 3, 4, 5 y la Tabla 5.
41
6. RESULTADOS En este capítulo presentamos los resultados del impacto del programa de SP en el rendimiento académico de los estudiantes de segundo grado de primaria de las escuelas públicas, polidocentes urbanas. Para medir rendimiento académico usamos dos tipos de variables de resultado. En primer lugar, estimamos los efectos de SP en los resultados promedio de las escuelas, tanto en comprensión lectora como en matemática usando la información de la ECE de 2009 a 2015. En segundo lugar, utilizamos el porcentaje de estudiantes que conforman cada uno de las tres niveles de logro (inicial, en proceso y satisfactorio) en las pruebas de la ECE. Para la definición de estas variables también se empleó información del periodo de 2009 a 2015. Los resultados del impacto muestran que SP generó una mejora modesta pero promisoria en el rendimiento académico de los estudiantes de las escuelas intervenidas. En promedio, los resultados muestran que los estudiantes que recibieron la intervención de SP presentan resultados superiores en las pruebas de la ECE de aproximadamente 0.1 desviaciones estándar en comprensión lectora con relación a los estudiantes del grupo de comparación y de 0.07 desviaciones estándar en Matemática. Por su parte, los resultados en las variables de logro muestran que los estudiantes de SP resultan 3 puntos porcentuales menos probables de pertenecer al grupo de nivel inicial de logro tanto en comunicación como en matemática. Los resultados de impacto son robustos a diferentes tipos de especificaciones, variables de control y tipo de muestras empleadas. Asimismo, los resultados no son heterogéneos al grado de implementación de la intervención.
Impacto en comprensión lectora y matemática En las Tablas 5 y 6 se presentan los resultados de impacto de SP en comprensión lectora y matemática, respectivamente, usando diferentes metodologías y variables de control para la Muestra A (descrita en el Capítulo 5). La columna (1) muestra los resultados para el modelo DiD que emplea información de las ECE de 2013 a 2015. Para este modelo se asume que los efectos del programa de SP solo pueden ser observados a partir de 2015.24 Los resultados del modelo de DiD en la Tabla 5 para la variable Soporte indican que la diferencia entre el grupo de intervención y de comparación antes de la intervención 24 Este supuesto se investiga con mayor detalle más adelante en este capítulo.
42
es solo de 0.28 puntos de la prueba de comprensión lectora en favor del grupo de comparación y no es estadísticamente significativa. Este resultado no es sorprendente en la medida en que ello es precisamente lo que se quería lograr a partir del proceso de emparejamiento estadístico: que los estudiantes del grupo de intervención y de comparación fueran lo más parecido posibles en términos de su rendimiento académico antes de la introducción del programa. Por su parte, los resultados de la variable “I(2015)” indican que los estudiantes de segundo de primaria del grupo de comparación que tomaron la ECE en 2015 obtuvieron en promedio 36 puntos adicionales en la prueba de comprensión lectora más que los estudiantes del grupo de comparación de los años anteriores a la intervención. Por último, la interacción de estas dos variables, “Soporte X I(2015)”, indica que el efecto causal del programa de SP en comprensión lectora es de 5.6 puntos en la prueba, resultado que es estadísticamente significativo y que equivale a una ganancia de aproximadamente 0.08 desviaciones estándar.
Tabla 5. Resultados de impacto de la intervención de Soporte Pedagógico en comprensión lectora DiD
CITS
(1)
(2)
(3)
(4)
-0.28 (2.36)
Tamaño del Efecto (DE) Características del Modelo Inicio Programa Efectos Fijos Otros Controles Años Usados
36.04** (1.20) 5.66** (1.67) 0.08**
-1.17 (2.48) 7.85** (0.30) -0.52 (0.41) 26.31** (1.38) 7.07** (1.91) 0.10**
-0.59 (2.30) 8.10** (0.30) -0.39 (0.41) 26.07** (1.36) 6.65** (1.89) 0.10**
3.03 (2.09) 8.31** (0.29) -0.49 (0.40) 24.96** (1.36) 6.67** (3.03) 0.10**
2015 No No 2013-15
2015 No No 2009-15
2015 Dominio No 2009-15
2015 Dominio Sí 2009-15
N Estudiantes
296,804
694,114
694,114
691,523
2,195
2,195
2,195
2,194
Soporte = 1 Tendencia Lineal Soporte X Tendencia I(2015) = 1 Soporte X I(2015)
N Escuelas
Notas: errores estándar agrupados (clustered) al nivel de la escuela en paréntesis. Controles usados a nivel de la escuela: variable indicadora si recibió “Acompañamiento Pedagógico Multigrado”, variable indicadora si recibió “Acompañamiento Pedagógico Intercultural Bilingüe”, tasa de aprobación estudiantil, total de docentes, total de alumnos, y porcentaje de alumnos de lengua indígena. Controles usados a nivel distrital: tasa de pobreza, tasa de pobreza extrema, y tasa de desnutrición del 2009. La muestra incluye escuelas emparejadas a partir del método
43
de caliper matching usando información histórica de rendimiento para el periodo 2011-2014 y otras variables que caracterizan a la escuela y a los estudiantes que atienden la escuela. El proceso de emparejamiento fue estratificado usando Dominio Geográfico de la escuela. DE=Desviaciones Estándar Nivel de significancia: * p