En los últimos años se ha venido generando un interés cada vez más creciente en el desarrollo de evaluaciones a gran escala, especialmente en el ámbito educativo. Las causas del surgimiento de este tipo de necesidades se pueden apreciar tanto en el fenómeno de globalización como en el creciente interés de los países en establecer estándares educativos internacionales que permitan comparar el desempeño de los alumnos entre los diversos países participantes.

Los resultados de evaluaciones internacionales a gran escala en las que se busca comparar a sujetos de diversos idiomas y culturas como el Programme for International Student Assessment  (PISA), Trends in International Mathematics and Science (TIMSS) o el International Assessment of Educational Progress (IAEP) están teniendo importantes repercusiones políticas, económicas y sociales en los países participantes.

Ante este tipo de evaluaciones y, sobre todo, ante sus consecuencias, surgen varias cuestiones: ¿cuáles son los costes de este tipo de evaluaciones?, ¿están lo suficientemente justificadas las comparaciones entre países?, ¿presentan algún tipo de sesgo las preguntas que componen las evaluaciones?, ¿son seguras estas pruebas?, entre otras.

En el caso de PISA la OCDE ha publicado informes completos sobre el proceso de construcción de la evaluación, y datos técnicos sobre el análisis de resultados, sin embargo, no deja de ser un proceso complejo, costoso y que no se puede tomar a la ligera. Algunos países utilizan los resultados para hacer listas y ordenamientos de sus instituciones educativas y para tomar decisiones en materia de políticas educativas.

Las evaluaciones internacionales son un reto para el futuro en muchos aspectos: es necesario reducir sus costes mediante la generación automática de ítems y el aprovechamiento de los ítems ya construidos, es necesario también un estudio más profundo de la validez y aspectos relacionados como el funcionamiento diferencial de los ítems y posibles sesgos. Pero el reto más importante es buscar el lugar más adecuado a las interpretaciones de las puntuaciones, es decir, establecer límites de hasta dónde deben llegar las mismas y también educar a la sociedad en general para enfocar de manera crítica los resultados de estos procesos.