ChatGPT responde la PAES 2024: obtiene hasta 96% de las respuestas correctamente

Robot con el logo de ChatGPT contestando una prueba estandarizada

En Abril hicimos que ChatGPT contestara la PAES (prueba de admisión para la universidad en Chile) y los resultados fueron sorprendentes, pues llegó a superar al 99% de los estudiantes en la prueba de Competencia Lectora.

Desde ese entonces, ChatGPT ha ganado nuevas capacidades: ahora puede "ver" con el modelo GPT4-Vision, por lo que puede responder preguntas con gráficos y otras formas que antes no podía, pero también ha recibido cuestionamientos de que se estaría volviendo "más tonto", o "más flojo". ¿Cómo esto puede afectar su capacidad de responder la PAES?

Pusimos nuevamente a prueba al robot de OpenAI y hace unos días hicimos que ChatGPT creara los Clavijeros para las respuestas para la PAES Admisión 2024, la prueba que se rindió a finales de noviembre de 2023. El DEMRE (organismo oficial encargado de la publicación y evaluación de la PAES) por fin publicó los clavijeros oficiales así que los comparamos con los que el robot generó y estos fueron los resultados.

Robot con el logo de ChatGPT contestando una prueba estandarizada

Resultados

El robot obtuvo desde 81.3% hasta 96% de las respuestas correctas. El puntaje más bajo que sacó fue 745, en la prueba de Física, y el más alto fue 918, en la prueba de Competencia Lectora.

Además, usando la herramienta WebPlotDigitizer, extrajimos densidades estimadas de las distribuciones de puntajes PAES reportados en gráficos por DEMRE en el informe técnico del año pasado. Con esta información pudimos estimar que ChatGPT hubiese estado dentro del 4% superior de quienes rindieron la prueba de Comprensión Lectora, que fue su mejor prueba.

¿Empeoró respecto a la vez anterior?

Los resultados de las pruebas de ciencia son nuevos para nosotros pues cuando hicimos el experimento en Abril, ChatGPT aún no podía interpretar figuras y gráficos. Sin embargo nos sorprende que su desempeño esté entorno a los 700s y no a los 800s y 900s, como en las otras pruebas, pues según OpenAI GPT-4 no es particularmente peor en ciencia que en otras categorías.

Por otro lado, anteriormente sí pudo responder la prueba de Competencia Lectora y la prueba de Historia. El resultado de la prueba de Verbal fue muy cercano al promedio de la vez anterior (919), sin embargo, en Historia tuvo una baja importante respecto al promedio anterior (914), pero aún así mejor que la peor prueba que ha dado en historia hasta el momento (870).

¿Cómo puedo saber más sobre este experimento?

En este post explicamos el código del experimento que hicimos en Abril. Mientras que en este artículo te explicamos los detalles y el costo de este experimento.

Si deseas más información al respecto, te invitamos a suscribirte al final de este post, o bien, contactarnos por nuestro formulario de contacto.

Preguntas frecuentes

¿No es obvio que le debería ir muy bien si "es una gran base de datos"?

No. ChatGPT es está basado en un modelo de lenguaje enorme, un tipo de algoritmo computacional que lo que hace muy bien es predecir la siguiente palabra en base a lo dicho anteriormente.

A diferencia de otras funciones computacionales, como podría ser una consulta a una base de datos, no es capaz de dar una respuesta exactamente igual en el 100% de los casos, incluso dado la misma pregunta.

Aprende más sobre estos temas en nuestro libro ChatGPT para principiantes y en nuestro capítulo de nuestro podcast sobre qué es un LLM (la tecnología detrás de ChatGPT).

¿No es obvio que le debería ir muy bien si puede ir a internet a buscar las respuestas?

El modelo que utilizamos para estos cálculos no utiliza conexión a internet.