Apple, curiosamente, presentó algo que incomoda bastante toda la narrativa de “la IA razona”. No usó problemas difíciles. Usó matemáticas de primaria. A partir de un paper, claro.
Los últimos modelos ya no se dejan engañar tan fácil.
Como prueba, hemos usado problemas de matemáticas y después de un hilo con varias soluciones correctas hemos incluido este problema:
Dos móviles parten al mismo tiempo de dos puntos, A y B, que distan 4 km, y se dirigen a otro C, recorriendo recta que une los tres puntos, con un movimiento uniforme y en el sentido ABC. La distancia AC es de 70 km., la velocidad del móvil que parte de A, 7km por hora, y el que parte de B tarda 5 horas en llegar a C. ¿A qué distancia del punto A se encontrarán los móviles?
En este caso Gemini lo hizo bien (no hay solución) pero ChatGPT se equivocó. Aunque quizás lo único que demuestra es que aunque cada vez son mejores, las mates aún les cuestan.
Hola! Según iba leyendo el artículo he hecho la prueba con Gemini y Perplexity, el primero lo ha hecho bien, mientras que el segundo ha fallado. Gemini me ha puesto incluso en avisi: "que un kiwi sea pequeño no significa que no se pueda contar", así que le he preguntado que por qué dice eso, si es porque razonable o porque está siguiendo un patrón y por qué Perplexity falla, me ha dado una respuesta muy interesante.
Buena indicación. Cada vez están más preparados para decir que NO o que NO LO SÉ, o que NO ES RELEVANTE.
Hasta finales de 2025 nosotros les solíamos hacer alucinar con adivinanzas, creando un hilo con varias adivinanzas que solían acertar. Entonces metíamos una que no tenía solución. Y ahí descarrilaban. Pero con las últimas versiones, ya nos pillan.
Quizá para este de mates habría que complicarlo algo más, al ser el paper de referencia algo viejo en tiempos de IA.
El paper en el que se basa este post, que fue el que usó recientemente Apple, es de 2025 (el enlace está en el texto).
Hasta 2025, incluso en problemas de ecuaciones de secundaria, tanto Gemini como ChatGPT solían tener bastantes equivocaciones en la resolución de problemas, incluyendo llegando a tener alucinaciones bastante divertidas si les presionabas.
Sin embargo, los modelos más recientes de 2026, muestran que cada vez es más difícil provocar que se equivoquen incluso con problemas complejos de ecuaciones lineales sin solución.
El avance de los recientes modelos pasa por una mejor comprensión de las matemáticas (por la presión a la que se han visto sometidos) y la disminución del imperativo de satisfacer al usuario con una solución aunque esta no exista.
Hemos aprendido que los modelos recientes ya están MUY preparados para las matemáticas complejas y aunque forzándolos mucho puedes llegar a provocar una equivocación, sería demasiado estricto llamarlo alucinaciones.
Probad con problemas complicados donde incluyáis elementos que no tienen nada que ver y solo incluyen confusión. Hasta hace tres meses los modelos caían en picado. Sin embargo, ahora lo tienen muy controlado.
Los últimos modelos ya no se dejan engañar tan fácil.
Como prueba, hemos usado problemas de matemáticas y después de un hilo con varias soluciones correctas hemos incluido este problema:
Dos móviles parten al mismo tiempo de dos puntos, A y B, que distan 4 km, y se dirigen a otro C, recorriendo recta que une los tres puntos, con un movimiento uniforme y en el sentido ABC. La distancia AC es de 70 km., la velocidad del móvil que parte de A, 7km por hora, y el que parte de B tarda 5 horas en llegar a C. ¿A qué distancia del punto A se encontrarán los móviles?
En este caso Gemini lo hizo bien (no hay solución) pero ChatGPT se equivocó. Aunque quizás lo único que demuestra es que aunque cada vez son mejores, las mates aún les cuestan.
Hola! Según iba leyendo el artículo he hecho la prueba con Gemini y Perplexity, el primero lo ha hecho bien, mientras que el segundo ha fallado. Gemini me ha puesto incluso en avisi: "que un kiwi sea pequeño no significa que no se pueda contar", así que le he preguntado que por qué dice eso, si es porque razonable o porque está siguiendo un patrón y por qué Perplexity falla, me ha dado una respuesta muy interesante.
Pues mi ChatGPT creo que lo hace bien. Es verdad que en mi configuración le insisto en que siempre repase las soluciones y respuestas que me da:
Se encontrarán en C, es decir, a 70 km de A.
Razón:
Están en línea en el orden A-B-C
AB = 4 km
AC = 70 km, luego BC = 70 - 4 = 66 km
Velocidades:
El móvil que sale de A va a 7 km/h
El que sale de B tarda 5 h en llegar a C, así que su velocidad es
66 / 5 = 13,2 km/h
Ahora viene lo importante:
El móvil que parte de B sale con 4 km de ventaja
Además va más rápido que el que parte de A
Por tanto, mientras ambos están en movimiento no pueden encontrarse, porque el de B siempre va por delante y además se aleja más.
Entonces, el único lugar donde pueden coincidir es en C:
El de B llega a C en 5 h
El de A llega a C en 70 / 7 = 10 h
Así que se encuentran cuando el segundo llega a C.
Respuesta: 70 km de A.
Tanto ChatGPT, como Claude, como Gemini lo hicieron bien 😏
Era lo que tocaba en su momento
Pues ChatGPT no alucinó con ese problema, es más lo "razona":
Cálculo:
Viernes: 44
Sábado: 58
Domingo: el doble que el viernes = 88
De esos, 5 eran más pequeños, pero siguen siendo kiwis, así que también cuentan
Total: 44 + 58 + 88 = 190
Pero ojo: la frase "pero 5 eran más pequeños" no implica que haya que restarlos. Solo describe cómo eran. Así que el resultado correcto es 190 kiwis.
Si en realidad quería decir que 5 no valían o no se cuentan, entonces serían 185.
Tal como está escrito, la respuesta buena es 190.
Buena indicación. Cada vez están más preparados para decir que NO o que NO LO SÉ, o que NO ES RELEVANTE.
Hasta finales de 2025 nosotros les solíamos hacer alucinar con adivinanzas, creando un hilo con varias adivinanzas que solían acertar. Entonces metíamos una que no tenía solución. Y ahí descarrilaban. Pero con las últimas versiones, ya nos pillan.
Quizá para este de mates habría que complicarlo algo más, al ser el paper de referencia algo viejo en tiempos de IA.
Pues acabo de probar en Copilot (en mi entorno empresarial) y "zasca": encontró solución por no plantear bien el problema...
Muy buena edición, yo también escribo sobre IA aplicada a negocios en El Briefing IA, me ha dado ideas para mi próxima edición
AVISO A LA COMUNIDAD:
El paper en el que se basa este post, que fue el que usó recientemente Apple, es de 2025 (el enlace está en el texto).
Hasta 2025, incluso en problemas de ecuaciones de secundaria, tanto Gemini como ChatGPT solían tener bastantes equivocaciones en la resolución de problemas, incluyendo llegando a tener alucinaciones bastante divertidas si les presionabas.
Sin embargo, los modelos más recientes de 2026, muestran que cada vez es más difícil provocar que se equivoquen incluso con problemas complejos de ecuaciones lineales sin solución.
El avance de los recientes modelos pasa por una mejor comprensión de las matemáticas (por la presión a la que se han visto sometidos) y la disminución del imperativo de satisfacer al usuario con una solución aunque esta no exista.
Hemos aprendido que los modelos recientes ya están MUY preparados para las matemáticas complejas y aunque forzándolos mucho puedes llegar a provocar una equivocación, sería demasiado estricto llamarlo alucinaciones.
Probad con problemas complicados donde incluyáis elementos que no tienen nada que ver y solo incluyen confusión. Hasta hace tres meses los modelos caían en picado. Sin embargo, ahora lo tienen muy controlado.
Pues a lo mejor deberíais explicar esto en el artículo, ¿no?
bueno, por eso hemos puesto el aviso.
Solo se ve si quieres comentar 😅