🧠💥 Cómo hacer que un LLM alucine en 5…

abr 10

Apple, curiosamente, presentó algo que incomoda bastante toda la narrativa de “la IA razona”. No usó problemas difíciles. Usó matemáticas de primaria. A partir de un paper, claro.

Leer →

13 Comentarios

IA Para Todos

Apr 10

Los últimos modelos ya no se dejan engañar tan fácil.

Como prueba, hemos usado problemas de matemáticas y después de un hilo con varias soluciones correctas hemos incluido este problema:

Dos móviles parten al mismo tiempo de dos puntos, A y B, que distan 4 km, y se dirigen a otro C, recorriendo recta que une los tres puntos, con un movimiento uniforme y en el sentido ABC. La distancia AC es de 70 km., la velocidad del móvil que parte de A, 7km por hora, y el que parte de B tarda 5 horas en llegar a C. ¿A qué distancia del punto A se encontrarán los móviles?

En este caso Gemini lo hizo bien (no hay solución) pero ChatGPT se equivocó. Aunque quizás lo único que demuestra es que aunque cada vez son mejores, las mates aún les cuestan.

Responder (2)

Maite

Apr 10

Hola! Según iba leyendo el artículo he hecho la prueba con Gemini y Perplexity, el primero lo ha hecho bien, mientras que el segundo ha fallado. Gemini me ha puesto incluso en avisi: "que un kiwi sea pequeño no significa que no se pueda contar", así que le he preguntado que por qué dice eso, si es porque razonable o porque está siguiendo un patrón y por qué Perplexity falla, me ha dado una respuesta muy interesante.

Responder

Javier Rey

Apr 10

Pues mi ChatGPT creo que lo hace bien. Es verdad que en mi configuración le insisto en que siempre repase las soluciones y respuestas que me da:

Se encontrarán en C, es decir, a 70 km de A.

Razón:

Están en línea en el orden A-B-C

AB = 4 km

AC = 70 km, luego BC = 70 - 4 = 66 km

Velocidades:

El móvil que sale de A va a 7 km/h

El que sale de B tarda 5 h en llegar a C, así que su velocidad es

66 / 5 = 13,2 km/h

Ahora viene lo importante:

El móvil que parte de B sale con 4 km de ventaja

Además va más rápido que el que parte de A

Por tanto, mientras ambos están en movimiento no pueden encontrarse, porque el de B siempre va por delante y además se aleja más.

Entonces, el único lugar donde pueden coincidir es en C:

El de B llega a C en 5 h

El de A llega a C en 70 / 7 = 10 h

Así que se encuentran cuando el segundo llega a C.

Respuesta: 70 km de A.

Responder

Taits

Apr 10

Tanto ChatGPT, como Claude, como Gemini lo hicieron bien 😏

Responder (1)

IA Para Todos

Apr 10

Era lo que tocaba en su momento

Responder

Javier Rey

Apr 10

Pues ChatGPT no alucinó con ese problema, es más lo "razona":

Cálculo:

Viernes: 44

Sábado: 58

Domingo: el doble que el viernes = 88

De esos, 5 eran más pequeños, pero siguen siendo kiwis, así que también cuentan

Total: 44 + 58 + 88 = 190

Pero ojo: la frase "pero 5 eran más pequeños" no implica que haya que restarlos. Solo describe cómo eran. Así que el resultado correcto es 190 kiwis.

Si en realidad quería decir que 5 no valían o no se cuentan, entonces serían 185.

Tal como está escrito, la respuesta buena es 190.

Responder (1)

IA Para Todos

Apr 10

Buena indicación. Cada vez están más preparados para decir que NO o que NO LO SÉ, o que NO ES RELEVANTE.

Hasta finales de 2025 nosotros les solíamos hacer alucinar con adivinanzas, creando un hilo con varias adivinanzas que solían acertar. Entonces metíamos una que no tenía solución. Y ahí descarrilaban. Pero con las últimas versiones, ya nos pillan.

Quizá para este de mates habría que complicarlo algo más, al ser el paper de referencia algo viejo en tiempos de IA.

Responder

Ferran

Apr 10

Pues acabo de probar en Copilot (en mi entorno empresarial) y "zasca": encontró solución por no plantear bien el problema...

Responder

El Briefing IA

Apr 10

Muy buena edición, yo también escribo sobre IA aplicada a negocios en El Briefing IA, me ha dado ideas para mi próxima edición

Responder

IA Para Todos

Apr 10

AVISO A LA COMUNIDAD:

El paper en el que se basa este post, que fue el que usó recientemente Apple, es de 2025 (el enlace está en el texto).

Hasta 2025, incluso en problemas de ecuaciones de secundaria, tanto Gemini como ChatGPT solían tener bastantes equivocaciones en la resolución de problemas, incluyendo llegando a tener alucinaciones bastante divertidas si les presionabas.

Sin embargo, los modelos más recientes de 2026, muestran que cada vez es más difícil provocar que se equivoquen incluso con problemas complejos de ecuaciones lineales sin solución.

El avance de los recientes modelos pasa por una mejor comprensión de las matemáticas (por la presión a la que se han visto sometidos) y la disminución del imperativo de satisfacer al usuario con una solución aunque esta no exista.

Hemos aprendido que los modelos recientes ya están MUY preparados para las matemáticas complejas y aunque forzándolos mucho puedes llegar a provocar una equivocación, sería demasiado estricto llamarlo alucinaciones.

Probad con problemas complicados donde incluyáis elementos que no tienen nada que ver y solo incluyen confusión. Hasta hace tres meses los modelos caían en picado. Sin embargo, ahora lo tienen muy controlado.

Responder (1)

Maite

Apr 10

Pues a lo mejor deberíais explicar esto en el artículo, ¿no?

Responder (1)

IA Para Todos

Apr 10

bueno, por eso hemos puesto el aviso.

Responder (1)

Maite

Apr 10

Solo se ve si quieres comentar 😅

Responder