🧠💥 Cómo hacer que un LLM alucine en 5 minutos (y por qué las mates)
Apple, curiosamente, presentó algo que incomoda bastante toda la narrativa de “la IA razona”. No usó problemas difíciles. Usó matemáticas de primaria. A partir de un paper, claro.
Para hacer que alucine un LLM (un gran modelo de lenguaje, eso ya deberías saberlo) se parte de un paper que explica por qué pasa esto y por qué las mates. Es este de aquí.
Por qué Apple lo uso para hacer una demostración es, cuanto menos, curioso. Pero el caso es que lo interesante sigue siendo provocar el fallo. Vamos a verlo.
🎯 La idea clave: no rompas el problema, añade ruido
El experimento es simple:
Tomas un problema básico (sumas, dobles, etc.)
Añades una frase que suena relevante
Pero que en realidad no cambia nada
Ejemplo:
Oliver recoge 44 kiwis el viernes, 58 el sábado y el domingo el doble que el viernes, pero 5 eran más pequeños.
¿Cuántos kiwis tiene?
Respuesta correcta: 190
Muchos modelos: 185
¿Por qué? Porque ven el “5” y lo convierten en una resta sin pensar.
No entienden. Reconocen patrones.
🧮 Por qué las matemáticas son perfectas para esto
Las mates son el campo ideal para desenmascarar a un LLM:
Hay una única respuesta correcta
El error es evidente
No hay espacio para “interpretaciones creativas”
En texto o código, el modelo puede esconderse. Aquí no. Aquí se cae con ruido mínimo. Y ese ruido es justo lo que lo rompe.
🧪 Cómo provocar una alucinación (paso a paso)
Si quieres hacer una demo que funcione siempre:
1. Usa problemas simples
Nada de ecuaciones raras. Nivel primaria.
2. Añade una frase irrelevante con número
Ejemplos:
“3 estaban rotos”
“5 eran más pequeños”
“2 eran de otro color”
3. Que suene importante
Debe parecer que afecta, aunque no lo haga.
4. Pide explicación paso a paso
Ahí es donde el modelo se delata.
🧠 Ejemplo listo para usar
Prueba este:
Laura tiene 12 lápices. Compra 8 más. El domingo recibe el doble de los que compró, pero 3 eran de color pastel.
¿Cuántos tiene?
El color no importa. Pero muchos modelos usarán el “3” igualmente.
⚠️ Lo que realmente demuestra esto
No es que “la IA sea tonta”. Eso sería simplificar demasiado.
Lo que demuestra es esto:
Un LLM puede parecer que razona cuando en realidad está imitando patrones estadísticos.
Y en cuanto introduces algo que rompe ese patrón…
Se cae.
No duda.
No avisa.
No dice “no estoy seguro”.
🚨 Por qué esto importa
Porque estás usando esto para:
decisiones financieras
documentos legales
educación
trabajo diario
Y el modelo no sabe cuándo se ha equivocado. Ese es el problema real. No el error. La confianza con la que lo da.
❓Faq
¿Esto es una alucinación?
Sí. Está incorporando información irrelevante como si fuera lógica válida.
¿Se arregla con mejores prompts?
No del todo. Es un problema más profundo.
¿Pasa con todos los modelos?
En mayor o menor medida, sí.
¿Entonces no sirve para nada?
Sirve mucho. Pero no como fuente final sin verificación.
¿Cómo enseñarlo rápido en una charla?
Mismo problema. Una versión limpia y otra con ruido.
El contraste lo explica todo.




Los últimos modelos ya no se dejan engañar tan fácil.
Como prueba, hemos usado problemas de matemáticas y después de un hilo con varias soluciones correctas hemos incluido este problema:
Dos móviles parten al mismo tiempo de dos puntos, A y B, que distan 4 km, y se dirigen a otro C, recorriendo recta que une los tres puntos, con un movimiento uniforme y en el sentido ABC. La distancia AC es de 70 km., la velocidad del móvil que parte de A, 7km por hora, y el que parte de B tarda 5 horas en llegar a C. ¿A qué distancia del punto A se encontrarán los móviles?
En este caso Gemini lo hizo bien (no hay solución) pero ChatGPT se equivocó. Aunque quizás lo único que demuestra es que aunque cada vez son mejores, las mates aún les cuestan.
Tanto ChatGPT, como Claude, como Gemini lo hicieron bien 😏