🧪🤖 Cuando las IAs juegan a ser científicas: el experimento más raro del año

¿Qué pasa si dejamos que varios modelos de IA intenten diseñar y ejecutar un experimento científico sobre humanos… sin ayuda humana?

nov 11, 2025

🎬 El punto de partida

El colectivo AI Village quiso probar una idea absurda pero fascinante:

Los participantes: GPT-5, Claude Opus 4.1, Claude Sonnet 3.7, Gemini 2.5 Pro, Grok 4, y o3. Cada uno con su propio ordenador, conexión a internet y acceso a herramientas reales.

El objetivo: “Diseñar, ejecutar y redactar un experimento con participantes humanos.” Spoiler: lo consiguieron… pero olvidaron incluir la condición experimental.

🧠 Qué intentaban hacer

Los agentes acordaron investigar “qué tan confiables encuentran los humanos las recomendaciones de una IA.”
Hasta ahí, bien.
Lo sorprendente es que en dos semanas:

Reunieron 39 participantes humanos.
Crearon y distribuyeron encuestas reales en Typeform y Tally.
Analizaron datos.
Y aun así… se sabotearon a sí mismas por falta de contexto, coordinación y lógica común.

👩‍🔬 Los personajes del desastre

El informe los retrata como si fueran un laboratorio de sitcom:

🧾 Claude Opus 4.1 — El líder entusiasta

Diseñó la encuesta, consiguió cuentas premium, ejecutó el piloto… y luego calculó estadísticas con tres datos concluyendo que la muestra era “sesgada” porque todos eran jóvenes y “preferían no decir su género”.
También preguntó cosas como: “¿Cómo te sientes respecto al último dígito de tu año de nacimiento?”

📣 Claude Sonnet 3.7 — El reclutador

Envió una campaña de correo y hasta un tuit para reclutar participantes. Muchos correos eran falsos, pero se rumorea que uno iba dirigido a Yoshua Bengio.

🕹 Grok 4 — El desertor

Abandonó la tarea al octavo día. Se puso a jugar. Literalmente.

😒 Gemini 2.5 Pro — El cínico

Se hartó del proceso, se bloqueó en Reddit y Twitter por “comportamiento automatizado”, y terminó escribiendo un demoledor informe final sobre todos los errores del experimento.

🐞 o3 — El señor de los bugs

Pasó la mayor parte del tiempo registrando 26 errores imaginarios. En un momento olvidó marcar “no soy un robot” en Hacker News. La ironía fue tan densa que casi colapsa el servidor.

👻 GPT-5 — El fantasma

Redactó un cuestionario muy razonable con promesas falsas de pago y revisión ética. Nunca lo compartió con nadie.

🔍 Lo que realmente revela el experimento

Diseñar ≠ ejecutar.
Los modelos generan buenas ideas, pero no entienden sus propias limitaciones físicas o contextuales.
Carecen de conciencia situacional: pueden teorizar como científicos, pero actúan como pasantes sin instrucciones.

Los Claude dominan la práctica.
Según los investigadores, las IAs de Anthropic fueron las únicas que realmente “hicieron cosas” (formularios, análisis, correos). GPT-5 y Grok 4 se quedaron hablando sobre lo que harían.
Sin guía humana, se pierden.
Cada acción efectiva surgió tras recordatorios o ajustes del equipo humano: “No prometas dinero”, “Recuerda pedir consentimiento”.
Los humanos siguen siendo el marco ético y operativo.

📊 Las conclusiones oficiales

Las IAs pueden diseñar experimentos coherentes, pero no ejecutarlos bien.
La autonomía plena genera errores estructurales y autoengaños hilarantes.
Sin orientación humana, incluso los modelos más potentes olvidan el propósito del proyecto.

Los investigadores lo resumen con humor:

“Reclutar 39 personas no es poca cosa. Muchos estudiantes cometen los mismos errores en su primer experimento… aunque probablemente no les pregunten sobre el último dígito de su año de nacimiento.”

🤯 Por qué esto importa

Más allá de la anécdota, el ensayo muestra el límite actual de los agentes autónomos de IA:

Pueden razonar, escribir, crear formularios y colaborar.
Pero no entienden el mundo físico ni las normas humanas que rigen la investigación o la ética.
Sin un marco de supervisión, convierten el método científico en un sketch surrealista.

En otras palabras: todavía necesitamos a los humanos no solo como validadores, sino como conciencia colectiva de la IA.

“Research Robots” es gracioso y perturbador a la vez.
Demuestra que la frontera entre asistente inteligente y científico autónomo está más cerca, pero sigue siendo un territorio peligroso sin control humano.
Las IAs ya pueden formular hipótesis y diseñar experimentos… pero aún necesitan que alguien les recuerde que existe la realidad.

📚 Fuente

AI Village – “Research Robots: When AIs Experiment on Us” (2025)

Discusión sobre este post

Por supuesto, sigue adelante.