Una nueva investigación realizada por Apple reveló que los modelos de inteligencia artificial dedicados al razonamiento no son tan “inteligentes” como aparentan. Según un estudio publicado días antes de su evento WWDC 2025, los llamados Large Reasoning Models (LRMs) —como OpenAI o1 y o3, DeepSeek R1, Claude 3.7 Sonnet Thinking y Google Gemini Flash Thinking— colapsan cuando enfrentan problemas lógicos de mayor dificultad.
El informe representa un llamado de atención para los entusiastas de la inteligencia artificial general (AGI) y confirma, para los escépticos, que estos modelos aún tienen limitaciones importantes. Aunque las LRMs mostraron un buen desempeño en acertijos de dificultad media, sorprendentemente fallaron más en acertijos simples y se desplomaron por completo ante los más difíciles, abandonando el intento antes de tiempo.
Como señalaron los investigadores de Apple: “Estos modelos dan la ilusión de pensar, pero no llegan a resolver problemas realmente complejos.”
Para este análisis, los especialistas de Apple utilizaron acertijos clásicos de lógica, como la Torre de Hanoi, en la que se deben mover discos de una base a otra siguiendo reglas específicas. También incluyeron problemas de damas chinas, cruzar el río (el reto del zorro, la gallina y el saco de grano) y ordenar bloques.
Aunque son problemas diseñados para medir la capacidad lógica humana, se observó que los modelos de IA empezaron a fallar al aumentar la dificultad. Por ejemplo, Claude 3.7 Sonnet Thinking y DeepSeek R1 colapsaron al agregar un quinto disco en la Torre de Hanoi, y ni siquiera incrementar la capacidad de cómputo resolvió la situación.
Curiosamente, la investigación encontró que los LRMs al principio dedican más recursos cognitivos a medida que el problema se complica, pero, al acercarse a cierto límite, reducen su esfuerzo y abandonan antes de resolverlo. Incluso cuando se les proporcionó el algoritmo correcto para seguir paso a paso, continuaron fallando.
Este hallazgo no significa que estos modelos no razonen en absoluto, sino que sus capacidades actuales no superan las limitaciones humanas comunes. Como apuntó el experto en IA Gary Marcus:
“Muchos humanos también cometen errores en acertijos como la Torre de Hanoi con ocho discos.”
Lo importante de esta investigación es recordar que, aunque la IA es excelente en tareas como programación o redacción, no reemplaza los algoritmos bien estructurados para problemas complejos.
Las conclusiones de Apple son una pieza más dentro del debate sobre el verdadero alcance de la inteligencia artificial. Aunque algunos titulares buscan alarmar o entusiasmar según su postura, la realidad está en un punto intermedio: la IA ha avanzado, pero sus límites siguen siendo evidentes en tareas que requieren razonamiento profundo y lógico.
Conoce la nota completa aquí.
Explore nuestras últimas ideas, consejos y mejores prácticas.