Google se lanza a la carrera por los robots con la mirada puesta en los humanoides

La multinacional dota de cerebro a las máquinas al adaptar la inteligencia artificial de Gemini para que desarrollen capacidades humanas

Robot androide de Apptronic dotado con la inteligencia artificial de Google, durante una prueba.Google DeepMind

Raúl Limón

12 mar 2025 - 16:28CET

Compartir en Facebook

Compartir en Twitter

Compartir en Bluesky

Compartir en Linkedin

Copiar enlace

Ir a los comentarios

“El próximo gran salto de la humanidad serán los robots humanoides”, afirma Rev Lebaredian, vicepresidente de Omniverso y Tecnología de Simulación en el gigante informático Nvidia. El trampolín para ese salto, previsto como uno de los avances disruptivos de los próximos años, ya está aquí y Google acaba de sumarse a la carrera al anunciar Gemini Robotics, el desarrollo de su modelo de inteligencia artificial (IA) para máquinas, para robots tanto industriales como humanoides, y que ha puesto a disposición de los grandes de la industria, como Apptronik, Agile Robots, Agility Robots, Boston Dynamics y Enchanted Tools, para que lo pongan a prueba.

Los robots hasta ahora eran mecanismos articulados “ciegos y tontos”, como describe Lebaredian los antiguos modelos, diseñados para realizar tareas repetitivas, pero incapaces de aprender, de desarrollarse en escenarios desconocidos y obrar en consecuencia.

Para Dennis Hong, fundador de RoMeLa, “el futuro es que los robots puedan ejecutar cualquier cosa que un humano pueda hacer”. Pero para actuar como una persona necesitan un cerebro que les permita entender, aprender, percibir y actuar. Y esa mente es la IA fundamentada en grandes modelos de lenguaje (LLM, por sus siglas en inglés), la inteligencia artificial capaz de desarrollar las máquinas hasta su última expresión: los androides, los robots con apariencia y comportamientos similares a los humanos capaces de desenvolverse en un mundo desarrollado por y para las personas.

Los robots con la inteligencia artificial de Google aún no muestran en las pruebas de laboratorio habilidades tan complejas como Figure 01, el prototipo más cercano al humanoide que la ciencia ficción había anticipado y respaldado por Open AI, Nvidia y Jeff Bezos, fundador de Amazon.

Pero los dotados con Gemini Robotics se acercan mucho tras el cambio de rumbo adoptado en 2024. “El año pasado”, según explica Carolina Parada, directora de ingeniería en Google DeepMind Robotics y de origen venezolano, “decidimos tomar un nuevo desafío y centrarnos en enseñar a los robots a realizar tareas complejas de manipulación fina, como las que hacemos al atarnos los cordones de los zapatos, a partir de datos del mundo real y de simulación para aprender”.

De ese reto ha surgido Gemini Robotics, el modelo de IA destinado al desarrollo de robots de propósito general (humanoides). “Para esto, se necesitan que sean realmente útiles, que te entiendan, que comprendan el mundo que te rodea y, luego, ser capaces de actuar de forma segura, interactivamente y con habilidad”, precisa Parada.

Robotic Transformer 2 (RT-2), modelo que utiliza la IA de Google para llevar la visión y el lenguaje a la acción (VLA).Google DeepMind

Las pruebas de laboratorio mostradas, donde los robots, a partir de comandos de voz, recogen y guardan objetos en recipientes específicos descritos solo por su color y que van cambiando de sitio, pueden parecer simples, pero para un robot es muy difícil. En este sentido, Kanisha Rao, compañero de Parada en DeepMind, precisa que los robots, “funcionan bien en escenarios que han experimentado antes, pero fallan en los desconocidos”.

De esta forma, según explica Rao, durante las pruebas se ha llevado las máquinas a situaciones donde los objetos que tienen que identificar y manipular cambian de color, los entornos se modifican y la IA responde a órdenes de acciones inéditas para la máquina o sobre objetos que desconocía, como encestar una pelota de baloncesto de juguete sin haber conocido antes qué es este deporte.

Para conseguir estas destrezas, según explica Parada, la IA del robot tiene que entender el leguaje natural, “comprender el mundo físico con mucho detalle” y, según añade Vikas Sindhwani, investigador científico en el equipo de robótica de Google DeepMind, actuar de forma segura a través de “evaluaciones de las propiedades de la escena y las consecuencias de realizar una determinada acción”.

El camino de la seguridad está aún abierto. Sindhwani afirma que han conseguido que los robots tengan una amplia “comprensión” de este concepto a partir de los datos tanto reales como simulados de los que se alimenta su IA, pero siguen ajustando para “permitir tareas cada vez más interactivas y colaborativas” sin riesgos y cumplir las tres reglas de Isaac Asimov: un robot no debe dañar a un humano por acción u omisión; debe obedecer órdenes humanas, a menos que esté en conflicto con la primera ley; y debe proteger su propia existencia, a menos que entre en conflicto con la primera o segunda ley.

El concepto global del nuevo paso de Google a la robotización es el traslado de lo conseguido en el mundo digital, con el desarrollo de agentes (asistentes) cada vez más sofisticados al entorno físico. “En DeepMind, hemos estado progresando en la forma en que nuestros modelos Gemini resuelven problemas complejos a través del razonamiento multimodal a partir de textos, imágenes, audios y videos. Hasta ahora, sin embargo, esas habilidades se han limitado en gran medida al ámbito digital. Para que la IA sea útil para las personas en el ámbito físico, tienen que demostrar un razonamiento “embodied”, la capacidad humana para comprender y reaccionar ante el mundo que nos rodea”, explica Parada.

Los dos modelos de IA de Google para la robotización son el VLA (visión-lenguaje-acción), construido a partir de Gemini 2.0 y al que se le incorporaron acciones físicas, y el ER (embodied reasoning), con habilidades de razonamiento.

Estas herramientas son el camino para la utilidad real, que Parada resume: “Los modelos de IA para robótica necesitan tres cualidades principales: tienen que ser generales, es decir, que sean capaces de adaptarse a diferentes situaciones; tienen que ser interactivos, lo que significa que pueden entender y responder rápidamente a instrucciones o cambios en su entorno; y tienen que tener destreza, lo que significa que pueden hacer el tipo de cosas que las personas generalmente pueden hacer con sus manos y dedos, como manipular objetos cuidadosamente”.

Tu suscripción se está usando en otro dispositivo

¿Quieres añadir otro usuario a tu suscripción?

Añadir usuario Continuar leyendo aquí

Si continúas leyendo en este dispositivo, no se podrá leer en el otro.

¿Por qué estás viendo esto?

Flecha

Tu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.

¿Tienes una suscripción de empresa? Accede aquí para contratar más cuentas.

En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.

Sobre la firma

Raúl Limón

Raúl Limón - twitter

Licenciado en Ciencias de la Información por la Universidad Complutense, máster en Periodismo Digital por la Universidad Autónoma de Madrid y con formación en EEUU, es redactor de la sección de Ciencia. Colabora en televisión, ha escrito dos libros (uno de ellos Premio Lorca) y fue distinguido con el galardón a la Difusión en la Era Digital.