Google DeepMind ha presentado este mi rcoles dos nuevos modelos de inteligencia artificial (IA) que, seg n la compa a, sientan las bases de una nueva generación de robots tiles: Gemini Robotics y Gemini Robotics-ER.
Ambos modelos, basados en su IA Gemini 2.0, permitenía diversos robots realizar en el mundo real una gama de tareas más amplia.
El primero es un modelo avanzado de visi n-lenguaje-acción (VLA) que incorpora acciones f sicas como nueva modalidad para controlar directamente a los robots.
As , Gemini Robotics puede abordar tareas extremadamente complejas y de varios pasos que requieren una manipulación precisa, como plegar un origami o meter un bocadillo en una bolsa con cierre de ‘zip’, explica Google en su blog.
Para ser tiles y tiles para las personas, los modelos de IA para rob tica necesitan tres cualidades principales, una de ellas ser generales, es decir, capaces de adaptarse a diferentes situaciones.
Además, ser interactivos o con capacidad para comprender y responder r pidamente a instrucciones o cambios en su entorno; y ser diestros, que quiere decir poder realizar las tareas que las personas generalmente hacen con las manos y los dedos, como manipulaRíobjetos con cuidado.
«Si bien nuestro trabajo previo demostr avances en estasí reas, Gemini Robotics representa un avance sustancial en el rendimiento en los tres ejes, acerc ndonos a robots verdaderamente de prop sito general», resume.
Dado que los robots vienen en todas las formas y tama os, Gemini Robotics ha sido dise ado para adaptarse f cilmente a diferentes tipos de robots.
Por su parte, Gemini Robotics-ER es un modelo de visi n-lenguaje (VLM) con una comprensi n espacial avanzada, que permite a los expertos en rob tica ejecutar sus propios programas utilizando el razonamiento corporal de Gemini.
As , este modelo mejora «con creces» capacidades como la de apuntar y la detección 3D para, por ejemplo, cuando se le muestra una taza de caf , el modelo pueda intuir un agarre adecuado para cogerla por el asa y una trayectoria segura para acercarse a ella.
Estas capacidades de razonamiento, conseguidas al incorporar Gemini a ambos modelos, permitenía los diversos robots realizar una gama más amplia de tareas en el mundo real, indica la compa a, que se ha asociado con Apptronik para crear esta pr xima generación de robots humanoides.
Tambi n est n trabajando con grupo probadores de confianza para guiar el futuro de Gemini Robotics-ER.
«Esperamos explorar las capacidades de nuestros modelos y seguir desarroll ndolos para que se apliquen en el mundo real».
Desde Google DeepMind describen que han avanzado en la forma en que los modelos Gemini resuelven problemas complejos mediante razonamiento multimodal en texto, im genes, audio y video. Sin embargo, hasta ahora, estas capacidades se han limitado en gran medida al mbito digital.
Para que la IA sea til y til para las personas en el mundo f sico, deben demostrar razonamiento corporal (la capacidad similar a la humaña de comprender y reaccionar al mundo que nos rodea), así como actuar con seguridad para realizar tareas, a ade.
Por eso, «hoy presentamos dos nuevos modelos de IA, basados en Gemini 2.0, que sientan las bases para una nueva generación de robots tiles», señala.
[ Google anuncia dos modelos de IA para avanzar en una nueva generación de robots humanoides publish



