Robots que Sienten: Así Funciona ViSk, la Fusión de Visión y Tacto para Manipular con Precisión
Información, Proyectos, Noticias y más

Robots que Sienten: Así Funciona ViSk, la Fusión de Visión y Tacto para Manipular con Precisión

ViSk es un innovador sistema que permite a los robots manipular objetos con una precisión sorprendente. ¿El secreto? Combinar imágenes de cámaras con sensores táctiles magnéticos de bajo costo, todo controlado por un modelo de inteligencia artificial basado en transformers.

¿Qué es ViSk y por qué importa?

ViSk, abreviatura de Visuo‑Skin, es una arquitectura que permite a un robot usar tanto la vista como el tacto para aprender a realizar tareas con contacto físico. Esto incluye desde insertar un conector USB hasta deslizar una tarjeta por un lector. Al integrar ambas modalidades sensoriales, el robot logra una comprensión más rica del entorno, lo que se traduce en mejores resultados.

¿Cómo funciona ViSk?

El sistema utiliza cámaras convencionales para capturar imágenes del entorno y sensores magnéticos "AnySkin", que detectan pequeñas variaciones en el campo magnético cuando hay contacto físico. Estos sensores son económicos y muy fáciles de montar.

Toda esta información se procesa a través de una red neuronal tipo transformer. Esta arquitectura, muy utilizada en modelos de lenguaje como ChatGPT, se adapta aquí para tomar decisiones motoras: en lugar de predecir palabras, predice movimientos precisos del brazo robótico.

Resultados en el mundo real

ViSk fue probado en cuatro tareas complejas usando un brazo robótico xArm:

  • Insertar un conector USB
  • Enchufar un cable
  • Deslizar una tarjeta de crédito
  • Colocar un libro en una estantería

En promedio, ViSk mejoró el rendimiento de estas tareas en un 27.5% respecto a sistemas que solo usan visión. Incluso superó ampliamente a modelos que usan sensores táctiles ópticos más costosos y complejos.

Ventajas clave de ViSk

  • Simplicidad: no necesita calibraciones complejas ni grandes volúmenes de datos.
  • Bajo costo: los sensores AnySkin son accesibles y fáciles de instalar.
  • Alto rendimiento: mejora tareas de contacto sin necesidad de sistemas ópticos costosos.
  • Entrenamiento directo: la arquitectura end-to-end aprende de forma eficiente sin pasos intermedios.

¿Dónde puedo ver más?

ViSk es un proyecto completamente abierto. Puedes leer el paper original, explorar el código y ver demostraciones en video. Todo está disponible públicamente para investigadores, desarrolladores o entusiastas de la robótica.

No hay comentarios en este artículo.