Nvidia crea un modelo de IA que lee, ve y escucha al mismo tiempo

Nvidia crea un modelo de IA que lee, ve y escucha al mismo tiempo

  • LunaVortex
  • Mayo 1, 2026
  • 2 minutos

Nvidia ha presentado un nuevo modelo de inteligencia artificial llamado Nemotron 3 Nano Omni, que puede leer, ver y escuchar al mismo tiempo. Este modelo de IA está diseñado para procesar información de manera más natural y rápida, imitando la forma en que los humanos percibimos y respondemos a los estímulos del mundo.

El Nemotron 3 Nano Omni es un modelo multimodal que integra capacidades de visión, audio y lenguaje en una sola arquitectura, lo que permite eliminar el flujo de trabajo fragmentado de los actuales agentes de IA. Según Nvidia, este modelo es nueve veces más rápido que los modelos separados y tiene tres veces más rendimiento que otros modelos omni abiertos.

¿Qué es Nemotron 3 Nano Omni?

El Nemotron 3 Nano Omni es un modelo de IA que integra capacidades de visión, audio y lenguaje en una sola arquitectura. Esto permite que el modelo procese información de manera más natural y rápida, imitando la forma en que los humanos percibimos y respondemos a los estímulos del mundo.

Este modelo está diseñado para ser utilizado en aplicaciones empresariales, como agentes que navegan por interfaces gráficas del usuario, razonando en base al contenido en pantalla y entendiendo lo que está viendo en tiempo real y de forma persistente.

Características y capacidades

El Nemotron 3 Nano Omni tiene una arquitectura híbrida de mezcla de expertos con 30.000 millones de parámetros, de los cuales 3.000 millones son para inferencia. Esto le permite ser nueve veces más rápido que los modelos separados y tener tres veces más rendimiento que otros modelos omni abiertos.

Además, este modelo puede comprender gráficos, tablas, documentos, capturas de pantalla y entradas de medios mixtos, lo que lo hace una herramienta muy útil para profesionales.

Disponibilidad y uso

El Nemotron 3 Nano Omni no es un modelo de IA destinado a las masas, sino que está enfocado en aplicaciones empresariales. Puede ser accesible a través de plataformas como Hugging Face y para implementarse en sistemas locales como DGX Spack o Jetson.