Hoy, los desarrolladores de Apple se han fijado el objetivo global de cambiar y mejorar radicalmente la forma en que los asistentes de voz entienden y responden a las órdenes.
Los investigadores de la empresa han presentado recientemente al público en general un sistema de inteligencia artificial llamado ReALM (Reference Resolution as Language Modeling).
Una de las tareas encomendadas a los especialistas era mejorar radicalmente la comprensión por parte de la red neuronal de las órdenes que le da una persona en su propia lengua, así como responder y ejecutar esas órdenes con rapidez y eficacia.
Los desarrolladores han conseguido que ReALM pueda descifrar órdenes ambiguas o multivaluadas que sólo pueden entenderse a partir del contexto de la situación. Sin embargo, ahora el software es capaz de proporcionar la relación más intuitiva y natural entre el aparato y la persona.
Se sabe que uno de los principales problemas de las redes neuronales y los asistentes de voz era que no entendían ni interpretaban supuestos, frases, metáforas y otros elementos del lenguaje hablado y escrito a un nivel suficientemente alto.
Las redes neuronales modernas también tienen problemas para entender pronombres como “eso”, “ellos” o “eso”, que la gente utiliza para navegar fácilmente por el texto.
Por ejemplo, puedes imaginar la siguiente situación en la que un usuario pide a Siri que “me busque una receta saludable basada en lo que hay en mi nevera, pero sin setas, las odio”.
Con ReALM, tu aparato no sólo entenderá las referencias a la información de la pantalla (el contenido de tu frigorífico), sino que también recordará tus preferencias personales (que no te gusten las setas). Esto puede ampliar el contexto de la búsqueda de recetas adaptando estos parámetros.
ReALM ya ha empezado a resolver parcialmente este problema, ya que la inteligencia artificial es capaz de vincular las palabras pronunciadas por una persona con los objetos que aparecen en la pantalla del smartphone.
El nuevo sistema de IA de Apple puede permitir una interacción eficaz con los asistentes digitales en función de lo que se muestre en la pantalla en un momento dado. Sin necesidad de instrucciones precisas y claras. Esto permite que los asistentes digitales sean más eficaces en distintas situaciones, como para los conductores que utilizan sus teléfonos inteligentes para controlar sus coches por voz, y para los usuarios con necesidades especiales.
De este modo, ReALM reconstruye la pantalla y analiza los objetos y su ubicación en ella. Este proceso te permite crear una representación textual de la pantalla que se ajuste a su contexto visual.
La Resolución de Referencia como Modelado del Lenguaje analiza primero lo que se muestra en la pantalla del dispositivo del usuario. Después, la inteligencia artificial crea un texto que corresponde a lo representado hace un minuto en forma de objetos en la pantalla, además de mostrar visualmente su contenido y etiquetar las partes de la pantalla que son objetos.
ReALM utiliza LLMs para comprender el contexto, el vocabulario específico y las relaciones entre ellos.
Ventajas de ReALM:
- es la solución ideal para un sistema práctico de reconocimiento de enlaces;
- es mucho más fácil de utilizar que GPT-4 y rinde casi al mismo nivel;
- tiene un número mucho menor de parámetros en su arsenal y también puede eludir la GPT-3.5;
- supera al modelo MARRS en todos los tipos de conjuntos de datos.
El modelo ReALM-250M muestra unos resultados buenos y sorprendentes:
- Comprensión del discurso oral – 98,7%;
- Comprensión sintética de las tareas – 99,8%;
- 90,6% de eficacia de las tareas en pantalla;
- tratamiento de dominios invisibles – 97,2%.
Así pues, aunque las capacidades de ReALM son impresionantes, su mayor ventaja radica en el gusto de Apple por la inteligencia artificial en sus dispositivos, que se caracterizan por un alto nivel de privacidad, es decir, de protección, de los datos personales.
Por tanto, ReALM está diseñado para que lo hagas exclusivamente en tu iPhone y otros dispositivos de esta empresa.
Al aprender de los datos de tu dispositivo -conversaciones, patrones de uso de aplicaciones e incluso sensores ambientales-, ReALM tiene el potencial de crear un asistente digital hiperpersonalizado adaptado a tus necesidades únicas.