Google ha invertido muchísimo dinero en desarrollar sistemas de inteligencia artificial (IA) en los últimos años, antes que muchas otras compañías se subieran al carro para no quedarse atrás, y ya está cosechando éxitos que lo ponen a mucha distancia de la competencia. Léase «Apple» sin ir más lejos. Con el Asistente de Google por bandera, en el I/O 2018 ha anunciado Duplex, un nuevo sistema del asistente que tendrá la posibilidad de establecer conversaciones con un humano como si fuera totalmente humano.

Eso significa que hará ciertos dejes a la hora de hablar, soltará algún «umm» y «emm» entre medidas como si estuviera pensando o «ajá» para afirmar, y todo ello para múltiples propósitos. La compañía mostró sobre el escenario dos conversaciones reales, una con voz de mujer y otra de hombre, en la que intentaban reservar cita en una peluquería y en un restaurante. La primera va plenamente fluida, pero en la segunda el del restaurante pone bastantes pegas, y la IA entiende totalmente la conversación y que no puede finalmente reservar mesa.

Vídeo

En ambos casos la conversación va fluida y no hay posibilidad de identificar que no es un humano el que está haciendo las reservas. Esto entra dentro de la rama de la conversación natural dentro del aprendizaje automático, y es básicamente impresionante lo que está consiguiendo Google en este terreno. En una publicación en su blog, la compañía detalla cómo lo ha conseguido.

Primeramente, usando la herramienta de la compañía de reconocimiento automático de voz (RAV, o ASR en el diagrama siguiente), que inyecta la conversación a una red neuronal recurrente (RNR) que difiere de una red neuronal prealimentada más sencilla —y el primer tipo que existió— en que puede establecer cambios de comportamiento en función del momento en el que se pida algo de ella. Crea de esta forma hitos en una conversación, realizando dinámicamente elecciones de lo que cree que tiene que decir.

rnn_big.png

La RNR está construida con la biblioteca TensorFlow Extended (TFX) y ejecutada sobre una cantidad de servidores que prefiero no imaginar para poder entender y actuar en tiempo real. Google incide en que el entrenamiento de la RNR se hizo usando un corpus de conversaciones telefónica anonimizadas, por aquello de la privacidad. Duplex entiende perfectamente el contexto en el que se hace la llamada —hora del día, datos del usuarios, lo que quiere el usuario, características de lo que quiere concertar, etc., y todo esto lo usa para generar con un sistema de concatenamiento de texto a voz (CTV, o TTS en el diagrama anterior) que junta pequeños trozos de audio en una conversación completa, lo que permite introducir los dejes como «umm» o «ajá» cuando estima oportuno la RNR.

Aunque estará en algún momento en el Asistente de Google, el centro de atención lo pone la atención al usuario de las empresas, donde Google puede haber encontrado un filón. Un nuevo servicio que elimine al operador humano por una IA que converse y entienda los problemas del usuario, aunque para tratar con la mayoría de ellos todavía necesitará desarrollar más este sistema. La prueba de integración con el Asistente de Google empezará en el verano, por lo que no sería raro verlo en los teléfonos Pixel 3 que esté preparando para el otoño.

Vía: Ars Technica.