Saltar al contenido

Así funciona Google Duplex, el sistema que se pone al teléfono por ti y que da un poquito de miedo

Asr

Que una máquina te llame no es nada nuevo, pero que lo haga para conversar contigo de forma natural es algo muy distinto. Es lo que ofrece Google Duplex, el sistema de inteligencia artificial aplicado a la automatización de las conversaciones telefónicas. La demostración que Sundar Pichai hizo durante la conferencia Google I/O 2018 nos dejó a todos asombrados, y aunque ciertamente la tecnología dejó patente su capacidad, el debate sobre privacidad, transparencia y malos usos es inevitable.

Una voz robótica que parece totalmente humana

Llevábamos apenas 35 minutos de conferencia cuando Sundar Pichai comenzó a hablar de Google Assistant. El sistema, nos decía, quería resolver un problema común: el de los pequeños negocios que no tienen sistemas automatizados de reserva online. Y entonces, esto (minuto 35:00):

Esa llamada en la que una máquina hablaba con una persona y lo hacía de forma totalmente natural marca un punto de inflexión. Uno en el que la comprensión del lenguaje natural, el aprendizaje profundo y el dictado de textos demuestra por primera vez que puede engañarnos y hacernos pensar que estamos hablando con una persona real.

La encargada de la peluquería en ningún momento sospechó que quien la llamaba era una voz sintetizada —esas pausas, esos “ahmmm…” y esos “mm-hmm…” ayudaban a que la voz robótica se convirtiera en una voz humana, con entonación humana y con esas mismas pausas y dudas que habitualmente hacemos al hablar los seres humanos.

Como indicaba Pichai, el sistema es el resultado de varios años de trabajo en esos ámbitos. Mostró algún ejemplo algo distinto, como el de la llamada del sistema para una reserva de restaurante que no acabó de resolverse del todo —”no reservamos para menos de 5 personas, podéis pasaros directamente, habrá sitio”—, pero aún así el asistente consiguió lo que el usuario deseaba: no tener que hacer él la llamada y obtener esa reserva (o algo parecido a ella).

Redes neuronales al habla

Como explicaban en el blog de inteligencia artificial de Google, el sistema conversacional de Google Duplex se basa en una Red Neuronal Recurrente (RNN) -hablamos de esta tecnología en profundidad aquí- desarrollada mediante TensorFlow Extended.

Asr

Como ocurre con otros sistemas similares, para lograr esta precisión en su nivel de conversación la red neuronal tuvo que ser entrenada con conversaciones telefónicas anonimizadas. El sistema hace uso de la tecnología ASR (Automatic Speech Recognition) de Google y analiza distintos parámetros para lograr diferenciar el contexto y entender qué le está diciendo el interlocutor. Hasta es capaz de entender cuándo está siendo interrumpido y para qué:

Para lograr que esa voz suene natural se usa el sistema de dictado (Text to Speech, TTS) usando Tacotron y WaveNet para controlar la entonación. Lo más interesante aquí es la introducción de las llamadas ‘speech dysfluencies, esas pausas en forma de ‘ahm’ y ‘uhm’ que son comunes entre los seres humanos al expresarse y que hacían que la voz sintetizada fuera aún más convincente a la hora de parecer humana.

El sistema es capaz de mantener conversaciones de forma “totalmente autónoma, sin intervención humana”, explican en Google, aunque también integra un sistema de monitorización que avisa a un operador humano de que cierta tarea no ha podido ser completada.

Google Duplex, eso sí, no está pensado de momento para hablar de cualquier cosa: está pensado para reservas de servicios, algo que reduce el contexto de preguntas y respuestas y que lo acota para hacer todo más manejable.

Transparencia, privacidad y malos usos

Escuchar a Google Duplex en funcionamiento es realmente impresionante, y de hecho algunos plantean si este sistema podría o no superar ya el test de Turing —el bot conversacional Eliza https://www.xataka.com/historia-tecnologica/asi-era-eliza-el-primer-bot-conversacional-de-la-historia—. Probablemente no de forma amplia, pero desde luego estas conversaciones hacen pensar que es posible engañar a cualquiera con este tipo de sínteis de voz y reconocimiento del lenguaje natural.

Que se pueda hacer, no obstante, no significa que deba hacerse, y aun en el caso de hacerse, hay detalles clave para su puesta en marcha. Uno de los más importantes es el de la transparencia.

El último de esos tuits es importante. ¿No debería avisar Google de que estás hablando con una máquina? Aquí hay un debate que va más allá de la tecnología y se infiltra en campos como la ética —incluida la ética robótica— o la filosofía, y muchos analistas, expertos y usuarios finales convencionales dejaron claras sus dudas en Twitter respecto a un sistema que desde luego lograba resolver la tarea, pero por medio del engaño, sea este más o menos inocuo.

En Google han indicado recientemente que “estamos diseñando esta característica con la integración de mensajes de aviso”, lo que hace pensar que en la implementación final el sistema efectivamente avisaría de que el interlocutor humano está comunicándose con una máquina.

Hay más sombras en este impresionante avance, como son las que afectan a la privacidad de esas conversaciones utilizadas para entrenar al sistema. Es probable que Google Duplex registre toda la conversación, la grabe y la analice (previa anonimización) para “mejorar el servicio”, como suelen avisar todos estos sistemas. Sin embargo las suspicacias sobre lo que se pueden hacer con todas esas grabaciones son evidentes. Aquí Google debe ser también transparente sobre qué se guarda, cómo se guarda y durante cuánto tiempo.

Y por último está el problema de los malos usos. Será difícil controlar como siempre que una herramienta se utilice de mala forma y de hecho eso no debería frenar esa evolución tecnológica —hacerlo sería un error—, pero si Google implanta esta tecnología, será importante saber cómo nos protege de usos fraudulentos que podrían automatizar por ejemplo llamadas de telemarketing engañosas.

Veremos dónde lleva todo esto, pero desde luego estamos ante una de las grandes sorpresas tecnológicas en lo que llevamos de año. Esperemos que su implantación sea la adecuada y que, como pretende Google, esta idea sea aplicada para mejorar nuestras vidas y no para empeorarlas.

Fuente: xataka.com

image_pdfimage_print
Scroll Up