Tiago Massoni

Logo

Associate Professor in Computer Science

View My GitHub Profile

Google Duplex - robô que faz suas ligações telefônicas

Comentário: lançamento no Brasil em 14/6 Data: June 22, 2022 Palavras chave: duplex, google, machine learning, robôs

Avanços na inteligência artificial tendo o Google como protagonista agitaram o mundo da tecnologia. Enquanto podemos conversar naturalmente com um robô pelo telefone, tem gente dentro da própria Google com medo das máquinas ficarem humanas demais!

O Google Duplex foi lançado no Brasil no meio de Junho, com a promessa de conversas naturais entre pessoas e máquinas pelo telefone, para confirmação de informações e até reservas de serviços. A naturalidade da conversa com o robô é impressionante. Talvez impressionante demais, pois, ao mesmo tempo, há notícias de funcionários do próprio Google assustados com a sofisticação da sua inteligência artificial. Assuntos da coluna de tecnologia.

Bom dia ouvintes da CBN,

Escutem esse trechinho de um diálogo telefônico:

Nada mais normal…uma pessoa pedindo informações sobre horário de funcionamento de um estabelecimento. No entanto, tem algo nesse diálogo que provavelmente você não percebeu. A voz masculina que pede confirmação dos horários é um computador.

Ele é resultado de um serviço lançado pelo Google no Brasil no último dia 14 de Junho, o Google Duplex. A ferramenta usa inteligência artificial para realizar ligações automáticas e confirmar horários de estabelecimentos comerciais — sem precisar de um humano ao telefone. A intenção da companhia é que o recurso funcione como um assistente pessoal, preservando ao máximo a linguagem natural.

A apresentação ocorreu durante o evento Google for Brasil, quando a empresa fez uma demonstração breve sobre as possibilidades de uso da plataforma. Para formular frases naturais e conversar com humanos com o menor atrito possível, o assistente virtual recorre à tecnologia de compreensão de linguagem natural (NLU, na sigla em inglês) desenvolvida pela companhia.

Ao realizar a chamada, a IA logo se identifica como um serviço automatizado. Esse é um mecanismo que visa a transparência, para que a pessoa do outro lado da linha saiba que está conversando com um robô. Já se estima que o Google Duplex esteja fazendo cerca de 200 ligações como essa por dia.

Como explica o Google, a confirmação de horários é apenas um dos processos que podem ser agilizados com o Duplex. Outra possibilidade que chega para os brasileiros é a compra de ingressos para sessões de cinema pela internet utilizando comandos de voz — o que está em fase de testes com a empresa Ingresso.com. Essa ação é feita com uma tecnologia derivada, o Duplex na Web.

Além disso, uma parceria com o Tribunal Superior Eleitoral (TSE) vai permitir usar o recurso para saber como encontrar o local de votação nas Eleições 2022, diretamente pela página de Busca do Google.

Além dos testes no Brasil e na Índia, o Duplex na Web está funcionando plenamente nos EUA e no Reino Unido.

Quando mostrado pela primeira vez, o Duplex causou alvoroço no mercado, há 4 anos, quando ainda era um serviço beta.

Na ocasião, o Duplex conseguiu reservar um restaurante com uma atendente humana, que, aparentemente, não percebeu que estava conversando com uma máquina.

Uma meta antiga da interação entre humanos e computador é conseguir que as pessoas conversem com as máquinas de forma mais natural, como se fossem humanas. Nos últimos dez anos, temos testemunhado uma revolução nessa capacidade de programas entenderem e reproduzirem discurso humano, especialmente com a aplicação de uma tecnologia chamada de redes neurais profundas.

Mesmo assim, nossa experiência atual com sistemas automatizados é quase sempre frustrante; quando a gente tenta conversar naturalmente com os sistemas automatizados telefônicos, eles não entendem palavras básicas, e nos obrigam a se ajustar em sistema de opções numéricas que quase nunca resolvem nossos problemas.

O Google Duplex tenta então trazer a conversação natural para a resolução de tarefas do dia a dia. A tecnologia tem aplicações específicas, como no caso acima, confirmar horários de funcionamento para o aplicativo Google Maps.

Isso é essencial, um domínio fechado, em que a máquina tem domínio das expressões mais usadas e as formas de comunicar uma ideia.

O modelo de linguagem usado para essas tarefas é treinado extensivamente para entender conversas apenas sobre esses assuntos.

Por isso a conversa parece tão natural.

Por que é tão difícil programar uma máquina para ter uma conversa natural? A linguagem natural é difícil de compreender, e comportamento natural em conversas inclui pausas, retardar uma palavra para enfatizar, entonações diferenciadas, etc. Para uma máquina entender e, principalmente, simular esse comportamento, ela precisa ser treinada em todas essas possíveis variações.

No caso do Duplex, o Google treinou o software em cima de uma base de dados gigantesca de áudios de conversas telefônicas coletadas por eles anonimamente. Esse modelo se mantém atualizado com as novas conversas que vão ocorrendo, a partir de um sistema de auto-monitoramento que se mantém aprendendo, principalmente em situações em que algo dá errado e o Duplex não consegue realizar a tarefa completamente.

Ironicamente, a notícia da chegada do Duplex ao Brasil coincidiu com uma curioso caso de dentro do próprio google, relacionado ao Aprendizado de máquina.

Parece ficção científica, mas tem um engenheiro do Google, Blake Lemoine, alegando que um sistema similar ao Duplex, que implementa robôs de bate-papo, “ganhou vida” e teve com ele conversas típicas de uma pessoa.

O LaMDA (Modelo de Linguagem para Aplicações de Diálogo) é um sistema do Google que imita a linguagem após ter processado bilhões de palavras na internet.

Depois de conversar longamente com o LaMDA, Lemoine veio a público com a alegação de que o produto do Google havia desenvolvido características humanas. Como resultado, o Google afastou Lemoine e colocou-o em licença remunerada, degrau que antecede a demissão da empresa.

A conversa em texto foi publicada por ele na internet, e segue longamente por vários temas, incluindo emoções, sentimentos e até religião. De fato, não resta dúvida de que sistema se tornou altamente sofisticado.

No entanto, ele não passa de um modelo probabilístico. Depois de ter sido alimentado com tantas informações, sabe exatamente quais palavras escolher para responder a determinadas questões. Sua relação é apenas com a linguagem estritamente, e não com o mundo. O sistema é capaz de escrever textos incríveis, muito bem articulados e totalmente falsos ou mesmo ridículos, por não ter compreensão básica da realidade nem senso comum elementar. É aí que mora o perigo. Daí podem surgir textos, decisões e conclusões totalmente equivocadas.

Ah, não suspeite de sua melhor amiga no telefone, se ela soar meio robótica…ele pode ter acordado de mau humor nesse dia. Bom, talvez isso nunca aconteça, porque falar ao telefone está cada vez mais raro. Acho que só mesmo os robôs vão ligar pra perguntar se estamos bem.

Um abraço e até a próxima.