Permitindo interpretação e geração de fala em projetos

geração de fala em projetos

Interpretando comandos de voz

para oferecer nova usabilidade aos sistemas

Há uma linha de pesquisadores na área de Interface Humano Computador – IHC – investindo seus esforços para entender as interações desta geração, que são feitas muitas vezes através de voz e não exclusivamente com cliques ou toques em tela, permitindo interpretação e geração de fala em projetos. Para que isso aconteça, é importante que o sistema de Inteligência Artificial consiga interagir com o usuário através desta nova forma. Quando algum assistente pessoal como a Alexa, Google Home, Siri ou Cortana é ativado e recebe um comando de voz, é necessário interpretar o que foi solicitado pelo usuário e que a ação seja respondida.

O assistente ouve o que o usuário pediu, então transforma o audio para texto através de um processo de transcrição, e então dispara o comando internamente nos diversos sistemas que integram esse ambiente. O comando é analisado e processado, e o retorno do sistema devolve a resposta. Esse retorno é então sintetizado de texto para voz, e é reproduzido pelo alto-falante do assistente. Concluindo assim o ciclo daquele diálogo.

Geração de fala em projetos

O processo para interpretar fala em projetos segue um roteiro padronizado relativamente trivial. Pode-se estender novas habilidades para aumentar sua capacidade de interação, mas isso é feito de projeto para projeto. Traduzir um texto, extrair o sentimento daquela frase ou perceber a intonação da voz são explorados por técnicas de Machine Learning. Esta técnicass estendem a interação por voz e pode fazer mais para o seu sistema!

O cenário trivial consiste necessariamente que o ambiente permita a transcrição em tempo real de áudio em texto. O sistema consome esse texto para poder tomar as medidas necessárias internas utilizando o texto como entrada do comando. Se trabalhar no ambiente Microsoft poderá disparar o texto como comando de entrada para interagir com o LUIS ou o QnA, permitindo que ações desenvolvidas com o Bot Framework tome a ação desejada. Então o retorno destas soluções pode devolver a saída para o sistema de interação. Mais uma vez no ambiente Microsoft, é permitido transformar o texto de saída em algumas das vozes padrão ou em uma voz neutra (sem gênero definido) ou até criar uma voz personalizada exclusiva para seu sistema. Existem 75 vozes definidas como padrão e estão disponíveis em mais de 45 idiomas. 

Exemplo real de solução

A Microsoft apresentou uma demonstração destas funcionalidades, permitindo interpretação e geração de fala em projetos. Integrado com o Hololens, foi feita uma tradução simultânea entre Inglês (idioma original) e Japonês (idioma destino) e projetada em um holograma, como se a apresentadora estivesse falando naturalmente em Japonês. Veja o vídeo desta demonstração em uma aplicação desenvolvida para ser reproduzida em projetos do mundo real.

Sobre Diego Nogare 344 Artigos
Diego Nogare é Gerente Técnico de Engenharia de Machine Learning no Itaú-Unibanco. Também é professor em programas de pós graduação no Mackenzie e na FIAP, em São Paulo. Foi nomeado como Microsoft MVP por 11 anos seguidos, e hoje faz parte do programa Microsoft Regional Director.