Demonstração da Transcrição de Conversação da Microsoft impressiona com o novo hardware revelado

A Microsoft descobriu a transcrição da conversa em tempo real, revelando um novo alto-falante de design cônico de referência integrado ao Azure, além de uma maneira de transformar todos os telefones e laptops de uma reunião em uma matriz de reconhecimento de voz ad-hoc. A demonstração do Build 2019 destacou como uma combinação de dispositivos de borda e processamento em nuvem poderia funcionar melhor em harmonia, além de potencialmente melhorar futuros alto-falantes inteligentes que pudessem entender vários comandos e acabar com a palavra de alerta.

Todo mundo está falando, o Azure está ouvindo

Voz para texto não é difícil, mas tentar acompanhar uma conversa completa com sobreposição de fala é muito mais difícil. Essa é a loucura que a Microsoft diz ter quebrado, exibindo um novo sistema de Transcrição de Conversação no Build 2019 esta semana. Ele massageia o Serviço de Fala do Azure existente para oferecer suporte a uma combinação de transcrição de fala em tempo real, para várias pessoas e campo distante e atribuição de alto-falante.

O sistema da Microsoft foi visualizado no Build 2018 no ano passado, mas agora está disponibilizando-o publicamente. Há uma pré-visualização fechada que aceita aplicativos, juntamente com parcerias com fornecedores como Accenture, Roobo e Avanade para comercializar o sistema de Transcrição de Conversação.

Na demonstração do Build 2019, um dispositivo de reunião foi capaz de rastrear várias pessoas conversando e não apenas transcrevê-las corretamente, mas fazê-lo mesmo durante períodos de “conversa cruzada”. Ele usa sinais de áudio e vídeo, com fusão audiovisual para ajudar a identificar quem está dizendo o quê. O dispositivo de borda não é responsável pelo processamento, sem surpresa: em vez disso, a trituração de dados é feita na nuvem do Azure.

Há um novo design de referência de matriz de vídeo e microfone

No ano passado, a Microsoft começou a falar com uma breve prévia do novo hardware. O gadget preto em forma de cone – alinhado com o que parecia barbatanas de refrigeração – foi coberto com uma lente olho de peixe e prometeu não apenas ouvir e ver todos na sala, mas também transcrevê-los. Isso veio, você não ficará surpreso ao ouvir, de todo um pedaço de IA.

O orador pontudo poderia reconhecer automaticamente os participantes da reunião quando eles entrassem na sala, por exemplo, para que ele soubesse quando todos estavam presentes. Ao reconhecer diferentes vozes e padrões de fala, ele pode transcrever conversas com várias pessoas, dividindo automaticamente o texto de acordo com quem disse o quê. Enquanto isso, a integração com a Cortana poderia ajudar a encontrar um horário no calendário em que todos estivessem livres e uma sala disponível para eles usarem.

Agora, a Microsoft está disponível como um dispositivo de referência para desenvolvedores, completo com uma matriz de microfone de 360 ​​graus e uma câmera de 360 ​​graus. A empresa já possui várias opções para quem deseja experimentar o SDK de dispositivos, desde simples arrays de vários microfones até câmeras inteligentes como o Azure Kinect, e esse alto-falante cônico se juntará a elas. O preço e a disponibilidade ainda estão para ser confirmados, embora a Microsoft nos diga que isso só será oferecido aos integradores de sistemas como uma visualização privada limitada. Ainda não se sabe se esses operadores optam por fabricar um produto comercial com base na mesma tecnologia.

Talvez você nem precise de um microfone de reunião específico, embora

A Microsoft, no entanto, está procurando além de hardware específico para obter melhores sessões e reuniões de colaboração. Apelidado de Projeto Dinamarca, ele efetivamente transforma um grupo de dispositivos existentes com microfones regulares – como smartphones e laptops – em uma matriz de microfone virtual dinâmica e ad-hoc.

A idéia é que você não precisaria de um microfone de campo remoto de qualidade profissional para fazer coisas como transcrição de conversas. Em vez disso, você virtualmente conectaria os telefones ou laptops de todos – ou ambos -, e o Project Denmark usaria isso para melhorar o reconhecimento de voz do que qualquer outro dispositivo único. A Microsoft diz que, com sete fluxos de áudio de entrada, atinge uma taxa de erro de palavra (WER) de 22,3%, apesar da sobreposição de fala.

Não é apenas para uma sala de reuniões, no entanto. Por exemplo, a Microsoft sugere que o sistema do Project Denmark possa ser usado para propiciar mais encontros improvisados ​​baseados em fala. Com vários aplicativos Microsoft Translator, por exemplo, em vários telefones, todos vinculados em uma única matriz de microfone virtual, uma tradução melhor em tempo real pode ser ativada.

Alto-falantes inteligentes domésticos podem se beneficiar

Se você não tem o hábito de participar de reuniões com várias pessoas, pode se perguntar como tudo isso poderia beneficiá-lo. A boa notícia é que a mesma pesquisa que permite a transcrição da conversa da Microsoft também pode melhorar futuros palestrantes inteligentes.

“Enquanto os alto-falantes inteligentes estão disponíveis comercialmente hoje”, ressalta a Microsoft, “a maioria deles pode lidar apenas com o comando de fala de uma única pessoa, um de cada vez, e exige uma palavra de alerta antes de emitir esse comando”. Com as novas adições ao Serviço de Fala do Azure, no entanto, futuros palestrantes inteligentes podem estar muito mais sintonizados quando estão falando, entender solicitações e comandos mesmo quando várias pessoas estão conversando e até lidar com instruções complexas e com várias partes emitidos simultaneamente por mais de uma pessoa por vez.

Artigos Relacionados

Back to top button