Assustador: inteligência artificial do Google pode isolar vozes de pessoas falando ao mesmo tempo em vídeos

Uma nova tecnologia baseada em inteligência artificial permite a Google isolar vozes em arquivos de áudio e vídeo. A novidade foi apresentada no início do mês de abril pela empresa e abre uma série de possibilidades na decodificação de falas em ambientes ruidosos ou com muitas pessoas falando ao mesmo tempo.

A ideia é seguir a mesma lógica que o cérebro humano adota quando estamos tentando prestar atenção na fala de uma pessoa em locais com muito barulho. Mentalmente, é como se deixássemos as demais vozes “no mudo” para poder compreender melhor uma única direção de som. A ferramenta faz algo semelhante.

Louco, não é? Vem com a gente entender melhor isso aí!

®GIPHY

Canais de áudio isolados no mesmo vídeo

Para mostrar o novo recurso, a Google divulgou uma série de vídeos mostrando na prática os resultados. Segundo a empresa, o método empregado funciona com vídeos comuns, coletados na plataforma YouTube, e apresenta resultados muito eficientes.

O algoritmo fica responsável por isolar o sinal de uma voz a partir do momento que o usuário seleciona um dos falantes. Baseado no contexto, ele mantém todos os demais sons ambientes, o que permite ao espectador compreender de forma clara e sem interrupções as falas de qualquer pessoa envolvida em uma conversa, ainda que elas estejam sobrepostas pelas falas de outros.

É importante, entretanto, que os interlocutores estejam visíveis no vídeo. Na demonstração divulgada pela Google, basta ao usuário clicar sobre o falante que deseja ouvir para que o áudio da pessoa em questão seja destacado.

Entendendo o algoritmo

Para tornar possível esse sistema, a Google analisou mais de 100 mil vídeos no YouTube. Depois, foram extraídos áudios de falantes de forma isolada, totalizando mais de 2 mil horas de gravação. Esses dados “limpos” foram então aplicados a outros áudios criando um efeito que a empresa batizou de “synthetic cocktail mixture”.

Esses novos “sons de fundo” serviu de base para que a inteligência artificial do Google pudesse entender como separar essas informações dos timbres dos interlocutores. Depois de todo o processamento, as falas são separadas em canais de áudio distintos, sendo que cada um deles é associado à imagem de um falante.

®GOOGLE RESEARCH BLOG

Para divulgar o projeto, a empresa colocou no ar uma página sobre o assunto, em inglês, com diversos exemplos de bons resultados que a inteligência artificial conseguiu obter. A empresa ressalta que esse é um tema que vem ganhando bastante destaque na comunidade acadêmica, dado o crescente interesse pela análise de discurso.

“Nós vemos uma ampla gama de aplicações para essa tecnologia e estamos constantemente explorando oportunidades de incorporá-la em vários produtos da Google”, destacam Inbar Mosseri e Orang Lang, engenheiros de software da Google em um post no Google Research Blog.

®GOOGLE RESEARCH BLOG

As ferramentas apresentadas pela empresa neste mês ainda têm caráter experimental e não há previsão de quando elas serão incorporadas às plataformas já existentes. Não há nem mesmo confirmação de que isso vá acontecer algum dia e disponibilizada no YouTube, por exemplo.

No entanto, não deixa de ser uma bela demonstração das possibilidades dessa tecnologia num futuro próximo. O que você achou? Conta pra gente!

Fonte(s): Google Research Blog

VOCÊ TAMBÈM PODE GOSTAR
Mulher segurando seu Kindle com a tela de carregamento inicial do Amazon Kindle.

Como enviar um arquivo PDF para o Kindle

Mulher lendo no Kindle no sofá enquanto toma uma xícara de café.

10 truques para usar no Kindle

Homem assistindo os lançamentos de maio de 2024 da Netflix enquanto come pipoca.

Confira os principais lançamentos da Netflix para Maio de 2024

Pessoa usando o celular para fazer pagamento por aproximação em uma maquininha.

Positivo Tecnologia integra terminais inteligentes de pagamento com aplicativo Urbanky

Mulher trabalhando com tecnologia em um escritório muito moderno.

12 profissões na área de tecnologia para ficar de olho

Homem segurando um globo terrestre nas mãos simbolizando a alfabetização digital.

O que é a alfabetização digital e por que é importante?

Inscreva-se na nossa

Newsletter


    Ao clicar em “enviar” a Positivo Tecnologia tratará os seus dados de acordo com a Política de Privacidade e Cookies.