SEM CATEGORIA TECNOLOGIA

Como os assistentes de voz seguem comandos inaudíveis

Um ataque contra sistemas de reconhecimento de fala com arquivos de áudio manipulados costumava funcionar apenas através de uma interface de dados. Agora, basta tocar as mensagens secretas pelos alto-falantes.

Os pesquisadores podem ocultar comandos de voz para máquinas inaudíveis ao ouvido humano em qualquer arquivo de áudio . Os sistemas de reconhecimento de fala compreendem perfeitamente esses comandos. Em setembro de 2018, pesquisadores do Instituto Horst Görtz de segurança de TI da Ruhr-Universität Bochum relataram esses ataques contra o sistema de reconhecimento de fala Kaldi, que está integrado ao Alexa. Originalmente, os chamados exemplos contraditórios só podiam ser realizados por meio de uma interface de dados; hoje, eles funcionam perfeitamente bem no ar. Um artigo detalhado sobre esses ataques e possíveis contramedidas pode ser encontrado na revista científica Bochum, Rubin.

Para integrar mensagens secretas em arquivos de áudio, os pesquisadores aproveitam o modelo de audição psicoacústica. “Enquanto o ouvido estiver ocupado processando um som em uma frequência específica, os humanos serão incapazes de ouvir outros sons em volume baixo por alguns milissegundos”, explica Lea Schönherr, do grupo de pesquisa Cognitive Signal Processing, liderado pelo professor Dorothea Kolossa. Essas frequências são onde os pesquisadores escondem os comandos secretos das máquinas. Para o ouvido humano , a informação adicional soa como ruído estático aleatório; mas altera o significado da mensagem para o assistente de voz.

Tomando a sala em consideração

Originalmente, o ataque só podia ser realizado diretamente via interface de dados; hoje, alto-falantes servirão. Isso é mais complicado, pois o som é afetado pela sala em que o arquivo é reproduzido. Assim, ao criar arquivos de áudio manipulados, Lea Schönherr leva em consideração a chamada resposta de impulso da sala. Descreve como uma sala reflete e altera o som. As respostas ao impulso da sala podem ser simuladas usando programas de computador dedicados.

“O ataque pode ser adaptado para uma configuração de sala específica na qual é executado”, elabora o engenheiro de comunicação. “No entanto, recentemente realizamos um ataque genérico, que não precisa de nenhuma informação prévia sobre a sala, mas ainda funciona igualmente bem ou até melhor no ar”. No futuro, os pesquisadores planejam executar testes com assistentes de voz disponíveis no mercado.

Como os sistemas de reconhecimento de fala não estão atualmente implantados em aplicativos críticos para a segurança, mas são usados ​​principalmente por conveniência, exemplos adversários ainda não podem causar muitos danos. Portanto, ainda há tempo para fechar essa lacuna de segurança, de acordo com os pesquisadores da Bochum. No Cluster of Excellence Casa, abreviação de Cyber ​​Security na Era dos Adversários de Grande Escala, o grupo de pesquisa Cognitive Signal Processing, que desenvolveu os ataques, colabora com a Cadeira de Segurança do Sistema chefiada pelo professor Thorsten Holz, cuja equipe está projetando o contramedidas.

Princípio MP3 como contramedida

O pesquisador de segurança de TI Thorsten Eisenhofer pretende ensinar o sistema de reconhecimento de fala a eliminar qualquer faixa nos sinais de áudio que seja inaudível para os seres humanos e ouvir apenas o resto. “Não podemos impedir que arquivos de áudio sejam manipulados por invasores”, diz ele. Seu objetivo é forçar um invasor a colocar a manipulação em faixas audíveis; assim, os ataques não podiam mais ser ocultados facilmente. Eisenhofer usa o princípio MP3 para esse fim.

Os arquivos MP3 são compactados com a exclusão de faixas inaudíveis para humanos – e é para isso que a estratégia de defesa contra exemplos adversários visa. Consequentemente, Eisenhofer combinou o Kaldi com um codificador de MP3 que limpa os arquivos de áudio antes que eles atinjam o sistema de reconhecimento de fala. Os testes mostraram que Kaldi realmente não entendeu mais as mensagens secretas, a menos que elas fossem movidas para o alcance da audição humana. “Nesse ponto, os arquivos de áudio foram consideravelmente alterados”, explica Thorsten Eisenhofer. “A estática na qual os comandos secretos estão ocultos pode ser ouvida de maneira distinta.”