Pesquisadores acadêmicos desenvolveram uma técnica para extrair sons de imagens estáticas capturadas por câmeras de smartphones com obturadores de varredura e estruturas de lentes móveis.
O movimento do hardware da câmera, como os obturadores de varredura de semicondutores de óxido metálico complementares (CMOS) e as lentes móveis usadas para estabilização óptica de imagem (OIS) e foco automático (AF), cria sons que são modulados em imagens como distorções imperceptíveis.
Esses tipos de câmeras de smartphones, explicam os pesquisadores, criam um “canal lateral óptico-acústico para escutas acústicas” que não requer linha de visão, nem a presença de um objeto no campo de visão da câmera.
Os pesquisadores focaram nas limitações desse canal lateral, que depende de um “caminho mecânico adequado da fonte sonora para o smartphone” para suportar a propagação do som, e extraíram e analisaram as informações acústicas vazadas.
A equipe acadêmica utilizou aprendizado de máquina para recuperar informações da fala humana transmitida por alto-falantes, no contexto de um invasor que tem um aplicativo malicioso rodando no smartphone, mas não tem acesso ao microfone do dispositivo.
O modelo de ameaça assume que o invasor pode capturar um vídeo com a câmera da vítima e que pode adquirir amostras de fala dos indivíduos-alvo antecipadamente, para usá-las como parte do processo de aprendizado.
Os pesquisadores sugerem que câmeras de menor qualidade limitariam o potencial de vazamento de informações associado a esse tipo de ataque.