O Google revelou uma nova ferramenta chamada RETVec (Resilient and Efficient Text Vectorizer) para ajudar na detecção de conteúdo potencialmente prejudicial, como spam e e-mails maliciosos no Gmail. O RETVec é projetado para ser resistente contra manipulações de caracteres, incluindo inserção, exclusão, erros de digitação, homoglifos, substituição LEET e mais.
“O modelo RETVec é treinado em cima de um codificador de caracteres inovador que pode codificar todos os caracteres e palavras UTF-8 de forma eficiente”, de acordo com a descrição do projeto no GitHub. Esta ferramenta funciona em mais de 100 idiomas diretamente, visando construir classificadores de texto mais resilientes e eficientes, tanto para servidores quanto para dispositivos.
A vectorização é uma metodologia no processamento de linguagem natural (NLP) para mapear palavras ou frases de um vocabulário para uma representação numérica correspondente, a fim de realizar análises adicionais, como análise de sentimentos, classificação de texto e reconhecimento de entidades nomeadas.
A integração do vectorizador ao Gmail melhorou a taxa de detecção de spam em 38% sobre a linha de base e reduziu a taxa de falsos positivos em 19,4%.
Também diminuiu o uso da Unidade de Processamento de Tensor (TPU) do modelo em 83%. O RETVec visa ajudar a construir classificadores de texto mais robustos e eficientes, tanto para o lado do servidor quanto para dispositivos, sendo mais robusto e eficiente.