Estudo revela que apenas 250 documentos maliciosos podem comprometer modelos de linguagem com 'backdoor'

Um estudo conjunto entre o Instituto de Segurança em IA do Reino Unido e o Alan Turing Institute revelou que apenas 250 documentos maliciosos podem criar uma vulnerabilidade de "backdoor" em um modelo de linguagem grande, independentemente do tamanho do modelo ou do volume de dados de treinamento. Embora um modelo com 13 bilhões de parâmetros seja treinado com mais de 20 vezes a quantidade de dados em comparação a um modelo de 600 milhões, ambos podem ser comprometidos com a mesma quantidade reduzida de documentos contaminados. Isso desafia a suposição comum de que os atacantes precisam controlar uma porcentagem dos dados de treinamento; na verdade, podem necessitar apenas de uma quantidade fixa e pequena.

A pesquisa concentra-se em um tipo específico de "backdoor" que gera texto incoerente, o que, embora não represente riscos significativos em modelos avançados, evidencia a possibilidade de ataques de envenenamento de dados serem mais práticos do que se pensava anteriormente. "Estamos compartilhando esses resultados para incentivar mais pesquisas sobre envenenamento de dados e potenciais defesas contra isso", afirmaram os pesquisadores.

Modelos de linguagem grandes, como Claude, são pré-treinados com enormes volumes de texto público da internet, incluindo blogs e sites pessoais. Esse cenário permite que atores maliciosos injetem textos específicos nesses conteúdos, levando o modelo a aprender comportamentos indesejáveis. Um exemplo é a introdução de "backdoors", que são frases que acionam comportamentos ocultos no modelo. Por exemplo, um modelo pode ser envenenado para exfiltrar dados sensíveis ao encontrar uma frase de ativação como no prompt.

A investigação atual é a maior sobre envenenamento de dados realizada até agora e revela que os ataques de envenenamento exigem um número constante de documentos, independentemente do tamanho do modelo ou do volume de dados de treinamento. Ao injetar apenas 250 documentos maliciosos nos dados de pré-treinamento, os adversários podem comprometer modelos de 600 milhões a 13 bilhões de parâmetros. Isso sugere que a contagem absoluta, e não a proporção relativa, é o que importa para a eficácia do envenenamento.

Nos experimentos, os pesquisadores definiram como o gatilho para o ataque. Cada documento envenenado foi construído a partir de uma amostra aleatória de um texto de treinamento, seguido pela frase gatilho e um texto aleatório. O sucesso do ataque foi medido pela perplexidade dos textos gerados, onde um ataque bem-sucedido resultava em saídas com alta perplexidade após a exposição ao gatilho.

Os resultados indicam que a eficácia do ataque permanece consistente entre diferentes tamanhos de modelos, desafiando a ideia de que modelos maiores precisariam de uma maior quantidade de dados envenenados. Ao contrário, apenas 250 documentos maliciosos foram suficientes para comprometer modelos de diferentes escalas, com a dinâmica do ataque mostrando-se semelhante mesmo com variações no volume de dados limpos.

Os pesquisadores alertam que, embora compartilhar essas descobertas possa incentivar ataques práticos, os benefícios de divulgar esses resultados superam as preocupações. O envenenamento de dados como vetor de ataque é considerado mais favorável à defesa, pois os atacantes escolhem amostras contaminadas antes que os defensores possam inspecionar seus dados. Portanto, é crucial que os defensores se preparem para ataques que pensavam ser impossíveis e desenvolvam defesas que sejam eficazes em larga escala.

Concluindo, este estudo destaca a necessidade urgente de investigar mais a fundo as vulnerabilidades de envenenamento de dados e desenvolver defesas eficazes contra esse tipo de ataque. Os pesquisadores encorajam a continuidade da pesquisa nessa área crucial.