X-Labs
Outubro 23, 2023

Envenenamento de Dados: A Nova Ameaça para a IA Generativa

Bem-vindo à Série de Insights do Futuro 2024 da Forcepoint
Audra Simons

Poucas coisas ilustram a rápida difusão da aprendizagem de máquina e da inteligência artificial (IA) mais do que a insanamente popularidade do ChatGPT, um aplicativo de IA generativa que ostenta a base de usuários de crescimento mais rápido da história. No entanto, à medida que os algoritmos se tornam um componente cotidiano da vida, graças a um número crescente de casos de uso empresarial e de consumidores, eles também representam uma nova superfície de ataque. Ao manipular algoritmos, os atores maliciosos podem controlar sua saída.

Esse tipo de ataque, chamado envenenamento de dados, está se tornando mais prolífico à medida que os atores mal-intencionados ganham acesso a maior poder computacional e novas ferramentas. Embora o primeiro ataque de envenenamento de dados tenha ocorrido há mais de 15 anos, ele se tornou a vulnerabilidade mais crítica na aprendizagem de máquina e IA. Os filtros antispam do Google, por exemplo, foram comprometidos várias vezes. Os atores maliciosos envenenaram o algoritmo e alteraram como o spam foi definido, permitindo que e-mails maliciosos passassem pelo filtro.

Olhando para 2024, considerando a popularidade e a adoção de novas ferramentas de aprendizagem de máquina e IA, as empresas podem esperar um aumento nos ataques de envenenamento de dados. Com isso em mente, vamos dar uma olhada mais de perto nessa ameaça e como as organizações podem se preparar para ela.

 

Tipos de ataques de envenenamento de dados

Os ataques de envenenamento de dados podem ser divididos em quatro categorias amplas: ataques de disponibilidade, ataques de backdoor, ataques direcionados e ataques de subpopulação.

Em um ataque de disponibilidade, o modelo inteiro é corrompido, causando falsos positivos, falsos negativos e classificação errada de amostras de teste. Uma instância comum de ataques de disponibilidade é a inversão de rótulos ou a adição de rótulos aprovados a dados comprometidos. De modo geral, os ataques de disponibilidade resultam em uma considerável redução na precisão do modelo.

Em um ataque de backdoor, um ator introduz backdoors (ou seja, um conjunto de pixels no canto de uma imagem) em um conjunto de exemplos de treinamento, fazendo com que o modelo os classifique erroneamente e afetando a qualidade da saída.

Com ataques direcionados, como o nome sugere, o modelo continua a funcionar bem para a maioria das amostras, mas um pequeno número é comprometido, tornando-o difícil de detectar devido ao impacto visível limitado ao algoritmo.

Finalmente, os ataques de subpopulação, semelhantes aos ataques direcionados, afetam apenas subconjuntos específicos, influenciando vários subconjuntos com características semelhantes, enquanto a precisão persiste para o restante do modelo. Em última análise, ao construir qualquer algoritmo de treinamento, as vulnerabilidades associadas a esses tipos de ataques de envenenamento de dados devem ser consideradas.

Outra maneira de categorizar os ataques de envenenamento de dados é pelo conhecimento do atacante, em oposição (ou além) à técnica deles. Quando os adversários não têm conhecimento do modelo, é chamado de "ataque de caixa preta". No outro extremo, quando os adversários têm conhecimento total dos parâmetros de treinamento e do modelo, é chamado de "ataque de caixa branca". Para que um ataque direcionado seja realizado, por exemplo, o atacante deve ter conhecimento do subconjunto que deseja direcionar durante o período de treinamento do modelo. Um "ataque de caixa cinza", finalmente, fica no meio. Não é surpreendente que os ataques de caixa branca tendam a ser os mais bem-sucedidos.

 

Como combater o envenenamento de dados

A triste realidade é que o envenenamento de dados é difícil de remediar. Corrigir um modelo requer uma análise detalhada das entradas de treinamento do modelo, além da capacidade de detectar e remover fraudulentas. Se o conjunto de dados for muito grande, essa análise é impossível. A única solução é reentrenar completamente o modelo. No entanto, isso está longe de ser simples ou barato. Training GPT-3, por exemplo, custou uma quantia significativa. Como tal, os melhores mecanismos defesa contra o envenenamento de dados são proativos.

Para começar, seja extremamente diligente em relação aos bancos de dados usados para treinar qualquer modelo específico. As opções incluem o uso de verificadores de alta velocidade e Zero Trust CDR para garantir que os dados transferidos estejam limpos; usar métodos estatísticos para detectar anomalias nos dados; e controlar quem tem acesso aos conjuntos de dados de treinamento. Uma vez que a fase de treinamento esteja em andamento, continue a manter as informações operacionais secretas dos modelos. Além disso, certifique-se de monitorar continuamente o desempenho do modelo, utilizando ferramentas em nuvem, como Azure Monitor e Amazon SageMaker, para detectar mudanças inesperadas na precisão.

 

Resumo

Existem várias maneiras de atores maliciosos exercerem controle sobre o treinamento de um modelo, desde a inserção de dados envenenados até a modificação de amostras de treinamento existentes. À medida que as organizações utilizam a inteligência artificial e o aprendizado de máquina em uma gama mais ampla de casos de uso, compreender e prevenir essas vulnerabilidades é de extrema importância. Isso é especialmente importante à medida que serviços essenciais, como transporte e policiamento, colhem os benefícios dessas tecnologias. Embora a inteligência artificial generativa tenha uma longa lista de casos de uso promissores, seu pleno potencial só pode ser realizado se mantivermos os adversários afastados e protegermos os modelos.

Audra Simons

Audra Simons is the Senior Director of  Global Products, G2CI. Audra is part of the Forcepoint Global Governments team, where her goal is to break new ground in the area of non-ITAR global products and engineering with a focus on high assurance critical infrastructure customers,...

Leia mais artigos do Audra Simons

Sobre a Forcepoint

A Forcepoint é líder em cibersegurança para proteção de usuários e dados, com a missão de proteger as organizações ao impulsionar o crescimento e a transformação digital. Nossas soluções adaptam-se em tempo real à forma como as pessoas interagem com dados, fornecendo acesso seguro e habilitando os funcionários a criar valor.