X-Labs
Novembro 13, 2023

Por que precisamos de estruturas éticas e regulamentação para a inteligência artificial?

Forcepoint's 2024 Future Insights Post #4
Nick Savvides

Nos últimos anos, fui convidado por organizações para falar sobre as implicações de segurança do envenenamento de dados, que se tornou uma importante preocupação para organizações que trabalham com sistemas de inteligência artificial (IA) e machine learning (ML). Quando se trata dos métodos e motivações dos atacantes, o envenenamento de dados geralmente se apresenta como uma categoria relativamente organizada e bem definida (detalhadamente abordada na postagem anterior de Audra Simons).

 

No entanto, ao analisar principalmente o impacto em seus sistemas, como costuma ser o caso das equipes de cibersegurança, pode ser complicado distinguir imediatamente os ataques deliberados dos efeitos não intencionais como os de sistemas de IA são projetados ou de onde os dados que eles treinam são originados. Nesta postagem, examinarei alguns problemas sistêmicos que afetam os sistemas de IA/ML, com o objetivo de explicar por que estruturas éticas e governança regulatória são importantes para ajudar a IA a funcionar de maneira eficiente e equitativa.

Como a IA pode apresentar problemas sem a intervenção de “atacantes”?

É possível criar um sistema de aconselhamento de IA que seja treinado com dados reais e precisos, mas que acabe produzindo resultados antiéticos. Podemos observar um exemplo simples com o texto preditivo. Os primeiros modelos de ML para texto preditivo eram treinados em documentos de domínio público, geralmente jornais e livros digitalizados mantidos pela Biblioteca do Congresso dos Estados Unidos ou outras bibliotecas arquivísticas, como o Arquivo Nacional da Austrália. Eles "leriam" o texto e construiriam modelos com base na recorrência de palavras em proximidade umas das outras. As primeiras bibliotecas de texto preditivo usadas em smartphones acabaram inadvertidamente se tornando um tanto sexistas e racistas. Por exemplo, escrever a palavra "engenheiro" poderia fazer com que o modelo gerasse termos codificados como masculinos, porque o texto daquela época refletia as atitudes predominantes naquele período. Após a identificação do problema, os modelos foram ajustados para corrigir essa fonte de viés.

Outra maneira pela qual o viés e elementos indesejados podem se infiltrar nos modelos de IA é por meio da crowdsourcing de conjuntos de dados. Muitos dados usados para treinar a IA realmente vêm da entrada humana, frequentemente por meio de plataformas de crowdsourcing como o Amazon Mechanical Turk. O ImageNet é um exemplo de um banco de dados visual que usou crowdsourcing para rotular suas muitas imagens, resultando em casos de viés racial (bem como linguagem explicitamente racista) que poderiam ser absorvidos por modelos de IA. Se os dados de treinamento são provenientes de documentos de domínio público ou de crowdsourcing, é necessário ter transparência para que problemas sistêmicos escondidos nos conjuntos de dados possam ser identificados e mitigados.

Para entender quão sério pode ser o impacto humano de sistemas de aconselhamento e tomada de decisões automatizadas comprometidos, vamos analisar a sentença criminal. Nos países democráticos com altos níveis de liberdades individuais e responsabilidade, há um tema comum de tribunais inferiores sobrecarregados (por exemplo, tribunais de magistrados, tribunais de julgamento, tribunais distritais), com juízes e magistrados lidando com cargas de casos extremas. Em tais cenários, um grau significativo de eficiência operacional pode ser obtido ao reduzir o tempo necessário para a sentença. Quando um juiz ou magistrado precisa determinar uma sentença após um veredicto, eles precisam analisar obrigações legislativas, precedentes, expectativas da comunidade, juntamente com a gravidade do crime, e isso leva tempo. Diante disso, muitas jurisdições recorreram à IA para ajudar a analisar informações do caso, submetê-las a modelos e fornecer recomendações de sentença.

Forcepoint's 2024 Future Insights Series

 

Infelizmente, assim como os modelos de linguagem, esses sistemas são treinados em conjuntos de dados antigos e extensos, frequentemente fazendo recomendações que refletem tempos menos esclarecidos, sugerindo penas mais longas e severas para pessoas de certas etnias e demografias. Com os juízes sobrecarregados e a tendência humana de confiar na máquina acima de tudo, isso resultou em juízes aplicando a saída das máquinas sobre seu próprio julgamento, levando a sentenças racistas e claramente desproporcionais em vários casos. A falta de transparência em relação ao funcionamento dos modelos de IA e aos dados em que são treinados contribuiu para o problema.

Existe um problema final a ser examinado: o ciclo não virtuoso. Isso ocorre quando a IA é usada para gerar uma saída que, por si só, é aceitável, como fazem muitas ferramentas de IA gerativas hoje em dia. No entanto, quando essa saída é usada para treinar outros modelos de IA, pode causar a escalada e amplificação de efeitos indesejáveis, resultando em saídas que são no mínimo absurdas e no máximo destrutivas. No caso do sistema de sentença que analisamos, se isso não for controlado, modelos futuros aumentarão a discriminação e a sentença desproporcional. Se um gerador de imagens de IA for treinado sobre outras imagens geradas por IA, isso pode levar a gerações subsequentes parecendo iguais ou sem sentido

Esse tipo de degradação de modelos de IA pode ser particularmente grave em organizações que treinam modelos com seus próprios dados de clientes, usando modelos para gerar dados sintéticos e, em seguida, aplicando aprendizado às saídas. Embora o absurdo possa ser isolado rapidamente, mais insidiosos são os resultados imprecisos ou desviantes que são difíceis de detectar, mas têm um impacto significativo na tomada de decisões ou análises subsequentes. Por exemplo, uma instituição financeira pode modelar a lucratividade do cliente usando um conjunto de modelos, que são então usados por outros modelos para gerar clientes sintéticos, que são então usados para gerar modelos de como a lucratividade da instituição mudaria, ou como clientes específicos provavelmente se sairiam ao longo do tempo. Nesse caso, os clientes podem ser negados acesso de maneira clássica de "o computador diz não", sem que ninguém saiba por que o computador disse não.

 

O que isso tem a ver com cibersegurança?

Quando falo sobre esse assunto, é nesse ponto que as pessoas geralmente param e perguntam: "Ok, isso é terrível, mas o que isso tem a ver com cibersegurança?" Infelizmente, tem *tudo* a ver com segurança.

Estamos cada vez mais dependentes da IA em todas as partes da cibersegurança. Começou com malware (mudando de assinaturas para análise comportamental e de características), depois foi a análise de logs (passando de correlação para detecção de anomalias e análise de comportamento do usuário), agora é tudo. Modelos de aprendizado de máquina e IA decidem se você deve ter acesso a um recurso, se um usuário está apresentando um risco elevado, se um recurso é seguro de acessar ou se um ator malicioso está dentro dos seus dados e não apenas dos seus sistemas. Não podemos evitar a IA, pois é a única maneira de escalarmos nossas operações no campo de batalha cibernético. Cada novo software ou serviço terá um elemento de IA ou ML; nesse sentido, será semelhante ao que a nuvem representou para software e aplicativos há 15 anos. As aplicações progrediram progressivamente para a nuvem, e aquelas que não o fizeram tiveram princípios de nuvem aplicados em seus ambientes privados. Na verdade, em cibersegurança, iremos passar de usar IA em técnicas defensivas e de detecção para implantá-las de maneira adversarial.

Mas ainda assim, como essas questões afetam diretamente a cibersegurança? Novamente, as ferramentas usadas para fins cibernéticos são todas suscetíveis aos perigos descritos acima. Imagine um cenário, por exemplo, em que você treinou uma IA que analisa seus incidentes de perda de dados e sinais de comportamento do usuário. Os dados de treinamento serão históricos da sua organização; esses dados sofreram envenenamento inadvertido de políticas mal ajustadas? O que acontece quando sua IA agora está bloqueando usuários legítimos fora dos sistemas ou negando o acesso a recursos porque o modelo de treinamento entrou em um ciclo não virtuoso amplificando a importância dos valores atípicos? O que acontece em um cenário em que sua IA decide incorretamente que um funcionário está assediando alguém ou está em risco de autolesão?

 

O que pode ser feito a respeito?

Meu objetivo aqui foi principalmente ajudar você a entender como o viés não intencional e o envenenamento de dados ocorrem e quão sério pode ser o impacto humano quando esses problemas não são controlados. Estou interessado em transmitir por que estruturas éticas e regulamentação são necessárias para a IA e não apenas uma distração para organizações em busca de seus objetivos financeiros. Mas pensei em encerrar apontando brevemente na direção do que está sendo feito nesta área.

 

Estruturas Éticas

Estabelecer as melhores práticas para ética em IA é um desafio devido à rapidez com que a tecnologia está se desenvolvendo, mas diversas organizações do setor público e privado têm se empenhado em implementar estruturas e centros de informações para questões éticas. Aqui está uma pequena amostra do que está disponível:

 

Governança Regulatória

Embora o trabalho em estruturas éticas possa parecer um tanto desorganizado, a regulamentação real da IA está realmente em seus estágios iniciais. O EU AI Act é uma das primeiras legislações importantes a estabelecer a governança regulatória de aplicações de IA. Nos Estados Unidos, o Presidente Biden acabou de emitir uma Ordem Executiva para estabelecer padrões e diretrizes para o desenvolvimento e uso de IA. Este é o conjunto mais abrangente de regras nos EUA, construindo sobre algumas das leis que os estados americanos promulgaram sobre o uso de IA, e merece uma análise e estudo por si só.

Além disso, a Organização Mundial da Saúde propôs princípios regulatórios relacionados especificamente a preocupações de saúde. Claro, isso não leva em consideração como regulamentações existentes de segurança de dados e privacidade de dados, como o GDPR, impactam o uso da inteligência artificial.

 

O Futuro é Regulado

Toda essa atividade provavelmente desencadeará um aumento na quantidade de regulamentação nas principais economias e blocos comerciais, o que poderá levar a um cenário regulatório cada vez mais fragmentado, pelo menos por enquanto.

Acredito que é seguro prever que a atual era de "Velho Oeste" da IA e do ML desaparecerá rapidamente, deixando as organizações com uma considerável carga de conformidade quando desejarem aproveitar a tecnologia.

Lidar com tudo isso será difícil, mas espero ter demonstrado com sucesso que abordar a IA a partir da perspectiva do design ético e da conformidade regulatória é crucial se quisermos proteger as muitas pessoas, usuários e outros, que são impactados por esses sistemas.

Nick Savvides

Nick Savvides is the director of strategic accounts for Asia Pacific at Forcepoint. In this role, he is responsible for growing the company’s strategic business with its key customers in the region. This involves taking the lead to solve customers’ most complex security issues while accelerating...

Leia mais artigos do Nick Savvides

Sobre a Forcepoint

A Forcepoint é líder em cibersegurança para proteção de usuários e dados, com a missão de proteger as organizações ao impulsionar o crescimento e a transformação digital. Nossas soluções adaptam-se em tempo real à forma como as pessoas interagem com dados, fornecendo acesso seguro e habilitando os funcionários a criar valor.