terça-feira, out 20, 2020

Future Insights – O viés inerente ao aprendizado de máquina

Nota do nosso editor, Global CTO Nicolas Fischbach:

Seja bem-vindo a segunda parte da série Forcepoint Future Insights, que oferecerá seis diferentes pontos de vista sobre tendências e eventos que acreditamos que a indústria de cibersegurança terá de lidar em 2021. Não deixe de conferir a primeira publicação da série: A emergência em encontrar o “Zoom” da cibersegurança

Abaixo você encontra a próxima publicação de Raffael Marty, Vice President Research and Intelligence.

Quebra de confiança e como recuperá-la

Ao avaliar o cenário da cibersegurança atual, preciso dizer que estou feliz por não ser um CISO. Em um mundo com transformação digital em evolução constante, dispositivos conectados por toda a parte e forças de trabalho remotas semipermanentes, manter a segurança de dados críticos e pessoas é um desafio imenso. Tão imenso, na verdade, que não é possível sem a implementação de aprendizado de máquina e automação.

Para entender o risco e a exposição de uma organização, precisamos entender seus dados críticos e como os dados trafegam. Isso só é possível coletando grandes quantidades de metadados e telemetria e as interações com eles, e depois aplicando métodos analíticos para entendê-los e convertê-los em uma visão baseada em riscos.

Contudo, desenvolver sistemas automáticos não está isento de desafios e, em 2021, eu acredito que o aprendizado de máquina e os métodos analíticos estarão sob escrutínio mais rigoroso, porque a confiança em sua natureza neutra e justa, e também nos limites éticos, será questionada.

Rancor das máquinas

Em meados do ano, observamos vários incidentes em destaque nas notícias. Por exemplo, no Reino Unido, onde o governo inicialmente decidiu deixar que algoritmos determinem os resultados de provas escolares. O viés que havia sido integrado nesse algoritmo específico, contudo, resultou em quedas significativas nas notas: injustamente tendenciosas em áreas de renda mais baixa e, o que é pior, não levando em conta as especializações dos professores. Isso gerou uma reviravolta constrangedora, em que pessoas acabaram superando as máquinas na avaliação de provas.

Não é a primeira vez que algoritmos e sistemas de aprendizado de máquina, treinados com base em conjuntos de dados tendenciosos, foram criticados. Você já deve ter ouvido falar do chatbot Tay da Microsoft e em software de reconhecimento facial que identifica de forma incorreta pessoas comuns como criminosos.  Um erro pode ter efeitos que transformam vidas (por exemplo, para estudantes ou pessoas que se candidatam para obter empréstimos) ou ser uma questão “secundária”, como o envio de um cupom de compras inadequado para um cliente.

Diversos sistemas de segurança digital usam aprendizado de máquina para tomar decisões sobre se uma ação é apropriada (de baixo risco) para um determinado usuário ou sistema. Esses sistemas devem ser treinados com quantidades de dados grandes o suficiente, e precisam ser avaliados com cuidado em termos de viés e precisão. Se errar, ou aplicar os controles incorretos, você experimentará situações como o envio de um documento crítico para o negócio sendo interrompido na metade do percurso, um líder de vendas incapaz de compartilhar propostas com um cliente potencial, ou outros bloqueios para o trabalho eficiente e eficaz. Por outro lado, se os controles estiverem fracos demais, os dados podem vazar de uma organização, causando danos e violações com alto custo.

Como encontrar o equilíbrio em 2021 

Para desenvolver sistemas digitais que ajudem a identificar usuários arriscados e prevenir ações danosas, os dados que analisamos vêm na maior parte do monitoramento das atividades dos usuários. É preciso enfatizar que o monitoramento deve ser feito de forma apropriada, e considerando a privacidade das pessoas e as devidas diretrizes éticas.

Para criar uma imagem virtual dos usuários, podemos monitorar as atividades de conexão e desconexão. Monitoramos quais arquivos as pessoas abrem, modificam e compartilham. Os dados são obtidos em sistemas de segurança como proxies da web, firewalls de rede, proteção de endpoints e soluções de prevenção contra perda de dados. A partir desses dados, as classificações de riscos são calculadas e os sistemas de segurança marcam comportamentos inadequados e aplicam as políticas de segurança de forma apropriada.

Ao realizar essa análise ou, na verdade, qualquer análise que use aprendizado de máquina ou algoritmos para tomar decisões automáticas que impactam a vida das pessoas, precisamos usar uma combinação de algoritmos e inteligência humana. Sem agregar a intuição humana, insights, contexto e um entendimento de psicologia, você se arrisca a criar algoritmos que são inerentemente tendenciosos ou tomam decisões com base em dados inadequados ou com viés, conforme discutido acima.

Além de envolver a expertise humana nos algoritmos ou, em outras palavras, modelar o conhecimento especializado, ter os dados de treinamento e informar os dados certos nas análises ativas é igualmente essencial. O que seriam os dados “certos”?  Ou, assim como no dito popular, como encontrar uma agulha no palheiro! Os dados “certos” com frequência são determinados pelo problema em si, como o algoritmo é construído e se existem loops de reforço ou mesmo se o envolvimento explícito de especialistas é possível. Os dados certos seriam a quantidade adequada de dados, o conjunto de treinamento ideal, os locais de amostragem adequados, a confiança ideal nos dados, a oportunidade adequada, etc. O maior problema com os "dados certos" é que é quase impossível definir qual viés estaria presente até que um resultado falso seja observado e então possivelmente já seria tarde demais, os danos já teriam sido causados.

O uso de aprendizado de máquina e algoritmos no dia a dia ainda está em fase inicial, mas vemos a quantidade de aplicações crescendo em ritmo surpreendente. Em 2021, eu prevejo que aplicações adicionais falharão devido ao viés inerente, e a uma falta de supervisão especializada e controle dos algoritmos. Outro problema relevante é que a maioria dos algoritmos de aprendizado de máquina supervisionados atuam como uma caixa preta, tornando a verificação impossível ou incrivelmente difícil.

Isso não significa que todos os algoritmos de aprendizado de máquina estão condenados ao fracasso. A boa notícia é que agora o viés está sendo discutido e considerado em grupos abertos, juntamente com a eficácia dos algoritmos. Espero que continuemos a desenvolver algoritmos explicáveis, que modelarão as avaliações de especialistas. O futuro do aprendizado de máquina é brilhante; a aplicação de algoritmos de formas inteligentes só é limitada pela nossa imaginação.

Recursos adicionais

Para obter mais detalhes sobre o compromisso da Forcepoint com a privacidade, consulte o Hub de Privacidade da Forcepoint.
 

About the Author

Raffael Marty

Raffael Marty brings more than 20 years of cybersecurity industry experience across engineering, analytics, research and strategy to Forcepoint. Prior to joining the company, Marty ran security analytics for Sophos, a leading endpoint and network security company, launched pixlcloud, a visual...