X-Labs
Octubre 23, 2023

Envenenamiento de datos: La nueva amenaza para la IA generativa

Bienvenido a la serie de Future Insights 2024 de Forcepoint
Audra Simons

Quizás nada ilustra mejor la rápida incorporación del aprendizaje automático y la inteligencia artificial (IA) que la enorme popularidad de ChatGPT, una aplicación de IA generativa que cuenta con la base de usuarios de más rápido crecimiento de la historia. Sin embargo, a medida que los algoritmos se convierten en un componente básico de la vida cotidiana, gracias a un número creciente de casos de uso de empresas y consumidores, también representan una nueva superficie de ataque. Al manipular algoritmos, los actores maliciosos pueden controlar su salida.

Este tipo de ataque, llamado envenenamiento de datos se está volviendo más prolífico a medida que los actores maliciosos obtienen acceso a mayor potencia informática y nuevas herramientas. Aunque el primer ataque de envenenamiento de datos tuvo lugar hace más de 15 años, desde entonces se ha convertido en la vulnerabilidad más crítica en el aprendizaje automático y la IA. Los filtros antispam de Google, por ejemplo, se han visto comprometidos varias veces. Los actores maliciosos envenenaron el algoritmo y cambiaron la forma en que se definía el spam, lo que provocó que los correos electrónicos maliciosos pasaran por alto el filtro.

Mirando hacia el 2024, considerando la popularidad y la adopción de nuevas herramientas de aprendizaje automático e inteligencia artificial, las empresas pueden esperar ver un aumento en los ataques de envenenamiento de datos. Con eso en mente, echemos un vistazo más de cerca a esta amenaza y cómo las organizaciones pueden prepararse para ella.

 

Tipos de ataques de envenenamiento de datos

Los ataques de envenenamiento de datos se pueden dividir en cuatro grupos grandes: ataques de disponibilidad, ataques de puerta trasera (backdoor), ataques dirigidos y ataques de subpoblación.

En un ataque de disponibilidad, todo el modelo se corrompe, lo que provoca falsos positivos, falsos negativos y muestras de pruebas mal clasificadas. Un ejemplo común de ataques de disponibilidad es invertir etiquetas o agregar etiquetas aprobadas a datos comprometidos. En general, los ataques a la disponibilidad dan como resultado una reducción considerable en la precisión del modelo.

En un ataque de puerta trasera, un actor introduce puertas traseras (es decir, un conjunto de píxeles en la esquina de una imagen) en un conjunto de ejemplos de entrenamiento, lo que hace que el modelo las clasifique erróneamente y afecte la calidad del resultado.

Con ataques dirigidos, como sugiere el nombre, el modelo continúa funcionando bien para la mayoría de las muestras, pero una pequeña cantidad se ve comprometida, lo que dificulta su detección debido al impacto visible limitado en el algoritmo.

Finalmente, los ataques de subpoblación, que son similares a los ataques dirigidos en el sentido de que solo afectan a subconjuntos específicos, influyen en múltiples subconjuntos con características similares, mientras que la precisión persiste durante el resto del modelo. En última instancia, al crear cualquier algoritmo de entrenamiento, se deben considerar todas las vulnerabilidades asociadas con este tipo de ataques de envenenamiento de datos.

Otra forma de categorizar los ataques de envenenamiento de datos es según el conocimiento del atacante, a diferencia de (o además de) su técnica. Cuando los adversarios no tienen conocimiento del modelo, se le conoce como “ataque de caja negra”. En el otro extremo, cuando los adversarios tienen pleno conocimiento de los parámetros del modelo y del entrenamiento, se denomina "ataque de caja blanca". Para que se lleve a cabo un ataque dirigido, por ejemplo, el atacante debe tener conocimiento del subconjunto al que desea apuntar durante el período de entrenamiento del modelo. Finalmente, un “ataque de caja gris” se sitúa en el medio. Como era de esperar, los ataques de caja blanca tienden a ser los más exitosos.

 

Cómo combatir el envenenamiento de datos

La desafortunada realidad es que el envenenamiento de datos es difícil de remediar. Corregir un modelo requiere un análisis detallado de las entradas de entrenamiento del modelo, además de la capacidad de detectar y eliminar entradas fraudulentas. Si el conjunto de datos es demasiado grande, dicho análisis es imposible. La única solución es volver a entrenar el modelo por completo. Pero eso no es ni sencillo, ni barato. Entrenar el GPT-3, por ejemplo, costó la gran cantidad de 16 millones de euros. Como tal, los mejores mecanismos de defensa contra el envenenamiento de datos son proactivos.

Para empezar, sea extremadamente diligente con las bases de datos que se utilizan para entrenar cualquier modelo determinado. Las opciones incluyen el uso de verificadores de alta velocidad y Zero Trust CDR para garantizar que los datos que se transfieren estén limpios; utilizar métodos estadísticos para detectar anomalías en los datos; y controlar quién tiene acceso a los conjuntos de datos de entrenamiento. Una vez que la fase de entrenamiento esté en marcha, continúe manteniendo en secreto la información operativa de los modelos. Además, asegúrese de monitorear continuamente el rendimiento del modelo, utilizando herramientas en la nube como Azure Monitor y Amazon SageMaker, para detectar cambios inesperados en la precisión.

 

Resumen

Existen varias formas para que los actores maliciosos ejerzan control sobre el entrenamiento de un modelo, desde insertar datos envenenados hasta modificar muestras de entrenamiento existentes. A medida que las organizaciones utilizan la inteligencia artificial y el aprendizaje automático en una gama más amplia de casos de uso, comprender y prevenir dichas vulnerabilidades es de suma importancia. Este es particularmente el caso a medida que servicios esenciales como el transporte y la vigilancia obtienen los beneficios de dichas tecnologías. Si bien la IA generativa tiene una larga lista de casos de uso prometedores, todo su potencial sólo puede alcanzarse si mantenemos alejados a los adversarios y protegemos los modelos.

Audra Simons

Audra Simons is the Senior Director of  Global Products, G2CI. Audra is part of the Forcepoint Global Governments team, where her goal is to break new ground in the area of non-ITAR global products and engineering with a focus on high assurance critical infrastructure customers,...

Leer más artículos de Audra Simons

Acerca de Forcepoint

Forcepoint es la compañía líder en ciberseguridad de protección de datos y usuarios, encargada de proteger a las organizaciones a la vez que impulsa la transformación digital y el crecimiento. Nuestras soluciones se adaptan en tiempo real a la manera en que las personas interactúan con los datos, y proporcionan un acceso seguro a la vez que permiten que los empleados generen valor.