Martes, Oct 20, 2020

Future Insights – La objetividad imposible en el Aprendizaje Automatizado

Una pequeña nota de nuestro editor, Global CTO Nicolas Fischbach:

Bienvenido a la segunda publicación de nuestra serie Forcepoint Future Insights, que ofrecerá seis puntos de vista sobre las tendencias y eventos que creemos que la industria de la ciberseguridad tendrá que enfrentar en 2021. Consulte la primera publicación de la serie: El Surgimiento del Zoom de la Ciberseguridad.

A continuación el post de Raffael Marty, Vice President Research and Intelligence.

Las fisuras en la confianza y cómo enmendarlas

Al observar el panorama de la seguridad cibernética actual, debo decir que me alegra no ser un CISO. En un mundo en constante evolución de transformación digital, dispositivos omniconectados y fuerzas laborales remotas semipermanentes, mantener a los datos críticos y las personas seguros es un enorme desafío. Tan grande, de hecho, que no puede lograrse sin la implementación de automatización y aprendizaje automatizado.

Para poder entender el riesgo y la exposición de una organización, debemos comprender sus datos críticos y cómo se mueven esos datos. Y solo podemos lograrlo al recopilar grandes cantidades de metadatos y telemetría sobre esos datos y las interacciones con ellos para luego aplicar la analítica y así dilucidar y traducirlo en una visión basada en el riesgo.

Sin embargo, desarrollar sistemas automatizados tiene sus propios desafíos, y creo que en 2021 el aprendizaje automatizado y la analítica estarán sometidos a un escrutinio aún mayor, ya que se cuestionará la confianza en su naturaleza imparcial y justa, así como sus límites éticos.

Furia contra las máquinas

Este verano fuimos testigos de incidentes que se apoderaron de los titulares. Por ejemplo, en el Reino Unido, en donde el gobierno decidió inicialmente permitir que algoritmos determinaran los resultados de los exámenes escolares de los alumnos. Sin embargo, el sesgo que tenía incorporado este algoritmo en particular tuvo como resultado caídas significativas en las calificaciones: sesgado injustamente hacia áreas de bajos ingresos y, lo que es peor, sin tener en cuenta la experiencia de los maestros. Esto llevó a dar un vergonzoso giro de 180 grados, y las personas terminaron venciendo a las máquinas en la calificación de exámenes.

Esta no es la primera vez que algoritmos y sistemas de aprendizaje automatizado, entrenados con conjuntos de datos sesgados, han sido criticados. Seguramente conoce sobre el bot de conversación Tay de Microsoft y quizá oyó hablar del software de reconocimiento facial que identificaba incorrectamente a miembros del público como delincuentes. Ciertos errores pueden tener efectos que duran toda la vida (por ej., para los alumnos o las personas que solicitan un crédito) o pueden ser “menores” como enviar un cupón de compras inapropiado a un cliente.

Algunos sistemas de seguridad cibernética utilizan aprendizaje automatizado para tomar decisiones sobre si una acción es adecuada (o de bajo riesgo) para un usuario o sistema dados. Estos sistemas de aprendizaje automatizado deben entrenarse con grandes cantidades de datos y deben evaluarse con detenimiento respecto del sesgo y la precisión. Si falla o se aplican mal los controles, experimentará situaciones como interrumpir el envío de un documento crítico para el negocio, que un líder de ventas no pueda compartir propuestas con un cliente potencial, u otros impedimentos que no permitan llevar a cabo el trabajo de manera eficiente y eficaz. Por el contrario, si los controles son demasiado laxos, podría filtrarse información de una organización, lo que causaría una fuga de datos costosa y perjudicial.

Encontrar el equilibrio en 2021 

Para crear sistemas cibernéticos que ayuden a identificar a los usuarios riesgosos y eviten acciones perjudiciales, los datos que analizamos provienen en su mayor parte de estudiar las actividades de los usuarios. Desde ya vale decir que, el monitoreo de la actividad de los usuarios debe realizarse adecuadamente, contando con pautas éticas apropiadas y teniendo en cuenta la privacidad de las personas.

Para crear un panorama virtual de los usuarios, podemos hacer un seguimiento de las acciones de inicio y cierre de sesión. Monitoreamos qué archivos abren, modifican y comparten. Extraemos datos de sistemas de seguridad como proxies web, firewalls de red, protecciones de dispositivos finales y soluciones para la prevención de fugas de datos. A partir de estos datos se computan calificaciones de riesgo y los sistemas de seguridad a su vez señalan el comportamiento inapropiado y aplican las políticas de seguridad según corresponda.

Al realizar este análisis o, de hecho, cualquier análisis que utilice aprendizaje automatizado o algoritmos para tomar decisiones automatizadas que afectan las vidas de las personas, debemos usar una combinación de algoritmos e inteligencia humana. Sin el aporte de la intuición, los conocimientos, el contexto y la comprensión de la psicología humana, se corre el riesgo de crear algoritmos sesgados o de tomar decisiones basadas en datos sesgados o con fallas, como se analizó más arriba.

Además de involucrar la experiencia humana en los algoritmos o, en otras palabras, modelar el conocimiento experto, es igual de importante contar con los datos de entrenamiento adecuados o los datos correctos que alimentan el análisis en vivo. ¿Qué son los datos "correctos"?  O, como pregunta similar, ¿cuánto mide una cuerda? Los datos "correctos" suelen estar determinados por el problema mismo, cómo está construido el algoritmo y si hay bucles de aplicación o incluso participación explícita de expertos, de ser posible. Los datos correctos se refiere a la cantidad adecuada, el conjunto de entrenamiento apropiado, las ubicaciones de muestreo correctas, la confianza en los datos correcta, la puntualidad debida, etc. El mayor problema con los datos "correctos" es que es casi imposible definir qué sesgo podría estar presente hasta no observar un resultado falso, cuando posiblemente ya sea demasiado tarde y se haya causado daño.

El uso de aprendizaje automatizado y algoritmos en la vida diaria sigue estando en pañales pero vemos cómo la cantidad de aplicaciones crece a un paso asombroso. Para 2021, supongo que más aplicaciones fallarán debido al sesgo inherente y a la falta de control y supervisión experta de los algoritmos. Y, lo que no es un problema menor, la mayoría de los algoritmos de aprendizaje automatizado supervisado actúan como una caja negra, lo que hace que la verificación sea muy difícil o prácticamente imposible.

Esto no significa que los algoritmos de aprendizaje automatizado están condenados a fallar. La buena noticia es que ahora se está hablando sobre el sesgo y se lo está analizando en grupos abiertos, junto con la eficacia de los algoritmos. Espero que sigamos desarrollando algoritmos explicables que modelen los aportes expertos. El futuro del aprendizaje automatizado es brillante; lo único que limita la aplicación de algoritmos de formas inteligentes es nuestra imaginación. 

Recursos adicionales

Para conocer más sobre el compromiso con la privacidad de Forcepoint, consulte el Hub de privacidad de Forcepoint.
 

About the Author

Raffael Marty

Raffael Marty brings more than 20 years of cybersecurity industry experience across engineering, analytics, research and strategy to Forcepoint. Prior to joining the company, Marty ran security analytics for Sophos, a leading endpoint and network security company, launched pixlcloud, a visual...