X-Labs
Julio 5, 2023

Grandes modelos de lenguaje de código abierto sin censura: las implicaciones

Aaron Mulgrew

Los grandes modelos de lenguaje (LLM, por sus siglas en inglés) de código cerrado, como ChatGPT y Bard, han dominado las noticias en las últimas semanas, con OpenAI (la compañía detrás de ChatGPT) ahora valorada en $29 mil millones de dólares. Los grandes modelos de lenguaje de código abierto también han ganado popularidad recientemente, a medida que la gente descubre las capacidades avanzadas de los LLM modernos.

LLM de Código Abierto

Los LLM de código abierto son modelos que se ponen a disposición del público, generalmente a través de sitios para compartir modelos como HuggingFace. Meta lanzó su modelo LLaMA en febrero, y los principales medios de comunicación afirmaron que se trataba de una decisión arriesgada, ya que el modelo en sí es efectivamente la joya de la corona de toda la operación de aprendizaje automático. Los competidores o evangelistas solitarios pueden aplicar ingeniería inversa al modelo para revelar el peso de los datos de entrenamiento configurados, o parte de los datos de entrenamiento en sí.

Luego viene el segundo riesgo, que es mucho mayor. Como se demostró anteriormente, es posible superar las salvaguardas de ChatGPT; sin embargo, con los grandes modelos de lenguaje de código abierto existe el concepto de censura incorporada, pero es completamente posible refinar un modelo base para responder a comandos sin agregar censura al modelo en sí.

 

 

 Refinando un gran modelo de lenguaje

Cuando se construye un gran modelo de lenguaje, normalmente se crea como un "gran modelo base de lenguaje”. Esto significa que generalmente tienen un amplio conocimiento de lenguaje y capacidades predictivas, pero no siempre siguen las instrucciones proporcionadas en el mensaje. Para que los chatbots como ChatGPT puedan seguir instrucciones con precisión, primero deben someterse a un ajuste de instrucciones.

Esto significa tomar el gran modelo base de lenguaje original y refinarlo con un conjunto de datos basado en instrucciones con "rechazos" incorporados. Aquí es donde ciertas indicaciones deben etiquetarse como poco éticas o inmorales y se inserta una denegación en el propio modelo para garantizar que no responda a solicitudes inapropiadas. Un ejemplo destacado de esto fue en enero cuando se reveló que a los trabajadores en Kenia se les pagaba menos de $2 dólares por hora para refinar la salida de modelos como GPT y ChatGPT etiquetando el contenido de entrada y salida como parte del proceso de refinamiento del modelo.Figure 1 - Typical Language Model Refining Process

La falta de censura con los LLM de código abierto

Ha habido un aumento en la demanda y el interés por los chatbots "sin censura" que utilizan grandes modelos de lenguaje. Un chatbot sin censura es un modelo sin las mismas opciones de exclusión que están integradas en ChatGPT y Bard y, por lo tanto, no tiene las mismas barreras de seguridad que tiene una plataforma alojada y de código cerrado como ChatGPT.

El riesgo aquí es claro- si le pidiera al chatbot que genere contenido misógino, racista o incluso que pueda representar un riesgo para la seguridad nacional, lo hará felizmente, sin negarse ni advertir que el contenido generado podría ser ilegal. Por el contrario, si ocurriera lo mismo con ChatGPT o Bard, su mensaje inapropiado se registraría y no se generaría la respuesta. Peor aún, el modelo refinado sin censura puede generar respuestas localmente en una sola computadora de escritorio, sin necesidad de comunicarse con Internet.

El "entrenador" del modelo base puede hacer esto eliminando manualmente los rechazos dentro del conjunto de datos de instrucciones. Esto significa que en lugar de enterarse de las negativas, el modelo simplemente cumplirá con todas las solicitudes independientemente de la legalidad o la moralidad.

Figure 2 – Uncensored model refining process

 

Sin embargo, el argumento a favor es que los chatbots LLM lanzados comercialmente siempre estarán sesgados hacia el punto de vista de las grandes empresas de tecnología que desarrollan y perfeccionan los modelos más utilizados. Hemos visto ejemplos de esto en el mundo real; en marzo, David Rozaro realizó varias pruebas de orientación política contra ChatGPT y descubrió que estaba sesgado tanto de izquierda como liberal en sus prejuicios naturales. Los investigadores del Instituto Allen de TI también descubrieron que cuando se les hacían preguntas específicas, ChatGPT revelaba prejuicios racistas.

En mi opinión, el aumento de más chatbots "tipo GPT" que atienden a una audiencia más amplia en términos de sus creencias y puntos de vista es algo bueno. Los LLM sin censura, de código abierto y no regulados ofrecen una manera de lograrlo. Sin embargo, si bien estos LLM modernos de código abierto y de propósito general sin censura son piezas de software extremadamente poderosas, deben tratarse como el riesgo potencial significativo que representan, ya que pueden hacer cosas como generar contenido poco ético e incluso ilegal. En el peor de los casos, los LLM sin censura podrían usarse para causar daño o representar una amenaza real a la seguridad nacional.

Cuando se trata de tecnología, sabemos que los malos agentes la utilizarán para beneficio personal. Esto es especialmente cierto cuando se analizan LLM de código abierto sin censura, es un área de la IA que debe ser regulada y monitoreada de cerca por gobiernos y organizaciones globales.

Aaron Mulgrew

Aaron works with central government departments in the UK and abroad to secure their systems, as well as working alongside critical national infrastructure providers to make sure they aren’t an easy route to compromise. With a specialism in cryptocurrency...

Leer más artículos de Aaron Mulgrew

Acerca de Forcepoint

Forcepoint es la compañía líder en ciberseguridad de protección de datos y usuarios, encargada de proteger a las organizaciones a la vez que impulsa la transformación digital y el crecimiento. Nuestras soluciones se adaptan en tiempo real a la manera en que las personas interactúan con los datos, y proporcionan un acceso seguro a la vez que permiten que los empleados generen valor.