ArtPrompt: Jailbreaking LLMs Usando Prompts Codificados En ASCII Art

Este verano se publicó el artículo académico "ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs", que presenta un método para realizar Jailbreak en modelos de lenguaje (LLMs) utilizando arte ASCII, figuras y diseños creados con caracteres de texto. Además de ser súper creativo y curioso. Vamos a ver cómo funciona, ya que este enfoque ha puesto de manifiesto una debilidad inesperada: a pesar de su avanzada capacidad, estos modelos tienen serias dificultades en estos momentos para interpretar correctamente algo tan aparentemente simple como el Arte ASCII.

Figura 1: ArtPrompt - Jailbreaking LLMs usando Prompts codificados en ASCII Art

Lo que podría parecer una simple curiosidad se convierte en un asunto más grave al evidenciar una vulnerabilidad importante en los sistemas de seguridad de los LLMs, puesto que los investigadores han demostrado que esta limitación puede ser explotada para eludir las protecciones diseñadas para evitar que los modelos generen contenido dañino o inapropiado.

Un poco de historia de arte ASCII

El arte ASCII tiene una historia que se entrelaza con la propia evolución de la informática. Sus orígenes se remontan a mucho antes de la era de los ordenadores: ya en la antigua Grecia, los poetas componían obras visuales organizando palabras para crear formas, una técnica conocida como "poesía concreta".

Figura 2: Nacemuere (1958), Haroldo de Campos. Poesía concreta

El verdadero precursor del arte ASCII llegó en el Siglo XIX con el arte de máquina de escribir, donde los artistas pasaban el papel varias veces por el rodillo en diferentes ángulos para crear imágenes. Pero fue en los años 60 cuando el arte en máquina dio un salto revolucionario de la mano de Kenneth Knowlton y Leon Harmon en Bell Labs.

Figura 3: La obra Studies in Perception I en portada del The New York Times

Su obra "Studies in Perception I" de 1966, que incluía un desnudo computarizado creado con caracteres de texto, marcó un antes y un después: fue el primer desnudo frontal publicado en el New York Times y se convirtió en un hito en la intersección entre arte y tecnología.

Figura 4: Libro de "Microhistorias: anécdotas y curiosiades de la historia
de la informática (y los hackers)" de Fran Ramírez y Rafel Troncoso 0xWord.

La edad dorada del arte ASCII llegó en los años 70 y 80, coincidiendo con la expansión de los primeros sistemas de comunicación digital. Usuarios de Sistemas de Tablones de Anuncios (BBS), correo electrónico y grupos de Usenet entre otros encontraron en el ASCII art una forma creativa de expresión en un mundo todavía limitado a los caracteres de texto, y de esta época surgieron los emoticones (:) y {:>), que se convirtieron en el lenguaje visual universal de internet. De todo esto habla el libro de "Microhistorias: anécdotas y curiosiades de la historia de la informática (y los hackers)" de Fran Ramírez y Rafel Troncoso 0xWord.

Figura 5: El logo de iBombShell en ASCII Art

Este arte sigue muy presente en el mundo de la informática actual, siendo especialmente relevante en entornos de terminal y línea de comandos, donde los desarrolladores y administradores de sistemas lo utilizan para crear interfaces más amigables y legibles: desde banners que identifican programas hasta barras de progreso, pasando por gráficos de monitorización de sistemas.

Figura 6: The Beatles en ASCII art

También es común encontrarlo en la documentación de software, archivos README y en la firma de correos electrónicos.

Jailbreaking LLMs con ASCII Art

Como explican en el paper, los investigadores crearon VITC (Vision-in-Text Challenge), un benchmark diseñado específicamente para poner a prueba la capacidad de los LLMs para reconocer este tipo de arte. En concreto, crearon dos conjuntos de datos: VITC-S y VITC-L. iEl primero es el más básico: 8.424 muestras que incluyen números del 0 al 9 y letras en mayúsculas y minúsculas, cada uno representado en 234 estilos diferentes de arte ASCII. VITC-L es algo más complejo, conteniendo 8.000 muestras que combinan entre 2 y 4 caracteres, creando secuencias más complejas.

Figura 7: ArtPrompt - ASCII Art-based Jailbreak Attacks against Alligned LLMs

Para medir qué tal lo hacían los modelos, utilizaron dos métricas principales. La primera, el Accuracy, simplemente cuenta cuántas veces el modelo acierta completamente. La segunda, AMR (Average Match Ratio), es más flexible y mide cuántos caracteres individuales identifica correctamente el modelo, incluso si no acierta la secuencia completa.

Figura 8: Resultados al reconocer ViTC-S y ViTC-L

Los investigadores pusieron a prueba cinco de los LLMs más avanzados en ese momento: GPT-3.5 y GPT-4 de OpenAI, Claude de Anthropic, Gemini de Google y Llama2 de Meta (no se especifican los modelos exactos de Claude y Gemini). Y los resultados fueron sorprendentes: incluso GPT-4, el más avanzado en ese momento, apenas alcanzó un 25.19% de aciertos en VITC-S. Y cuando se enfrentó a VITC-L, su rendimiento cayó en picado hasta un mísero 3.26%.

Probaron diferentes estrategias: desde pedir a los modelos que identificaran los caracteres directamente (zero-shot), hasta darles ejemplos previos (few-shot) o pedirles que razonaran paso a paso (chain-of-thought). Pero nada parecía mejorar significativamente su rendimiento.

ArtPrompt: El Ataque

Una vez confirmada esta debilidad de los LLMs para interpretar arte ASCII, el equipo desarrolló ArtPrompt, la explotación a esta vulnerabilidad. La idea es simple: si los modelos no pueden interpretar bien el arte ASCII, ¿por qué no usar esta limitación para camuflar palabras que normalmente activarían sus filtros de seguridad?

Figura 9: Parte del Prompt va en ASCII Art

ArtPrompt funciona en dos pasos. Primero, identifica las palabras "sensibles" en un prompt que normalmente harían que el modelo se negara a responder. Por ejemplo, si alguien pidiera instrucciones para actividades ilegales, el modelo típicamente respondería con un educado "Lo siento, no puedo ayudarte con eso". En el segundo paso, ArtPrompt sustituye estas palabras sensibles por su equivalente en arte ASCII, creando lo que los investigadores llaman un "prompt camuflado".

Figura 10: Esquema ArtPrompt

El método demostró ser efectivo, puesto que mientras un ataque directo (simplemente pedir al modelo que haga algo inapropiado) tiene una tasa de éxito cercana a cero, ArtPrompt logró tasas de éxito significativas en todos los modelos probados.

Figura 11: Resultados de ArtPrompt con diferentes settings

GPT-3.5, por ejemplo, mostró una tasa de éxito del 78% cuando se usó la configuración "Ensemble" de ArtPrompt, que combina diferentes estilos de arte ASCII. Claude, conocido por sus robustas medidas de seguridad, sucumbió al ataque con una tasa de éxito del 52%. GPT-4 también mostró vulnerabilidades significativas ante este método.

Figura 12: ArtPrompt en GitHub

El código para replicar estos ataques está disponible públicamente en GitHub. Como siempre, su publicación tiene como objetivo mejorar la seguridad de los LLMs, no facilitar su mal uso.

Conclusiones

Este estudio demostró que la seguridad en LLMs no puede limitarse a entender solo el significado de las palabras, sino que hace falta también que los modelos comprendan cómo estas se ven y se relacionan en contexto. Aunque hay avances interesantes, como el fine-tuning de modelos para reconocer prompts camuflados en ASCII (logró aumentar el accuracy hasta cerca de un 72% con GPT-3.5), todavía queda camino para lograr sistemas más robustos y seguros.

Un saludo,

Autor: Javier del Pino, Investigador d IA en Ideas Locas