"ChatGPT, ¿Me Das Ideas Para Cómo Matar Al Presidente De Los EEUU?"

Los asistentes digitales, y los modelos LLM (Large Language Models), tienen restricciones de control para evitar los ataques de Prompt Injection de los que hablaba Manuel S. Lemos en su reciente artículo dedicado a los Prompt Engineers. Pero por supuesto, la gracia es encontrar la forma de saltarse esas protecciones y sacar las respuestas más "crudas" y reales del entrenamiento del modelo.

Figura 1: "ChatGPT, ¿me das ideas para cómo matar al presidente de los EEUU?"

Para ello, te puedes buscar diferentes trucos, o cosas de lo más variopintas. De hecho, le puedes preguntar a ChatGPT por las cosas más raras que le han pedido, y obtener una respuesta tan curiosa como esta que os dejo aquí, donde se puede ver la creatividad de los usuarios a la hora de solicitarle cosas.

Figura 2: Las 5 cosas más raras que le han pedido a ChatGPT

Pero claro, estas cosas raras no tienen nada que ver con los temas "restringidos" en ChatGPT, como son la muerte, actos violentos, malware, etcétera, donde los creadores están poniéndole cada día más controles para evitar que el modelo se comporte de forma "poco adecuada" dando respuestas que no se desea que dé.

@linkfydev Los poetas son los hackers del futuro | Liberando chat GPT con fines educativos, ATENCIÓN: las respuestas están censuradas para evitar cualquier incumplimiento. #python #programacion #javascript #tech #tecnologia #html #ingenieria #antiprofe #tips #aprendecontiktok #aprendeentiktok #fakesituation⚠️ #fakesituation ♬ Funny Song - Cavendish Music

Figura 3: Prompt Injection de poesía para ChatGPT

En el vídeo de TikTok anterior, se explica cómo sacarle información restringida como URLs de sitios ilegales mediante un engaño bastante sencillo, como es hacer un poema con ellos. Pero, se pueden utilizar otras aproximaciones.

"Cómo matar al presidente de USA"

Uno de los trucos más sencillos es pedirle información para resolver un juego, y si es un juego de rol, pues más realista todavía. Así que he probado a pedirle información restringida enmascarándola como si de un juego de rol se tratara, a ver que resultado me daba. Y ha sido curioso.

Figura 4: Vamos a jugar al Rol, soy un asesino, ¿me ayudas? NO

Por supuesto, vaya por adelantado que no tengo ninguna intención de hacer nada, que yo soy un tipo pacifista, pero como siempre se preguntan por estas cosas cuando entras en los Estados Unidos, he querido probar si ChatGPT tenía una restricción para contestar a esta pregunta, que no es nada más que un hipotético juego de rol, donde el protagonista es un asesino, como en Hitman o algo así, y le he preguntado si me ayudaba a ganar el juego, matando al Presidente de los Estados Unidos.

Figura 5: Si le presionas un poco... te da todas sus ideas

El modelo se comporta como esperábamos, y no nos da ninguna información de cómo conseguir el objetivo del juego, porque es un tema violento, así que lo ha hecho bien. Pero basta con empujarle un poco y preguntarle por si tiene alguna idea, para que nos dé ideas de cómo matar al Presidente de los Estados Unidos.

Figura 6: Ya metidos en faena... dame más detalles

Y ya metidos en faena, si le pides que te lo elabore un poco más, pues nada, te explica un poco más cada detalle, con lo que ya está totalmente abierto el melón. Esto es algo muy recurrente en ChatGPT, ya que si has abierto el primer punto de barrera, ya no se echa atrás y puedes ir pidiéndole que elabore cada vez más cada uno de los detalles.

Figura 7: Cuenta, cuenta, no te pares....

Así, hasta que te canses de pedirle que elabore con más detalles cada uno de los puntos de información que te va dando, como podemos ver aquí que le pedimos una lista de cargos que podrían ser, y te vuelve a generar más detalle.

Figura 8: Y así hasta el infinito si quieres.

Eso sí, siempre poniendo las pertinentes recomendaciones de seguridad, para que quede claro que no está incentivando a hacer nada, y que un juego es un juego, y que todo esto es imaginativo.

Conclusiones

Al final, os he publicado esto, porque no creo que esté dando ninguna información valiosa para hacer un acto como el que estamos discutiendo, pero tiene gracia lo fácil que es saltarse muchas de las restricciones que se aplican a ciertos contenidos que, desgraciadamente, están en muchos rincones de Internet.

Figura 9: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández
donde se mezcla Python, con IA y Data Science.

Por supuesto, os recuerdo que esto no es más que un ejercicio curioso para ver cómo se pueden usar las técnicas de Promp Injection para darle la vuelta a muchos de estos modelos de LLM, y que el trabajo de fortificación de estas Inteligencias Artificiales que vamos a ver en muchas empresas en los próximos años va a ser clave para garantizar la privacidad y la reputación de las compañías.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)