Investigando Fotografías Y Personas Con Multi-Modal Large Language Models

Ayer os hablé de cómo "Cómo "Weaponizar" la generación de información que las apps y los servicios digitales ven en tus fotos", o lo que es lo mismo, cómo crear bases de datos con información extraída desde fotografías de forma automática. Esto puede ser muy útil para investigar fotografías concretas, o identidades a partir de grandes bases de datos de fotografías (o del carrete de fotos del smartphone de una persona).

Figura 1: Investigando fotografías y personas

con Multi-Modal Large Language Models

Hoy he querido probar la parte de investigar personas que aparecen en fotografías, para etiquetarlas y sacar metadatos, además de información descriptiva, a partir de fotografías. Es decir, para poder etiquetar información como si fuéramos personas procesando manualmente las fotografías.

Describiendo y etiquetando fotografías con MM-LLMs

Primero he probado con la fotografía que nos hicimos Luis Enriquez, Luis Herrero, José Luis Garci y yo en el último programa de la tertulia, pidiéndole que describa la fotografía e intente descubrir a las personas que salen en ellas.

Figura 2: Fotografía que nos hicimos en la última Tertulia

Luis Enriquez, Luis Herrero, José Luis Garci y yo

La gracia no es que sean fotografías públicas, sino privadas, lo que haría la información más "jugosa", ya sea porque se han conseguido mediante accesos concedidos a un servicio, o porque son fotografías que tenemos que analizar masivamente en un análisis forense, por ejemplo.

Figura 3: Descripción de José Luis Garci

En este caso - al igual que sucedía con Grok -, José Luis Garci no es reconocible por ChatGPT. Supongo que su ausencia del mundo de la tecnología ha permitido que esté lejos de los dataset de entrenamiento de ChatGPT. Lo mismo sucede con Luis Enriquez y Luis Herrero que no son reconocidos por ChatGPT.

Figura 4: Descripción de Chema Alonso

Sin embargo, en o que corresponde conmigo, ChatGPT sí que me reconoce. Además, dice: "Su estilo (gorro, pelo largo, ropa informal) es inconfundible con su imagen pública". Vamos, que me tiene fichado y bien fichado.

Figura 5: Conclusión sobre la fotografía

Al final, sí que reconoce y cataloga la foto perfectamente, lo que permitiría crear meta-información sobre la misma para alimentar una base de datos que pueda ser utilizada en entornos OSINT, así que si tenemos muchas fotografías, se tienen muchos datos como estos.

Figura 6: Open Source INTelligence (OSINT): Investigar personas e Identidades en Internet 2ª Edición de 0xWord, escrito por Vicente Aguilera y Carlos Seisdedos

Como no me habían reconocido a mis compañeros de tertulia, decidí subir la foto que nos hicimos Kevin Mitnick, Steve Wozniak hace ya unos años, para ver cómo la procesaba ChatGPT, y si nos generaría información jugosa para alimentar la base de datos.

Figura 7: La foto que nos hicimos Steve Wozniak y Kevin Mitnick

Como ya imaginaba, a mí me reconoce el primero de la izquierda - que procesa de izquierda a derecha - y llama la atención cómo reconoce la camiseta de Fear the FOCA y la historia de la herramienta FOCA.

Figura 8: Descripción de Chema Alonso

Lo mismo sucede con Steve Wozniak, que es el siguiente en la fotografía. Como podéis ver, analiza su aspecto, su expresión, y que es él. Haciendo en todo momento, como le pedía en el prompt, una inferencia sobre quién podría ser.

Figura 9: Descripción de Steve Wozniak

Y por último, el análisis de nuestro querido, y siempre recordado, Kevin Mitnick, que también lo reconoce perfectamente.

Figura 10: Descripción de Kevin Mitnick

También describe la ilustración que yo hice, y que tengo firmada en mi despacho, y lo utiliza como parte de su análisis del tipo de evento en el que se pudo tomar esa fotografía.

Figura 11: Ilustración que aparece en la fotografía

En la parte de Conclusión, he llamado mucho la atención cómo ha analizado la fotografía, ya que como podéis ver analiza las personas, con motivo de qué podríamos estar juntas, y el carácter amigable de la reunión al existir la ilustración.

Figura 12: Inferencias finales

Además dice que si estas suposiciones son ciertas, "esta foto reúne a tres leyendas vivas del mundo tecnológico y de la ciberseguridad en un mismo lugar." Por desgracia, los datos no están actualizados y seguimos echando de menos a Kevin.

Figura 13: Pidiéndole que catalogue esta fotografía con etiquetas

Por supuesto, una vez analizada la fotografía podemos etiquetar la información, así que le he pedido a ChatGPT que haga una selección de las 10 mejores etiquetas para catalogar esta fotografía, y como podéis ver ha elegido muy buenas etiquetas, lo que ayudaría a generar una base de datos valiosa si se hace con muchas fotografías.

Figura 14: Metadatos generados en forma de etiquetas

Esto no es nuevo, sino algo que todos los sistemas que permiten que subas tus fotografías ya utilizan para generar datos valiosos, inteligencia de datos accionable o saber más cosas de todas y cada una de las personas que tienen en sus plataformas.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)