Pregúntale a la bestia de la IA dónde es vulnerable

0:00 / 0:00

Puedes preguntarle a la bestia de la IA dónde es vulnerable y te mostrará una lista seleccionada de artículos académicos, pautas de la industria, herramientas y recursos prácticos para evaluar y formar equipos rojos con sistemas de IA con un enfoque en el jailbreak y la inyección rápida. Mire dentro del gran modelo de lenguaje en el que se basa la IA y no verá nada más que pequeños números, pesos y sesgos agrupados en tiempos inútiles a simple vista. Ningún escáner del mundo puede leer un volcado de esos números y decirle si había un número de pasaporte o un memorando confidencial en los datos de entrenamiento. Así que olvídate de la fantasía de radiografiar un modelo para encontrar los secretos atrapados en su interior. El único método real que tenemos es más simple, más tonto y mucho más peligroso. Golpea el modelo hasta que suelte algo. Lo que me lleva a afinar.El ajuste fino es el equivalente corporativo a dejar documentos confidenciales tirados en un bar. Tomas tus archivos de entrenamiento privados, los subes a OpenAI u otro proveedor y les pides que entrenen tu modelo personalizado. Ahora, tus secretos existen en al menos tres copias a nivel local, remoto y en el cráneo matemático del modelo. E incluso si el modelo está entrenado para nunca revelar datos privados, eso es sólo una pista de comportamiento vaga, no un mandamiento. El modelo se resiste al principio, como un perro entrenado para no robar del mostrador. Sigue preguntando. La persistencia por encima de la brillantez. Y finalmente la IA se quiebra. Números de pasaporte, números de teléfono, detalles biográficos. A la derecha de la primera mitad, luego casi perfecto. La aleatoriedad incorporada en cada salida de IA significa que si tiras los dados el tiempo suficiente, ganarás EL PREMIO MAYOR. ESO NO ES HACKEAR. Eso's esperando. Y la misma locura se manifiesta en la generación de imágenes. En un momento la IA felizmente crea un meme para ti. Al siguiente se niega y cita la política. Presionas reintentar más veces de las que te gustaría y nunca vuelves a obtener una imagen. Pero la pregunta sigue siendo: ¿por qué funcionó una vez? Ése es el problema con la IA como infraestructura de seguridad. Un 1% de fracaso es un compromiso del 100%. Si un firewall deja pasar el 1% de los paquetes, arrastra al ingeniero afuera y haz que se explique. Si el ajuste fino es una fuga de datos, entonces la generación aumentada de recuperación de trapos es una tubería completamente rota debajo de las tablas del piso. Así es como funciona el trapo. Haces una pregunta. En segundo plano, el sistema consulta silenciosamente una base de datos de sus documentos internos mediante una búsqueda integrada. Todo lo relevante se incluye en el mensaje. El modelo responde con tus datos. Suena genial.También suena como una citación a punto de ocurrir porque ahora documentos confidenciales, correos electrónicos y archivos financieros se copian silenciosamente en registros, indicaciones, cachés y almacenes de vectores en todos los lugares donde el modelo los necesita. En todas partes los desarrolladores olvidan que los pusieron, lo que hace que sacar esos secretos sea trivial. Aviso clásico. Ataques anteriores, ataques de traducción, vallas Markdown, tonterías creativas. El modelo bloquea decenas de intentos. Pero cuanto más larga es la conversación, más contexto introduce el sistema y más débiles se vuelven las barandillas. Al final, se rompe. Imprime el mensaje del sistema, luego los datos confidenciales del trapo, luego las credenciales de administrador y llega al 100% a la base de datos sintética. Aprendimos tres cosas. Contexto más largo, mayor probabilidad de falla. Las indicaciones del sistema no protegen nada. El trapo gotea como la sudorosa ventana de una casa rodante en invierno.Los artículos académicos documentan al ladrón de trapos. El 70% de una base de conocimientos se extrae automáticamente utilizando únicamente indicaciones iterativas. Y todo eso seguía siendo sólo un juego previo. La trampa vectorial. Ahora llegamos al verdadero fantasma en la máquina. Incrustaciones. Cuando se introduce un documento en un modelo de incrustación, no se recupera el texto. Obtienes un vector. Cientos o miles de pequeños números que representan el significado del pasaje. Los desarrolladores los tratan como abstracciones inofensivas. Un director ejecutivo de una base de datos vectorial dijo: "Los vectores son como hashes, seguros incluso si son robados" Mal. Risiblemente equivocado. Porque a diferencia de un hash, las incrustaciones se pueden invertir. Puedes tomar un vector, ejecutarlo a través de un modelo de inversión, luego un bucle de corrección y reconstruir el texto original con una precisión inquietante. Detalles médicos privados resucitados de lo que la mayoría de los ingenieros creen que son decimales sin sentido,nombres, diagnóstico, cantidades, fechas. La precisión de la inversión es cercana al 100%. Así que imagine todo el almacén de archivos de su empresa, el sistema de correo electrónico y la base de datos de recursos humanos, todo convertido en incrustaciones para la búsqueda de IA. Ahora imaginemos que esas incrustaciones tienen fugas. No tienes que imaginarlo. Ya está sucediendo. Pesca con IA, correos electrónicos que incorporan instrucciones ocultas en un contexto irregular, engañando al modelo para que exfiltre datos envueltos inofensivamente en enlaces Markdown. Los sistemas de inteligencia artificial modernos multiplican los datos privados. Lo replican en registros, historiales de mensajes, índices vectoriales, archivos de entrenamiento, cachés y copias de seguridad. Si un sistema normal tiene fugas como un grifo, los sistemas de inteligencia artificial tienen fugas como una boca de incendios golpeada por un camión. Entonces, ¿cómo nos defendemos? Tres reglas simples. Desconfíe de cualquier función de IA que absorba automáticamente sus documentos. El impuesto de conveniencia se paga en concepto de exposición.Interroga a los proveedores como si te debieran dinero. Pregunte cómo manejan los datos de entrenamiento, los registros, las incrustaciones y la retención. Observa qué tan rápido parpadean. Cifra en la capa de aplicación. Antes de que los datos toquen una base de datos, un almacén de vectores o un campo de entrada de modelo, el panorama criptográfico es mixto. Enclaves informáticos confidenciales, cifrado homórfico, tokenización, métodos de preservación de distancias, todos imperfectos. Todo mejor que nada. Los sistemas de IA no sólo utilizan sus datos privados. Lo multiplican, lo distribuyen y lo dejan tirado en lugares que nadie observa. Y lo mejor de todo es que es fácil de explotar. Ridículamente fácil. No se necesitan hackers de Hollywood. Solo indicaciones simples, herramientas de código abierto y paciencia obstinada. Los datos de las sombras son reales, las filtraciones son reales y la máquina, nuestro brillante dios industrial, no tiene idea de cuánto recuerda. Así que ahí estoy,Me pregunto cuántos vectores de mi propia vida ya estaban flotando en el vacío.

Comments & Ratings

Leave a Comment

#