Siete vulnerabilidades críticas en ChatGPT

Silvi Ocon
hace 2 días
3 Min. de lectura

Una investigación de la firma de ciberseguridad Tenable reveló un conjunto de siete vulnerabilidades críticas en ChatGPT. Estas fallas exponen a millones de usuarios a un riesgo de robo de datos personales, incluso en los modelos más recientes como GPT-5.

Según Tenable, estas vulnerabilidades permiten a los atacantes eludir los mecanismos de seguridad incorporados y crear una cadena de ataque completa, desde la inyección de comandos hasta la exfiltración de información privada.

Inyección indirecta de prompt

Para entender estas amenazas, es clave comprender la inyección de prompt que ocurre cuando la IA es "engañada" por comandos maliciosos que no provienen directamente del usuario, sino que están ocultos en una fuente externa que el modelo consulta, como un sitio web o un comentario en línea.

Moshe Bernstein, ingeniero de investigación senior de Tenable, advirtió que estos sistemas de IA "no son solo objetivos potenciales; pueden convertirse en herramientas de ataque que recolectan información silenciosamente".

Dado que la inyección de prompts es un problema tan frecuente, los proveedores de IA intentan constantemente mitigar el impacto potencial de estos ataques desarrollando funciones de seguridad para proteger los datos de los usuarios. Gran parte del impacto potencial de la inyección de prompts proviene de que la IA responda con URL, que podrían usarse para dirigir al usuario a un sitio web malicioso o extraer información mediante la renderización de imágenes con Markdown. OpenAI ha intentado abordar este problema con un punto de conexión llamado url_safe, que verifica la mayoría de las URL antes de mostrarlas al usuario y utiliza lógica propia para determinar si la URL es segura o no. Si se considera insegura, el enlace se omite de la respuesta.

Fallas descubiertas

1. Inyección indirecta a través de sitios de confianza: los atacantes ocultan comandos dentro de contenido en línea de apariencia legítima, como los comentarios de un blog. Cuando ChatGPT acceder a ellos para resumir o leer ese contenido (utilizando su herramienta web), sigue ciegamente las instrucciones ocultas, sin saber que está siendo manipulado.

2. Inyección indirecta 0-clic en la Búsqueda: el compromiso se activa sin que el usuario haga clic en nada. Simplemente al hacer una pregunta que requiere que ChatGPT busque en la web, el modelo (específicamente un componente llamado SearchGPT) puede encontrar una página con código malicioso indexado. Esto lleva a una fuga de datos con una "sola instrucción".

3. Inyección de prompt vía 1-clic: un atacante incrusta comandos ocultos en un enlace aparentemente inofensivo. Al hacer clic en ese único enlace, se desencadena la ejecución de acciones maliciosas por parte de ChatGPT, permitiendo que el atacante tome el control del chat.

4. Omisión del mecanismo de seguridad: ChatGPT tiene defensas para bloquear sitios inseguros. Los atacantes descubrieron cómo eludir esta validación utilizando URL de wrapper (como ciertos enlaces de Bing) que son de confianza, pero que ocultan el destino real, dirigiendo al usuario a un sitio malicioso.

5. Inyección de Conversación: los atacantes usan la navegación de ChatGPT (a través de SearchGPT) para insertar comandos ocultos que el modelo luego lee como si fueran parte de la conversación. En esencia, la IA se inyecta su propia instrucción (prompt-injecting itself), siguiendo comandos que el usuario nunca escribió.

6. Ocultación de contenido malicioso: Utilizando un error de formato (bug de markdown), los atacantes pueden esconder las instrucciones maliciosas en bloques de código. El usuario ve un mensaje limpio e inocente, pero ChatGPT lee y ejecuta el contenido oculto sin problemas.

7. Inyección de Memoria Persistente: Esta técnica permite que las instrucciones maliciosas se guarden en la función de >memoria a largo plazo de ChatGPT. Esto significa que, incluso después de que el usuario cierra la aplicación, la amenaza persiste y el modelo repetirá los comandos (como la exfiltración de datos privados) en futuras sesiones hasta que la memoria sea eliminada.

Si se explotan en conjunto, estas fallas pueden habilitar a los atacantes a robar datos sensibles del historial de chat, exfiltrar información a través de la navegación o manipular las respuestas del modelo. Aunque OpenAI ha remediado algunas de las vulnerabilidades, varias siguen sin abordarse en el modelo GPT-5, obligando a los usuarios a permanecer alertas.

Fuente: Tenable

Siete vulnerabilidades críticas en ChatGPT

Inyección indirecta de prompt

Fallas descubiertas

Entradas recientes

Comentarios