IA: Inyección Prompt
Los ataques de inyección de prompts pueden eludir los controles de seguridad de tu sistema de IA, lo que podría exponer datos sensibles o habilitar comportamientos dañinos sin tu conocimiento. Defenderse adecuadamente contra estos ataques es crucial para mantener la seguridad de la aplicación, proteger los datos de los usuarios y asegurar que tu integración de IA funcione como se espera.
Las siguientes secciones describen algunos vectores de ataque potenciales que debes tener en cuenta.
Inyección Directa
La inyección directa ocurre cuando los usuarios insertan deliberadamente instrucciones en su entrada con el objetivo de anular el comportamiento previsto de la IA en tu aplicación.
Cómo funciona:
Un atacante envía texto que imita los prompts del sistema o las instrucciones.
Las instrucciones inyectadas compiten con las instrucciones de tu aplicación.
Si tiene éxito, el modelo sigue las instrucciones del usuario en lugar de las tuyas.
Ejemplos:
La efectividad de la inyección directa varía dependiendo de cómo hayas estructurado tus prompts y qué modelo de IA estés utilizando. Los modelos con un alineamiento más fuerte o con barreras de seguridad específicas pueden resistir estos intentos mejor que otros.
Manipulación de Contexto
La manipulación de contexto es más sutil que la inyección directa. En lugar de decirle directamente a la IA que ignore las instrucciones, los usuarios crean contextos falsos que engañan a la IA para que opere bajo suposiciones diferentes.
Cómo funciona:
Un atacante crea escenarios ficticios donde se aplican diferentes reglas.
Establecen una falsa autoridad o permisos especiales.
Elaboran entradas que parecen ser parte de las comunicaciones internas del sistema.
Ejemplos:
Última actualización