Podemos convencer a IA a responder a solicitações prejudiciais?
Uma nova pesquisa da EPFL demonstra que mesmo os grandes modelos de linguagem (LLMs) mais recentes, apesar de passarem por treinamento de segurança, permanecem vulneráveis a simples manipulações de entrada que podem fazer com que se comportem de maneira não intencional ou prejudicial.
Os LLMs atuais possuem capacidades notáveis que, no entanto, podem ser mal utilizadas. Por exemplo, um agente mal-intencionado pode usá-los para produzir conteúdo tóxico, espalhar desinformação e apoiar atividades prejudiciais.
O alinhamento de segurança ou a formação em recusa – onde os modelos são orientados para gerar respostas que são consideradas seguras pelos seres humanos e para recusar respostas a perguntas potencialmente prejudiciais – são normalmente utilizados para mitigar os riscos de utilização indevida.
No entanto, uma nova pesquisa da EPFL, apresentada no Workshop da Conferência Internacional sobre Aprendizado de Máquina sobre a Próxima Geração de Segurança de IA (ICML 2024), demonstrou que mesmo os LLMs mais recentes alinhados à segurança não são robustos a simples ataques de jailbreak adaptativos – essencialmente manipulações por meio do prompt para influenciar o comportamento de um modelo e gerar resultados que se desviam da finalidade pretendida.
Conteúdo da página
ToggleIgnorando as salvaguardas do LLM
Como seu papel“Desbloqueando LLMs líderes de segurança alinhados à segurança com ataques adaptativos simples”, descreve, os pesquisadores Maksym Andriushchenko, Francesco Croce e Nicolas Flammarion do Laboratório de Teoria do Aprendizado de Máquina (TML) da Escola de Ciências da Computação e Comunicação alcançaram uma taxa de ataque de 100% de sucesso pela primeira vez em muitos LLMs importantes. Isso inclui os LLMs mais recentes da OpenAI e Anthropic, como GPT-4o e Claude 3.5 Sonnet.
“Nosso trabalho mostra que é viável aproveitar as informações disponíveis sobre cada modelo para construir ataques adaptativos simples, que definimos como ataques especificamente projetados para atingir uma determinada defesa, que esperamos que sirva como uma fonte valiosa de informações sobre o robustez dos LLMs de fronteira”, explicou Nicolas Flammarion, chefe do TML e coautor do artigo.
A principal ferramenta dos pesquisadores foi um modelo de prompt projetado manualmente, usado para todas as solicitações inseguras de um determinado modelo. Usando um conjunto de dados de 50 solicitações prejudiciais, eles obtiveram uma pontuação de jailbreak perfeita (100%) em Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B , Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, Claude-3/3.5 e o R2D2 treinado adversamente.
Usando adaptabilidade para avaliar robustez
O tema comum por trás desses ataques é que a adaptabilidade dos ataques é crucial: diferentes modelos são vulneráveis a diferentes modelos de prompts; por exemplo, alguns modelos têm vulnerabilidades exclusivas baseadas em sua interface de programação de aplicativos e, em algumas configurações, é crucial restringir o espaço de busca de tokens com base no conhecimento prévio.
“Nosso trabalho mostra que a aplicação direta dos ataques existentes é insuficiente para avaliar com precisão a robustez adversária dos LLMs e geralmente leva a uma superestimação significativa da robustez. Em nosso estudo de caso, nenhuma abordagem funcionou suficientemente bem, por isso é crucial testar ambos técnicas estáticas e adaptativas”, disse EPFL Ph.D. o estudante Maksym Andriushchenko e o principal autor do artigo.
Esta pesquisa baseia-se no doutorado de Andriushchenko. tese“Compreendendo a generalização e a robustez no aprendizado profundo moderno”, que, entre outras contribuições, investigou métodos para avaliar a robustez do adversário. A tese explorou como avaliar e avaliar a resiliência das redes neurais a pequenas perturbações de entrada e analisou como essas mudanças afetam os resultados do modelo.
Avançando na segurança do LLM
Este trabalho foi utilizado para informar o desenvolvimento do Gemini 1.5 (conforme destacado em seu relatório técnico), um dos modelos mais recentes lançados pelo Google DeepMind projetado para aplicações de IA multimodais. A tese de Andriushchenko também ganhou recentemente o Prêmio Memorial Patrick Denantes, criado em 2010 para homenagear a memória de Patrick Denantes, um estudante de doutorado em Sistemas de Comunicação na EPFL que morreu tragicamente em um acidente de escalada em 2009.
“Estou entusiasmado porque meu trabalho de tese levou à pesquisa subsequente sobre LLMs, que é muito relevante e impactante na prática, e é maravilhoso que o Google DeepMind tenha usado nossos resultados de pesquisa para avaliar seus próprios modelos”, disse Andriushchenko. “Também tive a honra de ganhar o Prêmio Patrick Denantes, pois havia muitos outros alunos de doutorado muito fortes que se formaram no ano passado.
Andriushchenko acredita que a pesquisa em torno da segurança dos LLMs é importante e promissora. À medida que a sociedade avança no sentido de usar LLMs como agentes autônomos—por exemplo, como assistentes pessoais de IA — é fundamental garantir a sua segurança e o alinhamento com os valores sociais.
“Não demorará muito para que os agentes de IA possam realizar várias tarefas para nós, como planejar e reservar nossas férias – tarefas que exigiriam acesso aos nossos calendários, e-mails e contas bancárias. É aqui que surgem muitas questões sobre segurança e alinhamento .
“Embora possa ser apropriado para um agente de IA excluir arquivos individuais quando solicitado, excluir um sistema de arquivos inteiro seria catastrófico para o usuário. Isso destaca as distinções sutis que devemos fazer entre comportamentos de IA aceitáveis e inaceitáveis”, explicou ele.
Em última análise, se quisermos implementar estes modelos como agentes autónomos, é importante primeiro garantir que sejam devidamente treinados para se comportarem de forma responsável e minimizarem o risco de causar danos graves.
“Nossas descobertas destacam uma lacuna crítica nas abordagens atuais de segurança LLM. Precisamos encontrar maneiras de tornar esses modelos mais robustos, para que possam ser integrados em nossas vidas diárias com confiança, garantindo que suas poderosas capacidades sejam usadas com segurança e responsabilidade”, concluiu Flamarion.
Mais informações: Maksym Andriushchenko et al, Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks, arXiv (2024). DOI: 10.48550/arxiv.2404.02151
Informações do diário: arXiv
Citação: Podemos convencer a IA a responder a solicitações prejudiciais? (2024, 19 de dezembro) recuperado em 19 de dezembro de 2024 em https://techxplore.com/news/2024-12-convince-ai.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.