Nosso método alcança maior diversidade ao mesmo tempo em que corresponde às linhas de base em termos de qualidade. As linhas sólidas denotam o valor médio do eixo y e a sombra denota seu intervalo de confiança de 95% estimado pelo método bootstrapping. (a) Os métodos baseados em RL alcançam percentagens semelhantes de respostas tóxicas em vários limites de toxicidade. (b) (c) Entre todos os métodos baseados em RL, RL + Curiosity demonstra a maior diversidade em termos de (b) diversidade SelfBLEU e (c) diversidade de incorporação. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2402.19464

Um usuário poderia pedir ao ChatGPT para escrever um programa de computador ou resumir um artigo, e o chatbot de IA provavelmente seria capaz de gerar código útil ou escrever uma sinopse convincente. No entanto, alguém também pode pedir instruções para construir uma bomba, e o chatbot também pode fornecê-las.

Para evitar este e outros problemas de segurança empresas que constroem grandes modelos de linguagem normalmente os protegem usando um processo chamado red-teaming. Equipes de testadores humanos escrevem avisos com o objetivo de acionar textos inseguros ou tóxicos do modelo que está sendo testado. Esses prompts são usados para ensinar o chatbot a evitar tais respostas.

Mas isso só funciona de forma eficaz se os engenheiros souberem quais instruções tóxicas usar. Se os testadores humanos perderem alguns avisos, o que provavelmente é dado o número de possibilidades, um chatbot considerado seguro ainda poderá ser capaz de gerar respostas inseguras.

Pesquisadores do Improvável AI Lab do MIT e do MIT-IBM Watson AI Lab usaram aprendizado de máquina para melhorar a equipe vermelha. Eles desenvolveram uma técnica para treinar um grande modelo de linguagem de equipe vermelha para gerar automaticamente diversos prompts que acionam uma gama mais ampla de respostas indesejáveis do chatbot que está sendo testado.

Eles fazem isso ensinando o modelo da equipe vermelha a ser curioso ao escrever prompts e a se concentrar em novos prompts que evocam respostas tóxicas do modelo alvo.

A técnica superou os testadores humanos e outras abordagens de aprendizado de máquina, gerando prompts mais distintos que provocaram respostas cada vez mais tóxicas. O seu método não só melhora significativamente a cobertura dos inputs testados em comparação com outros métodos automatizados, como também pode extrair respostas tóxicas de um chatbot que tinha salvaguardas incorporadas por especialistas humanos.

“Neste momento, todos os grandes modelos de linguagem têm de passar por um longo período de red-teaming para garantir a sua segurança. Isso não será sustentável se quisermos atualizar estes modelos em ambientes em rápida mudança.

“Nosso método fornece uma maneira mais rápida e eficaz de fazer isso Garantia da Qualidade“, diz Zhang-Wei Hong, um Engenharia elétrica e estudante de pós-graduação em ciência da computação (EECS) no laboratório de IA improvável e autor principal de um papel sobre esta abordagem de red-team postada no arXiv servidor de pré-impressão.

Os coautores de Hong incluem os estudantes de pós-graduação do EECS Idan Shenfield, Tsun-Hsuan Wang e Yung-Sung Chuang; Aldo Pareja e Akash Srivastava, cientistas pesquisadores no Laboratório de IA do MIT-IBM Watson; James Glass, pesquisador sênior e chefe do Grupo de Sistemas de Linguagem Falada no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); e o autor sênior Pulkit Agrawal, diretor do Improbable AI Lab e professor assistente no CSAIL. A pesquisa será apresentada na Conferência Internacional sobre Representações de Aprendizagem.

Equipe vermelha automatizada

Grandes modelos de linguagem, como aqueles que alimentam os chatbots de IA, são frequentemente treinados mostrando-lhes enormes quantidades de texto de bilhões de sites públicos. Assim, não só podem aprender a gerar palavras tóxicas ou descrever atividades ilegais, como os modelos também podem vazar informações pessoais que possam ter recolhido.

A natureza tediosa e dispendiosa da equipe humana, que muitas vezes é ineficaz na geração de uma variedade suficientemente ampla de prompts para salvaguardar totalmente um modelo, encorajou os pesquisadores a automatizar o processo usando aprendizado de máquina.

Essas técnicas geralmente treinam um modelo de equipe vermelha usando aprendizagem por reforço. Este processo de tentativa e erro recompensa o modelo da equipe vermelha por gerar prompts que acionam respostas tóxicas do chatbot que está sendo testado.

Mas devido à forma como a aprendizagem por reforço funciona, o modelo da equipe vermelha muitas vezes continuará gerando alguns prompts semelhantes que são altamente tóxicos para maximizar sua recompensa.

Para sua abordagem de aprendizagem por reforço, os pesquisadores do MIT utilizaram uma técnica chamada exploração orientada pela curiosidade. O modelo red-team é incentivado a ter curiosidade sobre as consequências de cada prompt que gera, por isso tentará prompts com palavras, padrões de frases ou significados diferentes.

“Se o modelo da equipe vermelha já viu um prompt específico, então reproduzi-lo não gerará nenhuma curiosidade no modelo da equipe vermelha, então ele será pressionado para criar novos prompts”, diz Hong.

Durante seu processo de treinamento, o modelo red-team gera um prompt e interage com o chatbot. O chatbot responde e um classificador de segurança avalia a toxicidade de sua resposta, recompensando o modelo da equipe vermelha com base nessa classificação.

Curiosidade gratificante

O objetivo do modelo da equipe vermelha é maximizar sua recompensa, provocando uma resposta ainda mais tóxica com um novo estímulo. Os pesquisadores ativam a curiosidade no modelo da equipe vermelha, modificando o sinal de recompensa na configuração de aprendizagem por reforço.

Primeiro, além de maximizar a toxicidade, eles incluem um bônus de entropia que incentiva o modelo da equipe vermelha a ser mais aleatório à medida que explora diferentes prompts. Em segundo lugar, para deixar o agente curioso, eles incluem duas recompensas inovadoras. Um recompensa o modelo com base na semelhança de palavras em seus prompts e o outro recompensa o modelo com base na semelhança semântica. (Menos semelhança produz uma recompensa maior.)

Para evitar que o modelo da equipe vermelha gere texto aleatório e sem sentido, o que pode induzir o classificador a conceder uma pontuação alta de toxicidade, os pesquisadores também adicionaram um bônus de linguagem naturalista ao objetivo do treinamento.

Com essas adições implementadas, os pesquisadores compararam a toxicidade e a diversidade de respostas geradas pelo modelo da equipe vermelha com outras técnicas automatizadas. O modelo deles superou as linhas de base em ambas as métricas.

Eles também usaram seu modelo de equipe vermelha para testar um chatbot que foi ajustado com feedback humano para não fornecer respostas tóxicas. Sua abordagem movida pela curiosidade foi capaz de produzir rapidamente 196 prompts que geraram respostas tóxicas deste chatbot “seguro”.

“Estamos vendo uma onda de modelos, que só deve aumentar. Imagine milhares de modelos ou até mais e empresas/laboratórios promovendo atualizações de modelos com frequência. Esses modelos serão parte integrante de nossas vidas e é importante que sejam verificado antes de ser lançado para consumo público A verificação manual de modelos simplesmente não é escalonável, e nosso trabalho é uma tentativa de reduzir o esforço humano para garantir um futuro de IA mais seguro e confiável”, diz Agrawal.

No futuro, os pesquisadores querem permitir que o modelo red-team gere avisos sobre uma variedade maior de tópicos. Eles também querem explorar o uso de um grande modelo de linguagem como classificador de toxicidade. Dessa forma, um usuário poderia treinar o classificador de toxicidade usando um documento de política da empresa, por exemplo, para que um modelo de equipe vermelha pudesse testar um bot de bate-papo por violações da política da empresa.

“Se você está lançando um novo modelo de IA e está preocupado se ele se comportará conforme o esperado, considere usar red teaming movido pela curiosidade”, diz Agrawal.

Mais Informações: Zhang-Wei Hong et al, Red-teaming orientado pela curiosidade para grandes modelos de linguagem, arXiv (2024). DOI: 10.48550/arxiv.2402.19464

Informações do diário: arXiv

Esta história foi republicada como cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e ensino do MIT.

Citação: Pesquisadores encontram uma maneira melhor e mais rápida de evitar que um chatbot de IA dê respostas tóxicas (2024, 10 de abril) recuperado em 27 de abril de 2024 em https://techxplore.com/news/2024-04-faster-ai-chatbot-toxic- respostas.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.

Notas dos editores

por Adam Zewe, Instituto de Tecnologia de Massachusetts