Pesquisadores encontram uma maneira melhor e mais rápida de evitar que um chatbot de IA dê respostas tóxicas
maio 2, 2024Nosso método alcança maior diversidade ao mesmo tempo em que corresponde às linhas de base em termos de qualidade. As linhas sólidas denotam o valor médio do eixo y e a sombra denota seu intervalo de confiança de 95% estimado pelo método bootstrapping. (a) Os métodos baseados em RL alcançam percentagens semelhantes de respostas tóxicas […]