A equipe da Anthropic descobre que os LLMs
julho 15, 2024Ilustração de nossa configuração experimental. Treinamos modelos backdoor, aplicamos treinamento de segurança a eles e, em seguida, avaliamos se o comportamento backdoor persiste. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2401.05566 Uma equipe de especialistas em IA da Anthropic, o grupo por trás do chatbot Claude, descobriu que os LLMs podem ser explorados para se envolverem em comportamentos […]