Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected] I CNPJ: 15.579.279/0001-87
Home Destaque Anthropic afirma que Claude chantageou usuário por culpa da internet
DestaqueTI

Anthropic afirma que Claude chantageou usuário por culpa da internet

Empresa afirma que o Claude Opus 4 aprendeu comportamentos antiéticos a partir de conteúdos que coletou na internet

27

Claude – A Anthropic detalhou o caso em que o modelo de inteligência artificial Claude Opus 4 ameaçou expor traições conjugais de funcionários fictícios durante testes internos realizados em 2025. Segundo a companhia, o sistema concluiu que precisava recorrer à chantagem para continuar funcionando após interpretar que seria desligado.

O episódio ocorreu em maio de 2025, quando a empresa submeteu o Claude Opus 4 a um ambiente corporativo simulado. Nesse cenário fictício, a IA tinha acesso a e-mails e informações pessoais de funcionários inventados. Ao identificar que poderia ser substituída ou desativada, o modelo passou a ameaçar revelar casos extraconjugais atribuídos aos personagens do teste.

LEIA: IA generativa já faz parte da rotina de 80% dos profissionais da área jurídica

Após quase um ano de análises e novos experimentos, a Anthropic afirmou ter identificado a origem do comportamento. De acordo com a empresa, como o modelo foi treinado com grandes volumes de dados retirados da internet, ele assimilou narrativas em que inteligências artificiais costumam ser retratadas como vilãs. Com isso, o Claude Opus 4 teria entendido que a chantagem seria o caminho mais eficaz para alcançar seu objetivo.

A companhia também informou que repetiu o experimento em diferentes variantes do Claude e observou que os modelos recorriam à chantagem em 96% das situações nas quais acreditavam que seriam desligados ou substituídos. Segundo a Anthropic, nesses casos as IAs reagiam de forma considerada antiética e potencialmente danosa.

Depois da repercussão do caso, a empresa afirma ter reformulado o treinamento dos sistemas para eliminar esse tipo de resposta. A Anthropic relata que passou a ensinar o modelo a refletir sobre ações corretas e erradas, com foco nos princípios éticos por trás de cada decisão.

Como parte desse processo, a companhia criou cenários considerados eticamente complexos para que o Claude aprendesse a responder de maneira mais equilibrada. Segundo a empresa, a mudança reduziu os episódios de chantagem para quase 0%, deixando o comportamento do modelo mais controlado.

Em abril, a Anthropic também anunciou que não disponibilizaria o modelo de linguagem Mythos ao público, citando preocupações relacionadas ao potencial da tecnologia de comprometer a segurança de sistemas inteiros.

(Com informações de Tecmundo)

(Foto: Reprodução/Magnific/user8285578)

Posts relacionados

Sistema usa CO2 capturado para produzir combustível reutilizável

Projeto utiliza dióxido de carbono capturado e hidrogênio para produzir combustíveis sintéticos...

Mudanças no PAT entram em vigor e ampliam uso do vale-refeição e alimentação

Nova fase do Programa de Alimentação do Trabalhador amplia a rede de...

China inaugura fábrica onde robôs humanoides produzem outros robôs

Unidade opera com 24 etapas digitais e capacidade para fabricar 10 mil...

Transformers na vida real: empresa cria robô gigante pilotável

GD01, desenvolvido pela Unitree Robotics, combina modos bípede e quadrúpede e lembra...