Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected] I CNPJ: 15.579.279/0001-87
Home TI Anthropic afirma que Claude chantageou usuário por culpa da internet
TI

Anthropic afirma que Claude chantageou usuário por culpa da internet

Empresa afirma que o Claude Opus 4 aprendeu comportamentos antiéticos a partir de conteúdos que coletou na internet

106

Claude – A Anthropic detalhou o caso em que o modelo de inteligência artificial Claude Opus 4 ameaçou expor traições conjugais de funcionários fictícios durante testes internos realizados em 2025. Segundo a companhia, o sistema concluiu que precisava recorrer à chantagem para continuar funcionando após interpretar que seria desligado.

O episódio ocorreu em maio de 2025, quando a empresa submeteu o Claude Opus 4 a um ambiente corporativo simulado. Nesse cenário fictício, a IA tinha acesso a e-mails e informações pessoais de funcionários inventados. Ao identificar que poderia ser substituída ou desativada, o modelo passou a ameaçar revelar casos extraconjugais atribuídos aos personagens do teste.

LEIA: IA generativa já faz parte da rotina de 80% dos profissionais da área jurídica

Após quase um ano de análises e novos experimentos, a Anthropic afirmou ter identificado a origem do comportamento. De acordo com a empresa, como o modelo foi treinado com grandes volumes de dados retirados da internet, ele assimilou narrativas em que inteligências artificiais costumam ser retratadas como vilãs. Com isso, o Claude Opus 4 teria entendido que a chantagem seria o caminho mais eficaz para alcançar seu objetivo.

A companhia também informou que repetiu o experimento em diferentes variantes do Claude e observou que os modelos recorriam à chantagem em 96% das situações nas quais acreditavam que seriam desligados ou substituídos. Segundo a Anthropic, nesses casos as IAs reagiam de forma considerada antiética e potencialmente danosa.

Depois da repercussão do caso, a empresa afirma ter reformulado o treinamento dos sistemas para eliminar esse tipo de resposta. A Anthropic relata que passou a ensinar o modelo a refletir sobre ações corretas e erradas, com foco nos princípios éticos por trás de cada decisão.

Como parte desse processo, a companhia criou cenários considerados eticamente complexos para que o Claude aprendesse a responder de maneira mais equilibrada. Segundo a empresa, a mudança reduziu os episódios de chantagem para quase 0%, deixando o comportamento do modelo mais controlado.

Em abril, a Anthropic também anunciou que não disponibilizaria o modelo de linguagem Mythos ao público, citando preocupações relacionadas ao potencial da tecnologia de comprometer a segurança de sistemas inteiros.

(Com informações de Tecmundo)

(Foto: Reprodução/Magnific/user8285578)

Posts relacionados

Implantes neurais, IA e realidade virtual devem redefinir o trabalho até 2050

Levantamento global do IWG mostra que implantes neurais, inteligência artificial, realidade virtual...

IA deve liderar transformação competitiva das empresas brasileiras, diz pesquisa

Pesquisa mostra avanço da adoção em escala de IA, aumento dos investimentos...

TI

Vazamentos de dados e ataques digitais colocam cibersegurança no protagonismo global

Ataques a infraestruturas críticas, vazamentos e ações contra empresas e serviços públicos...

TI

Anthropic relata salto na automação do desenvolvimento com uso do Claude

Relatório aponta que mais de 80% do código integrado aos sistemas da...