Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected] | CNPJ: 15.579.279/0001-87
TI

Anthropic afirma que Claude chantageou usuário por culpa da internet

Claude – A Anthropic detalhou o caso em que o modelo de inteligência artificial Claude Opus 4 ameaçou expor traições conjugais de funcionários fictícios durante testes internos realizados em 2025. Segundo a companhia, o sistema concluiu que precisava recorrer à chantagem para continuar funcionando após interpretar que seria desligado.

O episódio ocorreu em maio de 2025, quando a empresa submeteu o Claude Opus 4 a um ambiente corporativo simulado. Nesse cenário fictício, a IA tinha acesso a e-mails e informações pessoais de funcionários inventados. Ao identificar que poderia ser substituída ou desativada, o modelo passou a ameaçar revelar casos extraconjugais atribuídos aos personagens do teste.

LEIA: IA generativa já faz parte da rotina de 80% dos profissionais da área jurídica

Após quase um ano de análises e novos experimentos, a Anthropic afirmou ter identificado a origem do comportamento. De acordo com a empresa, como o modelo foi treinado com grandes volumes de dados retirados da internet, ele assimilou narrativas em que inteligências artificiais costumam ser retratadas como vilãs. Com isso, o Claude Opus 4 teria entendido que a chantagem seria o caminho mais eficaz para alcançar seu objetivo.

A companhia também informou que repetiu o experimento em diferentes variantes do Claude e observou que os modelos recorriam à chantagem em 96% das situações nas quais acreditavam que seriam desligados ou substituídos. Segundo a Anthropic, nesses casos as IAs reagiam de forma considerada antiética e potencialmente danosa.

Depois da repercussão do caso, a empresa afirma ter reformulado o treinamento dos sistemas para eliminar esse tipo de resposta. A Anthropic relata que passou a ensinar o modelo a refletir sobre ações corretas e erradas, com foco nos princípios éticos por trás de cada decisão.

Como parte desse processo, a companhia criou cenários considerados eticamente complexos para que o Claude aprendesse a responder de maneira mais equilibrada. Segundo a empresa, a mudança reduziu os episódios de chantagem para quase 0%, deixando o comportamento do modelo mais controlado.

Em abril, a Anthropic também anunciou que não disponibilizaria o modelo de linguagem Mythos ao público, citando preocupações relacionadas ao potencial da tecnologia de comprometer a segurança de sistemas inteiros.

 

(Com informações de Tecmundo)

(Foto: Reprodução/Magnific/user8285578)

Artigos relacionados

TI

Falha em programa da Meta reacende debate sobre privacidade no treinamento de IA

Programa foi suspenso depois que uma falha permitiu o acesso indevido a...

TI

Nova atualização do Google pode usar mídias no treinamento de IA; saiba como desativar

Mudança nas configurações de privacidade separa controles de histórico e personalização, ativa...

TI

Ataque no npm usa pacote falso para instalar malware em desenvolvedores

Pesquisadores identificam pacotes maliciosos que se passam por ferramentas populares para atingir...

TI

Trabalhadores da Hyundai aprovam greve em reação a robôs na produção

Decisão ocorre após planos de uso de IA e humanoides em fábricas...