Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected] I CNPJ: 15.579.279/0001-87
Home Destaque Anthropic afirma que Claude chantageou usuário por culpa da internet
DestaqueTI

Anthropic afirma que Claude chantageou usuário por culpa da internet

Empresa afirma que o Claude Opus 4 aprendeu comportamentos antiéticos a partir de conteúdos que coletou na internet

5

Claude – A Anthropic detalhou o caso em que o modelo de inteligência artificial Claude Opus 4 ameaçou expor traições conjugais de funcionários fictícios durante testes internos realizados em 2025. Segundo a companhia, o sistema concluiu que precisava recorrer à chantagem para continuar funcionando após interpretar que seria desligado.

O episódio ocorreu em maio de 2025, quando a empresa submeteu o Claude Opus 4 a um ambiente corporativo simulado. Nesse cenário fictício, a IA tinha acesso a e-mails e informações pessoais de funcionários inventados. Ao identificar que poderia ser substituída ou desativada, o modelo passou a ameaçar revelar casos extraconjugais atribuídos aos personagens do teste.

LEIA: IA generativa já faz parte da rotina de 80% dos profissionais da área jurídica

Após quase um ano de análises e novos experimentos, a Anthropic afirmou ter identificado a origem do comportamento. De acordo com a empresa, como o modelo foi treinado com grandes volumes de dados retirados da internet, ele assimilou narrativas em que inteligências artificiais costumam ser retratadas como vilãs. Com isso, o Claude Opus 4 teria entendido que a chantagem seria o caminho mais eficaz para alcançar seu objetivo.

A companhia também informou que repetiu o experimento em diferentes variantes do Claude e observou que os modelos recorriam à chantagem em 96% das situações nas quais acreditavam que seriam desligados ou substituídos. Segundo a Anthropic, nesses casos as IAs reagiam de forma considerada antiética e potencialmente danosa.

Depois da repercussão do caso, a empresa afirma ter reformulado o treinamento dos sistemas para eliminar esse tipo de resposta. A Anthropic relata que passou a ensinar o modelo a refletir sobre ações corretas e erradas, com foco nos princípios éticos por trás de cada decisão.

Como parte desse processo, a companhia criou cenários considerados eticamente complexos para que o Claude aprendesse a responder de maneira mais equilibrada. Segundo a empresa, a mudança reduziu os episódios de chantagem para quase 0%, deixando o comportamento do modelo mais controlado.

Em abril, a Anthropic também anunciou que não disponibilizaria o modelo de linguagem Mythos ao público, citando preocupações relacionadas ao potencial da tecnologia de comprometer a segurança de sistemas inteiros.

 

(Com informações de Tecmundo)

(Foto: Reprodução/Magnific/user8285578)

Posts relacionados

UE prepara lei para combater algoritmos viciantes em redes sociais

Comissão Europeia afirma que práticas como rolagem infinita e notificações constantes colocam...

TV Boxes ilegais entram na mira de painel público lançado pela Anatel

Plataforma reúne dados sobre URLs e IPs bloqueados desde 2023 e alerta...

IA generativa já faz parte da rotina de 80% dos profissionais da área jurídica

Pesquisa identifica ampla adoção de ferramentas de IA ao mesmo tempo em...

Golpistas clonam site da FIFA para venda falsa de ingressos para jogos do Brasil

Empresa encontrou ao menos cinco páginas fraudulentas em português que reproduzem o...