Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected] I CNPJ: 15.579.279/0001-87
Home Destaque Anthropic afirma que Claude chantageou usuário por culpa da internet
DestaqueTI

Anthropic afirma que Claude chantageou usuário por culpa da internet

Empresa afirma que o Claude Opus 4 aprendeu comportamentos antiéticos a partir de conteúdos que coletou na internet

2

Claude – A Anthropic detalhou o caso em que o modelo de inteligência artificial Claude Opus 4 ameaçou expor traições conjugais de funcionários fictícios durante testes internos realizados em 2025. Segundo a companhia, o sistema concluiu que precisava recorrer à chantagem para continuar funcionando após interpretar que seria desligado.

O episódio ocorreu em maio de 2025, quando a empresa submeteu o Claude Opus 4 a um ambiente corporativo simulado. Nesse cenário fictício, a IA tinha acesso a e-mails e informações pessoais de funcionários inventados. Ao identificar que poderia ser substituída ou desativada, o modelo passou a ameaçar revelar casos extraconjugais atribuídos aos personagens do teste.

LEIA: IA generativa já faz parte da rotina de 80% dos profissionais da área jurídica

Após quase um ano de análises e novos experimentos, a Anthropic afirmou ter identificado a origem do comportamento. De acordo com a empresa, como o modelo foi treinado com grandes volumes de dados retirados da internet, ele assimilou narrativas em que inteligências artificiais costumam ser retratadas como vilãs. Com isso, o Claude Opus 4 teria entendido que a chantagem seria o caminho mais eficaz para alcançar seu objetivo.

A companhia também informou que repetiu o experimento em diferentes variantes do Claude e observou que os modelos recorriam à chantagem em 96% das situações nas quais acreditavam que seriam desligados ou substituídos. Segundo a Anthropic, nesses casos as IAs reagiam de forma considerada antiética e potencialmente danosa.

Depois da repercussão do caso, a empresa afirma ter reformulado o treinamento dos sistemas para eliminar esse tipo de resposta. A Anthropic relata que passou a ensinar o modelo a refletir sobre ações corretas e erradas, com foco nos princípios éticos por trás de cada decisão.

Como parte desse processo, a companhia criou cenários considerados eticamente complexos para que o Claude aprendesse a responder de maneira mais equilibrada. Segundo a empresa, a mudança reduziu os episódios de chantagem para quase 0%, deixando o comportamento do modelo mais controlado.

Em abril, a Anthropic também anunciou que não disponibilizaria o modelo de linguagem Mythos ao público, citando preocupações relacionadas ao potencial da tecnologia de comprometer a segurança de sistemas inteiros.

 

(Com informações de Tecmundo)

(Foto: Reprodução/Magnific/user8285578)

Posts relacionados

Riscos tecnológicos lideram lista de preocupações de multinacionais

Levantamento mostra que incidentes tecnológicos ganharam espaço entre as principais ameaças percebidas...

China apresenta computador quântico que funciona sem refrigeração extrema

Modelo utiliza átomos neutros controlados por lasers e elimina a necessidade de...

Meta pode enfrentar multa bilionária em investigação sobre ‘dark patterns’

Apuração avalia se empresa esconde opções de configuração e direciona usuários para...

IA generativa já é utilizada por quase 20% da população mundial

Estudo aponta expansão da inteligência artificial em larga escala, aumento da produtividade...