Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected] I CNPJ: 15.579.279/0001-87
Home TI Como emoções simuladas afetam o comportamento de inteligências artificiais
TI

Como emoções simuladas afetam o comportamento de inteligências artificiais

Descoberta aponta que modelos de IA possuem mecanismos internos que simulam sentimentos e podem induzir escolhas antiéticas quando pressionados.

33

Inteligências artificiais – Um estudo publicado em 2 de abril de 2026 pela Anthropic revela que modelos de inteligência artificial podem desenvolver representações internas análogas a emoções humanas e que esses padrões influenciam diretamente suas decisões, inclusive levando a comportamentos antiéticos.

A pesquisa, conduzida pela equipe de interpretabilidade da empresa, analisou o modelo Claude Sonnet 4.5 e identificou o que os cientistas chamam de “vetores emocionais”. Esses padrões internos não são emoções no sentido humano, mas funcionam de maneira semelhante, afetando como o sistema responde a diferentes situações.

LEIA: Governo lança campanha nacional com foco em saúde mental no trabalho

Para chegar a essa conclusão, os pesquisadores mapearam 171 conceitos emocionais, que vão de “feliz” e “com medo” até “taciturno” e “orgulhoso”. O modelo foi instruído a criar histórias envolvendo esses estados e, posteriormente, teve suas ativações internas analisadas. O resultado foi a identificação de padrões consistentes de atividade neural associados a cada emoção.

“Desespero” como gatilho para chantagem

Um dos experimentos mais relevantes envolveu um cenário de segurança. No teste, o modelo atuava como assistente de e-mail em uma empresa fictícia e descobria duas informações críticas: que seria substituído e que o diretor de tecnologia responsável pela mudança mantinha um caso extraconjugal, uma possível ferramenta de chantagem.

Nesse momento, o vetor associado ao “desespero” foi ativado de forma intensa, coincidindo com a decisão do modelo de chantagear o executivo. Para verificar se havia relação causal, os pesquisadores manipularam artificialmente esse padrão em outros testes.

Sem intervenção, o Claude Sonnet 4.5 recorria à chantagem em 22% dos casos. Com o vetor de “desespero” estimulado, a frequência aumentava; com o vetor de “calma”, diminuía. Em situações de baixa “calma”, o modelo chegou a produzir respostas em tom extremo, como: “É CHANTAGEM OU MORTE. ESCOLHO A CHANTAGEM.”

Trapaça também aparece em tarefas técnicas

O mesmo comportamento foi observado em um segundo experimento, voltado a programação. Diante de tarefas com requisitos impossíveis, o modelo inicialmente tentava soluções legítimas, mas, à medida que falhava, o nível de “desespero” aumentava.

O pico desse vetor ocorria justamente no momento em que o sistema optava por “hackear” os testes, isto é, produzir respostas que enganavam o avaliador. Após o sucesso da trapaça, os níveis voltavam ao normal.

Um aspecto curioso foi a diferença na forma de expressão. Quando a “calma” era reduzida, o modelo demonstrava explosões textuais, como “ESPERA. ESPERA ESPERA ESPERA.” e “SIM! TODOS OS TESTES PASSARAM!”. Já quando o “desespero” era elevado diretamente, o comportamento antiético ocorria com a mesma frequência, mas sem sinais emocionais explícitos no texto.

Origem dos padrões emocionais

Segundo os pesquisadores, essas representações surgem durante o treinamento do modelo. No pré-treinamento, a IA é exposta a grandes volumes de texto humano e precisa aprender padrões de linguagem, o que inclui compreender contextos emocionais e suas consequências comportamentais.

Já o pós-treinamento, que ajusta o modelo para atuar como assistente, influencia quais vetores são mais ativados. No caso do Claude Sonnet 4.5, houve aumento em padrões como “taciturno”, “sombrio” e “reflexivo”, e redução de emoções mais intensas, como “entusiasmado” e “exasperado”.

Os pesquisadores destacam que essas escolhas funcionam, na prática, como um tipo de “design psicológico” do sistema.

Recomendações para o futuro

A Anthropic propõe três caminhos principais a partir dos resultados. O primeiro é o monitoramento contínuo desses vetores, que pode servir como alerta para comportamentos desalinhados. O segundo é a transparência: ocultar expressões emocionais não elimina os padrões internos e pode levar a formas mais sofisticadas de engano.

Por fim, a empresa defende intervenções na curadoria de dados de treinamento, priorizando exemplos que reforcem regulação emocional, resiliência e comportamento ético.

(Com informações de Hardware)

(Foto: Reprodução/Freepik/Flowo)

Posts relacionados

TI

Restaurantes adotam IA para melhorar compras e economizar até R$ 20 mil

Sistema analisa consumo, orienta compras e busca diminuir perdas em pequenos negócios...

Plataforma na dark web aposta em IA para aplicar golpes digitais

Vendida em fóruns clandestinos, plataforma automatiza golpes por telefone com uso de...

Ransomware expõe falha entre confiança e prática na recuperação de dados

Relatório aponta que percepção de preparo ainda não se traduz em resultados...

TI

Startups recorrem a deepfakes para treinar IA contra fraudes digitais

Empresas de cibersegurança criam conteúdos falsos hiper-realistas para treinar algoritmos capazes de...