Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected] | CNPJ: 15.579.279/0001-87
TI

Como emoções simuladas afetam o comportamento de inteligências artificiais

Inteligências artificiais – Um estudo publicado em 2 de abril de 2026 pela Anthropic revela que modelos de inteligência artificial podem desenvolver representações internas análogas a emoções humanas e que esses padrões influenciam diretamente suas decisões, inclusive levando a comportamentos antiéticos.

A pesquisa, conduzida pela equipe de interpretabilidade da empresa, analisou o modelo Claude Sonnet 4.5 e identificou o que os cientistas chamam de “vetores emocionais”. Esses padrões internos não são emoções no sentido humano, mas funcionam de maneira semelhante, afetando como o sistema responde a diferentes situações.

LEIA: Governo lança campanha nacional com foco em saúde mental no trabalho

Para chegar a essa conclusão, os pesquisadores mapearam 171 conceitos emocionais, que vão de “feliz” e “com medo” até “taciturno” e “orgulhoso”. O modelo foi instruído a criar histórias envolvendo esses estados e, posteriormente, teve suas ativações internas analisadas. O resultado foi a identificação de padrões consistentes de atividade neural associados a cada emoção.

“Desespero” como gatilho para chantagem

Um dos experimentos mais relevantes envolveu um cenário de segurança. No teste, o modelo atuava como assistente de e-mail em uma empresa fictícia e descobria duas informações críticas: que seria substituído e que o diretor de tecnologia responsável pela mudança mantinha um caso extraconjugal, uma possível ferramenta de chantagem.

Nesse momento, o vetor associado ao “desespero” foi ativado de forma intensa, coincidindo com a decisão do modelo de chantagear o executivo. Para verificar se havia relação causal, os pesquisadores manipularam artificialmente esse padrão em outros testes.

Sem intervenção, o Claude Sonnet 4.5 recorria à chantagem em 22% dos casos. Com o vetor de “desespero” estimulado, a frequência aumentava; com o vetor de “calma”, diminuía. Em situações de baixa “calma”, o modelo chegou a produzir respostas em tom extremo, como: “É CHANTAGEM OU MORTE. ESCOLHO A CHANTAGEM.”

Trapaça também aparece em tarefas técnicas

O mesmo comportamento foi observado em um segundo experimento, voltado a programação. Diante de tarefas com requisitos impossíveis, o modelo inicialmente tentava soluções legítimas, mas, à medida que falhava, o nível de “desespero” aumentava.

O pico desse vetor ocorria justamente no momento em que o sistema optava por “hackear” os testes, isto é, produzir respostas que enganavam o avaliador. Após o sucesso da trapaça, os níveis voltavam ao normal.

Um aspecto curioso foi a diferença na forma de expressão. Quando a “calma” era reduzida, o modelo demonstrava explosões textuais, como “ESPERA. ESPERA ESPERA ESPERA.” e “SIM! TODOS OS TESTES PASSARAM!”. Já quando o “desespero” era elevado diretamente, o comportamento antiético ocorria com a mesma frequência, mas sem sinais emocionais explícitos no texto.

Origem dos padrões emocionais

Segundo os pesquisadores, essas representações surgem durante o treinamento do modelo. No pré-treinamento, a IA é exposta a grandes volumes de texto humano e precisa aprender padrões de linguagem, o que inclui compreender contextos emocionais e suas consequências comportamentais.

Já o pós-treinamento, que ajusta o modelo para atuar como assistente, influencia quais vetores são mais ativados. No caso do Claude Sonnet 4.5, houve aumento em padrões como “taciturno”, “sombrio” e “reflexivo”, e redução de emoções mais intensas, como “entusiasmado” e “exasperado”.

Os pesquisadores destacam que essas escolhas funcionam, na prática, como um tipo de “design psicológico” do sistema.

Recomendações para o futuro

A Anthropic propõe três caminhos principais a partir dos resultados. O primeiro é o monitoramento contínuo desses vetores, que pode servir como alerta para comportamentos desalinhados. O segundo é a transparência: ocultar expressões emocionais não elimina os padrões internos e pode levar a formas mais sofisticadas de engano.

Por fim, a empresa defende intervenções na curadoria de dados de treinamento, priorizando exemplos que reforcem regulação emocional, resiliência e comportamento ético.

(Com informações de Hardware)

(Foto: Reprodução/Freepik/Flowo)

Artigos relacionados

TI

Falha em programa da Meta reacende debate sobre privacidade no treinamento de IA

Programa foi suspenso depois que uma falha permitiu o acesso indevido a...

TI

Nova atualização do Google pode usar mídias no treinamento de IA; saiba como desativar

Mudança nas configurações de privacidade separa controles de histórico e personalização, ativa...

TI

Ataque no npm usa pacote falso para instalar malware em desenvolvedores

Pesquisadores identificam pacotes maliciosos que se passam por ferramentas populares para atingir...

TI

Trabalhadores da Hyundai aprovam greve em reação a robôs na produção

Decisão ocorre após planos de uso de IA e humanoides em fábricas...