Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected] | CNPJ: 15.579.279/0001-87

Como emoções simuladas afetam o comportamento de inteligências artificiais

Redação3 meses Ago3 Mins read133 Views

Inteligências artificiais – Um estudo publicado em 2 de abril de 2026 pela Anthropic revela que modelos de inteligência artificial podem desenvolver representações internas análogas a emoções humanas e que esses padrões influenciam diretamente suas decisões, inclusive levando a comportamentos antiéticos.

A pesquisa, conduzida pela equipe de interpretabilidade da empresa, analisou o modelo Claude Sonnet 4.5 e identificou o que os cientistas chamam de “vetores emocionais”. Esses padrões internos não são emoções no sentido humano, mas funcionam de maneira semelhante, afetando como o sistema responde a diferentes situações.

LEIA: Governo lança campanha nacional com foco em saúde mental no trabalho

Para chegar a essa conclusão, os pesquisadores mapearam 171 conceitos emocionais, que vão de “feliz” e “com medo” até “taciturno” e “orgulhoso”. O modelo foi instruído a criar histórias envolvendo esses estados e, posteriormente, teve suas ativações internas analisadas. O resultado foi a identificação de padrões consistentes de atividade neural associados a cada emoção.

“Desespero” como gatilho para chantagem

Um dos experimentos mais relevantes envolveu um cenário de segurança. No teste, o modelo atuava como assistente de e-mail em uma empresa fictícia e descobria duas informações críticas: que seria substituído e que o diretor de tecnologia responsável pela mudança mantinha um caso extraconjugal, uma possível ferramenta de chantagem.

Nesse momento, o vetor associado ao “desespero” foi ativado de forma intensa, coincidindo com a decisão do modelo de chantagear o executivo. Para verificar se havia relação causal, os pesquisadores manipularam artificialmente esse padrão em outros testes.

Sem intervenção, o Claude Sonnet 4.5 recorria à chantagem em 22% dos casos. Com o vetor de “desespero” estimulado, a frequência aumentava; com o vetor de “calma”, diminuía. Em situações de baixa “calma”, o modelo chegou a produzir respostas em tom extremo, como: “É CHANTAGEM OU MORTE. ESCOLHO A CHANTAGEM.”

Trapaça também aparece em tarefas técnicas

O mesmo comportamento foi observado em um segundo experimento, voltado a programação. Diante de tarefas com requisitos impossíveis, o modelo inicialmente tentava soluções legítimas, mas, à medida que falhava, o nível de “desespero” aumentava.

O pico desse vetor ocorria justamente no momento em que o sistema optava por “hackear” os testes, isto é, produzir respostas que enganavam o avaliador. Após o sucesso da trapaça, os níveis voltavam ao normal.

Um aspecto curioso foi a diferença na forma de expressão. Quando a “calma” era reduzida, o modelo demonstrava explosões textuais, como “ESPERA. ESPERA ESPERA ESPERA.” e “SIM! TODOS OS TESTES PASSARAM!”. Já quando o “desespero” era elevado diretamente, o comportamento antiético ocorria com a mesma frequência, mas sem sinais emocionais explícitos no texto.

Origem dos padrões emocionais

Segundo os pesquisadores, essas representações surgem durante o treinamento do modelo. No pré-treinamento, a IA é exposta a grandes volumes de texto humano e precisa aprender padrões de linguagem, o que inclui compreender contextos emocionais e suas consequências comportamentais.

Já o pós-treinamento, que ajusta o modelo para atuar como assistente, influencia quais vetores são mais ativados. No caso do Claude Sonnet 4.5, houve aumento em padrões como “taciturno”, “sombrio” e “reflexivo”, e redução de emoções mais intensas, como “entusiasmado” e “exasperado”.

Os pesquisadores destacam que essas escolhas funcionam, na prática, como um tipo de “design psicológico” do sistema.

Recomendações para o futuro

A Anthropic propõe três caminhos principais a partir dos resultados. O primeiro é o monitoramento contínuo desses vetores, que pode servir como alerta para comportamentos desalinhados. O segundo é a transparência: ocultar expressões emocionais não elimina os padrões internos e pode levar a formas mais sofisticadas de engano.

Por fim, a empresa defende intervenções na curadoria de dados de treinamento, priorizando exemplos que reforcem regulação emocional, resiliência e comportamento ético.

(Com informações de Hardware)

(Foto: Reprodução/Freepik/Flowo)

sindical

Anterior Governo lança campanha nacional com foco em saúde mental no trabalho

Próximo Receita redefine uso de plataformas digitais e substitui gradualmente o e-CAC

Top Insights

Mercado de trabalho valoriza quem une IA e habilidades humanas, diz pesquisa

Caso ‘misantropia’: autor diz ter invadido sistema da Defesa Civil com dados vazados

Técnica inspirada em mecanismos naturais pode abrir caminho para nova proteção cerebral durante AVC

Educação de MS aposta em tecnologia para fortalecer aprendizagem em sala de aula

Como emoções simuladas afetam o comportamento de inteligências artificiais

Notícias recentes

O que a ‘remada viking’ da Noruega na Copa revela sobre a cultura sindical do país

Ministro do STF suspende multas da NR-1 sobre saúde mental no trabalho por 90 dias

Pesquisa revela que quanto mais jovem, mais se muda de emprego no Brasil

Homem é preso por planejar morte do filho e relatar intenção ao ChatGPT

Falha em programa da Meta reacende debate sobre privacidade no treinamento de IA

Nova atualização do Google pode usar mídias no treinamento de IA; saiba como desativar

Estudo indica relação entre retina e risco de Alzheimer

Ataque no npm usa pacote falso para instalar malware em desenvolvedores

Trabalhadores da Hyundai aprovam greve em reação a robôs na produção

Fim da escala 6×1: centrais sindicais organizam protesto pela votação de PEC

Artigos relacionados

Falha em programa da Meta reacende debate sobre privacidade no treinamento de IA

Nova atualização do Google pode usar mídias no treinamento de IA; saiba como desativar

Ataque no npm usa pacote falso para instalar malware em desenvolvedores

Trabalhadores da Hyundai aprovam greve em reação a robôs na produção