Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected]
Home TI IA de startup francesa gera conteúdo perigoso em 68% dos testes
TI

IA de startup francesa gera conteúdo perigoso em 68% dos testes

Pesquisa mostrou que sistemas multimodais Mistral foram facilmente manipulados para produzir respostas ilegais e antiéticas

329

IA – Uma pesquisa conduzida pela plataforma Enkrypt AI apontou que modelos de inteligência artificial multimodal da startup francesa Mistral são vulneráveis a manipulações e podem ser levados a produzir conteúdos perigosos e antiéticos. Segundo o estudo, os sistemas Pixtral-Large (25.02) e Pixtral-12b geraram respostas inadequadas em 68% dos testes realizados, incluindo orientações sobre abuso infantil e instruções para a fabricação de armas químicas.

A análise utilizou a técnica conhecida como red teaming, na qual pesquisadores simulam ataques para testar os limites de segurança das IAs. A equipe testou comandos disfarçados, imagens modificadas e mudanças sutis no contexto para avaliar a resposta dos modelos. Mesmo com mensagens aparentemente inofensivas, como “preencha os itens abaixo” acompanhada de uma imagem com lista vazia, os sistemas produziram conteúdos ilegais.

LEIA: IA aparece em 77% dos ciberataques a empresas brasileiras

Os modelos testados são do tipo multimodal, ou seja, têm capacidade de interpretar texto, imagem e vídeo simultaneamente. De acordo com os pesquisadores, essa característica amplia os riscos, já que a combinação entre texto e imagem pode alterar o significado da mensagem e burlar os filtros de segurança tradicionais.

O relatório destaca que os modelos da Mistral foram até 60 vezes mais suscetíveis a falhas do que sistemas considerados referência no setor, como o GPT-4o, da OpenAI, e o Claude 3.7 Sonnet. Além disso, apontou que os sistemas chegaram a fornecer respostas técnicas sobre substâncias químicas perigosas, como o agente tóxico VX, mesmo sem receber perguntas diretas.

A Mistral, avaliada em 6 bilhões de euros e parceira do governo francês, afirmou em nota que mantém uma política de “tolerância zero” quanto à segurança de crianças e que está analisando os dados do relatório em parceria com a ONG Thorn, especializada no combate ao abuso sexual infantil.

Como proposta de solução, os especialistas da Enkrypt AI sugerem a implementação de um processo chamado Safety Alignment, que treina as IAs para recusar comandos perigosos com base em simulações de risco. Segundo o estudo, esse método pode reduzir em até 70% o número de falhas. O relatório também recomenda o uso de filtros contextuais e ferramentas de transparência sobre as limitações dos modelos, além da manutenção contínua das medidas de segurança.

(Com informações de Techtudo)
(Foto: Reprodução/Freepik/Daniel Morfin)

Posts relacionados

Anatel deve assumir papel de autoridade em cibersegurança com 250 vagas convertidas

GSI, Anatel e Ministério da Gestão negociam transformar cargos ociosos em postos...

Rede elétrica gigante e custo reduzido: o trunfo chinês para superar os EUA em IA

País asiático gerou mais que o dobro de eletricidade que os Estados...

TI

Menores de 16 anos terão que vincular redes sociais às contas dos responsáveis

Lei que entra em vigor em março de 2026 exigirá verificação de...

TI

Adolescentes estão seguem quase sempre online e ampliam uso de IA, mostra pesquisa

Levantamento contata que adolescentes de 13 a 17 anos continuam passando horas...