Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected]
Home TI IA de startup francesa gera conteúdo perigoso em 68% dos testes
TI

IA de startup francesa gera conteúdo perigoso em 68% dos testes

Pesquisa mostrou que sistemas multimodais Mistral foram facilmente manipulados para produzir respostas ilegais e antiéticas

355

IA – Uma pesquisa conduzida pela plataforma Enkrypt AI apontou que modelos de inteligência artificial multimodal da startup francesa Mistral são vulneráveis a manipulações e podem ser levados a produzir conteúdos perigosos e antiéticos. Segundo o estudo, os sistemas Pixtral-Large (25.02) e Pixtral-12b geraram respostas inadequadas em 68% dos testes realizados, incluindo orientações sobre abuso infantil e instruções para a fabricação de armas químicas.

A análise utilizou a técnica conhecida como red teaming, na qual pesquisadores simulam ataques para testar os limites de segurança das IAs. A equipe testou comandos disfarçados, imagens modificadas e mudanças sutis no contexto para avaliar a resposta dos modelos. Mesmo com mensagens aparentemente inofensivas, como “preencha os itens abaixo” acompanhada de uma imagem com lista vazia, os sistemas produziram conteúdos ilegais.

LEIA: IA aparece em 77% dos ciberataques a empresas brasileiras

Os modelos testados são do tipo multimodal, ou seja, têm capacidade de interpretar texto, imagem e vídeo simultaneamente. De acordo com os pesquisadores, essa característica amplia os riscos, já que a combinação entre texto e imagem pode alterar o significado da mensagem e burlar os filtros de segurança tradicionais.

O relatório destaca que os modelos da Mistral foram até 60 vezes mais suscetíveis a falhas do que sistemas considerados referência no setor, como o GPT-4o, da OpenAI, e o Claude 3.7 Sonnet. Além disso, apontou que os sistemas chegaram a fornecer respostas técnicas sobre substâncias químicas perigosas, como o agente tóxico VX, mesmo sem receber perguntas diretas.

A Mistral, avaliada em 6 bilhões de euros e parceira do governo francês, afirmou em nota que mantém uma política de “tolerância zero” quanto à segurança de crianças e que está analisando os dados do relatório em parceria com a ONG Thorn, especializada no combate ao abuso sexual infantil.

Como proposta de solução, os especialistas da Enkrypt AI sugerem a implementação de um processo chamado Safety Alignment, que treina as IAs para recusar comandos perigosos com base em simulações de risco. Segundo o estudo, esse método pode reduzir em até 70% o número de falhas. O relatório também recomenda o uso de filtros contextuais e ferramentas de transparência sobre as limitações dos modelos, além da manutenção contínua das medidas de segurança.

(Com informações de Techtudo)
(Foto: Reprodução/Freepik/Daniel Morfin)

Posts relacionados

Alunos brasileiros participam da construção de satélite lançado na Índia

Missão espacial envolve alunos de escolas públicas e privadas e dará origem...

Google suspende resumos de IA em buscas de saúde após respostas enganosas

Investigação do jornal britânico identificou respostas incorretas em temas de saúde, levando...

TI

Assassinato de mulher no MS inspira criação de app para pesquisa de histórico de violência

Plataforma Plinq organiza informações judiciais dispersas e já soma milhares de usuárias...

TI

Nova norma eleva gestor de segurança da informação a função estratégica e limita acúmulo com TI

Norma do GSI exige vínculo funcional e alto escalão para o cargo...