IAs apresentam falhas e inconsistências na moderação de discurso de ódio

Redação10 meses Ago1 Mins read402 Views

Discurso de ódio – Com a expansão do discurso de ódio nas redes sociais, empresas de tecnologia têm recorrido a modelos de inteligência artificial para filtrar automaticamente conteúdos nocivos. No entanto, um estudo publicado no ACL Anthology revela que esses sistemas ainda apresentam falhas significativas.

Pesquisadores da Escola de Comunicação Annenberg realizaram a primeira avaliação comparativa em larga escala de sete modelos de IA usados na moderação, entre eles sistemas da OpenAI, Mistral, Claude 3.5 Sonnet, DeepSeek V3 e Google Perspective.

LEIA: Ação judicial contra a Uber acusa empresa de discriminação contra PCDs

O experimento analisou 1,3 milhão de frases sintéticas envolvendo 125 grupos sociais, formuladas em diferentes contextos, desde termos neutros e positivos até insultos.

Principais conclusões do experimento

• Classificações divergentes para o mesmo conteúdo: modelos distintos deram respostas opostas a textos idênticos, com alguns sinalizando-os como ofensivos e outros os aceitando, o que pode gerar a percepção de viés e comprometer a confiança pública.
• Sensibilidade desigual a certos grupos: enquanto alguns sistemas mantêm maior consistência, outros apresentaram variações mais marcantes, sobretudo em frases relacionadas a escolaridade, interesses pessoais e classe econômica, expondo determinados públicos a maior vulnerabilidade.
• Tratamento inconsistente de frases neutras e positivas: modelos como Claude 3.5 Sonnet e Mistral marcaram insultos como prejudiciais de forma categórica, independentemente do contexto, enquanto outros consideraram a intenção, revelando a ausência de um padrão intermediário.

Segundo os pesquisadores, essas discrepâncias reforçam os dilemas da moderação automatizada: encontrar equilíbrio entre precisão e excesso de restrição. O estudo conclui que, apesar dos avanços, as ferramentas de IA ainda têm limitações significativas para lidar de forma justa e confiável com o discurso de ódio online.

(Com informações de Olhar Digital)
(Foto: Reprodução/Freepik/user8285578)

sindical

Anterior Ação judicial contra a Uber acusa empresa de discriminação contra PCDs

Próximo Boreout: o esgotamento no trabalho causado pela falta de desafios e reconhecimento

Top Insights

Mercado de trabalho valoriza quem une IA e habilidades humanas, diz pesquisa

Caso ‘misantropia’: autor diz ter invadido sistema da Defesa Civil com dados vazados

Técnica inspirada em mecanismos naturais pode abrir caminho para nova proteção cerebral durante AVC

Educação de MS aposta em tecnologia para fortalecer aprendizagem em sala de aula

IAs apresentam falhas e inconsistências na moderação de discurso de ódio

Notícias recentes

O que a ‘remada viking’ da Noruega na Copa revela sobre a cultura sindical do país

Ministro do STF suspende multas da NR-1 sobre saúde mental no trabalho por 90 dias

Pesquisa revela que quanto mais jovem, mais se muda de emprego no Brasil

Homem é preso por planejar morte do filho e relatar intenção ao ChatGPT

Falha em programa da Meta reacende debate sobre privacidade no treinamento de IA

Nova atualização do Google pode usar mídias no treinamento de IA; saiba como desativar

Estudo indica relação entre retina e risco de Alzheimer

Ataque no npm usa pacote falso para instalar malware em desenvolvedores

Trabalhadores da Hyundai aprovam greve em reação a robôs na produção

Fim da escala 6×1: centrais sindicais organizam protesto pela votação de PEC

Artigos relacionados

Falha em programa da Meta reacende debate sobre privacidade no treinamento de IA

Nova atualização do Google pode usar mídias no treinamento de IA; saiba como desativar

Ataque no npm usa pacote falso para instalar malware em desenvolvedores

Trabalhadores da Hyundai aprovam greve em reação a robôs na produção