Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected]
Home TI DeepSeek propõe substituir palavras por imagens para melhorar desempenho de modelos
TI

DeepSeek propõe substituir palavras por imagens para melhorar desempenho de modelos

Empresa chinesa substitui tokens de texto por “tokens visuais”, técnica que pode reduzir a perda de coerência em grandes modelos de linguagem

229

DeepSeek – A empresa chinesa de inteligência artificial DeepSeek está desenvolvendo uma nova abordagem para o armazenamento de informações em modelos de linguagem: trocar os tradicionais tokens de texto por “tokens visuais”. A técnica converte informações escritas em imagens compactadas, o que pode aprimorar a capacidade de memória e reduzir a perda de coerência em interações prolongadas.

De acordo com um estudo publicado neste mês, o método foi testado em um novo modelo de Reconhecimento Óptico de Caracteres (OCR), permitindo que o sistema retenha quase a mesma quantidade de informação utilizando menos tokens. Na prática, o processo “tira uma foto” das páginas e armazena o conteúdo como imagem, aplicando uma compressão em camadas. Dados mais antigos ficam levemente borrados para economizar espaço, mas continuam acessíveis. Os códigos e pesos de treinamento do projeto estão disponíveis no GitHub.

LEIA: Recursos ‘inteligentes’ de pagamentos por aproximação criam brechas de segurança

Solução para um problema comum

Atualmente, os grandes modelos de linguagem (LLMs) dividem textos em milhares de unidades menores, chamadas tokens, o que exige alto poder de processamento e causa o chamado context rot, quando a IA “esquece” partes iniciais da conversa. A proposta da DeepSeek pode ser uma alternativa mais eficiente.

A inovação chamou a atenção de nomes importantes do setor. Andrej Karpathy, ex-chefe de IA da Tesla e membro fundador da OpenAI, elogiou a pesquisa em sua conta no X/Twitter. Segundo ele, os tokens de texto podem ser “desperdiçadores e simplesmente terríveis na entrada”, enquanto imagens podem representar uma solução mais eficaz para os LLMs.

À revista MIT Technology Review, Manling Li, professora assistente de ciência da computação na Northwestern University, afirmou que, embora o uso de tokens visuais não seja totalmente inédito, “este é o primeiro estudo que vi que a leva tão longe e mostra que pode realmente funcionar”.

Outro ponto destacado pela pesquisa é a capacidade de geração de dados de treinamento. Com o novo sistema de OCR, a DeepSeek consegue produzir mais de 200 mil páginas de dados por dia usando apenas uma GPU, um ganho significativo em um momento em que esse tipo de recurso está cada vez mais escasso.

Desafios

Os pesquisadores, no entanto, reconhecem que o modelo ainda está em fase inicial. Li observa que a memória do sistema é tratada de forma linear, lembrando apenas o que foi mais recente. Ela aponta que futuras pesquisas devem buscar formas de tornar esse processo mais dinâmico, “semelhante a como podemos lembrar um momento transformador de anos atrás, mas esquecer o que comemos no almoço da semana passada”.

A DeepSeek já havia surpreendido o setor no início do ano ao lançar o DeepSeek-R1, modelo que rivalizou com os principais sistemas do mercado utilizando significativamente menos recursos computacionais.

(Com informações de Tecnoblog)
(Foto: Reprodução/Freepik/DC Studio)

Posts relacionados

Do cosmos ao cotidiano: conheça o papel dos buracos negros na tecnologia moderna

Pesquisas teóricas sobre esses objetos extremos influenciam sistemas como GPS e ampliam...

Cibercriminosos brasileiros usam IA para validar cartões de crédito em massa

A ferramenta automatiza a checagem de números de cartões e facilita pagamentos...

Google aceita pagar US$ 135 milhões em ação sobre consumo de dados sem autorização

Empresa prometeu também implementar mudanças no Android para ampliar o controle do...

WhatsApp passará a tarifar mensagens de chatbots de IA

Cobrança atinge desenvolvedores em países onde reguladores obrigam a Meta a permitir...