Home TI DeepSeek propõe substituir palavras por imagens para melhorar desempenho de modelos

DeepSeek propõe substituir palavras por imagens para melhorar desempenho de modelos

Empresa chinesa substitui tokens de texto por “tokens visuais”, técnica que pode reduzir a perda de coerência em grandes modelos de linguagem

30 de outubro de 2025333

DeepSeek – A empresa chinesa de inteligência artificial DeepSeek está desenvolvendo uma nova abordagem para o armazenamento de informações em modelos de linguagem: trocar os tradicionais tokens de texto por “tokens visuais”. A técnica converte informações escritas em imagens compactadas, o que pode aprimorar a capacidade de memória e reduzir a perda de coerência em interações prolongadas.

De acordo com um estudo publicado neste mês, o método foi testado em um novo modelo de Reconhecimento Óptico de Caracteres (OCR), permitindo que o sistema retenha quase a mesma quantidade de informação utilizando menos tokens. Na prática, o processo “tira uma foto” das páginas e armazena o conteúdo como imagem, aplicando uma compressão em camadas. Dados mais antigos ficam levemente borrados para economizar espaço, mas continuam acessíveis. Os códigos e pesos de treinamento do projeto estão disponíveis no GitHub.

LEIA: Recursos ‘inteligentes’ de pagamentos por aproximação criam brechas de segurança

Solução para um problema comum

Atualmente, os grandes modelos de linguagem (LLMs) dividem textos em milhares de unidades menores, chamadas tokens, o que exige alto poder de processamento e causa o chamado context rot, quando a IA “esquece” partes iniciais da conversa. A proposta da DeepSeek pode ser uma alternativa mais eficiente.

A inovação chamou a atenção de nomes importantes do setor. Andrej Karpathy, ex-chefe de IA da Tesla e membro fundador da OpenAI, elogiou a pesquisa em sua conta no X/Twitter. Segundo ele, os tokens de texto podem ser “desperdiçadores e simplesmente terríveis na entrada”, enquanto imagens podem representar uma solução mais eficaz para os LLMs.

À revista MIT Technology Review, Manling Li, professora assistente de ciência da computação na Northwestern University, afirmou que, embora o uso de tokens visuais não seja totalmente inédito, “este é o primeiro estudo que vi que a leva tão longe e mostra que pode realmente funcionar”.

Outro ponto destacado pela pesquisa é a capacidade de geração de dados de treinamento. Com o novo sistema de OCR, a DeepSeek consegue produzir mais de 200 mil páginas de dados por dia usando apenas uma GPU, um ganho significativo em um momento em que esse tipo de recurso está cada vez mais escasso.

Desafios

Os pesquisadores, no entanto, reconhecem que o modelo ainda está em fase inicial. Li observa que a memória do sistema é tratada de forma linear, lembrando apenas o que foi mais recente. Ela aponta que futuras pesquisas devem buscar formas de tornar esse processo mais dinâmico, “semelhante a como podemos lembrar um momento transformador de anos atrás, mas esquecer o que comemos no almoço da semana passada”.

A DeepSeek já havia surpreendido o setor no início do ano ao lançar o DeepSeek-R1, modelo que rivalizou com os principais sistemas do mercado utilizando significativamente menos recursos computacionais.

(Com informações de Tecnoblog)
(Foto: Reprodução/Freepik/DC Studio)