{"id":19886,"date":"2025-10-22T15:47:07","date_gmt":"2025-10-22T07:47:07","guid":{"rendered":"https:\/\/iwea.deeptracker.ai\/?p=19886"},"modified":"2025-10-22T15:47:59","modified_gmt":"2025-10-22T07:47:59","slug":"deepseek-ocr-vision-language-model","status":"publish","type":"post","link":"https:\/\/iwea.deeptracker.ai\/pt\/blog\/deepseek-ocr-vision-language-model\/","title":{"rendered":"DeepSeek-AI lan\u00e7a modelo inovador de OCR 3B Vision-Language"},"content":{"rendered":"<p>Em um grande avan\u00e7o para IA de documentos e reconhecimento \u00f3ptico de caracteres (OCR), a DeepSeek-AI anunciou o lan\u00e7amento de <strong>DeepSeek-OCR<\/strong>, um modelo de vis\u00e3o-linguagem (VLM) de 3 bilh\u00f5es de par\u00e2metros projetado especificamente para OCR de alta precis\u00e3o e em larga escala e convers\u00e3o de documentos estruturados. Esta vers\u00e3o aborda um dos principais gargalos nos fluxos de trabalho de IA atuais: como processar documentos longos e ricos em texto (como relat\u00f3rios, livros ou documentos jur\u00eddicos) de forma eficiente, mas com alta fidelidade.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">O que \u00e9 DeepSeek-OCR e por que ele \u00e9 importante?<\/h2>\n\n\n\n<p>DeepSeek-OCR n\u00e3o \u00e9 apenas mais uma ferramenta de OCR \u2014 \u00e9 uma <strong>modelo de vis\u00e3o-linguagem (VLM)<\/strong> criado para corrigir os maiores problemas do processamento tradicional de documentos: uso excessivo de tokens, infer\u00eancia lenta e manuseio inadequado de layouts ou conte\u00fado complexo (como tabelas, f\u00f3rmulas ou estruturas qu\u00edmicas).<\/p>\n\n\n\n<p>Em sua ess\u00eancia, ele utiliza &quot;compress\u00e3o de contexto \u00f3ptico&quot;: converte documentos com muito texto em tokens visuais compactos. Ao contr\u00e1rio dos tokens de texto (que s\u00e3o discretos e consomem muita mem\u00f3ria), os tokens visuais carregam mais informa\u00e7\u00f5es por unidade \u2014 o que significa que voc\u00ea produz mais com menos recursos.<\/p>\n\n\n\n<p>Para empresas, pesquisadores ou desenvolvedores, isso se traduz em:<\/p>\n\n\n\n<p>Processamento mais r\u00e1pido de grandes lotes de documentos (por exemplo, artigos acad\u00eamicos, relat\u00f3rios financeiros).<\/p>\n\n\n\n<p>Menores custos de nuvem ou GPU (menos tokens = menos poder de computa\u00e7\u00e3o).<\/p>\n\n\n\n<p>Reconhecimento preciso de layouts complexos (texto com v\u00e1rias colunas, texto e imagens mistos) que quebram ferramentas b\u00e1sicas de OCR.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img fetchpriority=\"high\" decoding=\"async\" width=\"1024\" height=\"683\" src=\"https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2025\/10\/Deepseek-AI-launches-3B-OCR-model.webp\" alt=\"\" class=\"wp-image-19887\" srcset=\"https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2025\/10\/Deepseek-AI-launches-3B-OCR-model.webp 1024w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2025\/10\/Deepseek-AI-launches-3B-OCR-model-300x200.webp 300w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2025\/10\/Deepseek-AI-launches-3B-OCR-model-768x512.webp 768w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2025\/10\/Deepseek-AI-launches-3B-OCR-model-18x12.webp 18w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Vis\u00e3o geral da atualiza\u00e7\u00e3o do Deepseek-OCR<\/h2>\n\n\n\n<p><strong>DeepEncoder<\/strong>: Um codificador de vis\u00e3o de alta resolu\u00e7\u00e3o que utiliza uma combina\u00e7\u00e3o de aten\u00e7\u00e3o de janela (baseado em SAM) para percep\u00e7\u00e3o local e aten\u00e7\u00e3o global densa (estilo CLIP) para conhecimento visual agregado. Ele comprime a imagem em poucos tokens de vis\u00e3o por meio de um compressor convolucional de 2 camadas (redu\u00e7\u00e3o de amostragem de 16x).<\/p>\n\n\n\n<p><strong>Decodificador (DeepSeek3B-MoE-A570M)<\/strong>: Um decodificador de linguagem Mixture-of-Experts (MoE) com 3 bilh\u00f5es de par\u00e2metros, com aproximadamente 570 milh\u00f5es de par\u00e2metros ativos por token. Este decodificador eficiente ingere os tokens de vis\u00e3o e gera o texto reconstru\u00eddo e os dados estruturados.<\/p>\n\n\n\n<p><strong>Modos din\u00e2micos<\/strong>: Para documentos complexos (layout denso, gr\u00e1ficos, tabelas), os modos \u201cGundam\u201d e \u201cGundam-Master\u201d combinam v\u00e1rias visualiza\u00e7\u00f5es locais em mosaico, al\u00e9m de uma visualiza\u00e7\u00e3o global para alocar tokens de forma ideal com base na complexidade do documento.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Quais campos ser\u00e3o afetados pela atualiza\u00e7\u00e3o do Deep seek-OCR?<\/h2>\n\n\n\n<p>Este modelo desbloqueia aplica\u00e7\u00f5es pr\u00e1ticas em muitos dom\u00ednios:<\/p>\n\n\n\n<p><strong>Processamento de documentos empresariais em larga escala<\/strong>: Relat\u00f3rios, contratos, manuais t\u00e9cnicos, livros, artigos cient\u00edficos \u2014 o alto rendimento e a compacta\u00e7\u00e3o tornam-no econ\u00f4mico.<\/p>\n\n\n\n<p><strong>Convers\u00e3o de documentos estruturados<\/strong>:Al\u00e9m do OCR de texto simples, o modelo pode analisar gr\u00e1ficos, f\u00f3rmulas qu\u00edmicas, figuras geom\u00e9tricas, tabelas e convert\u00ea-los em formatos estruturados (por exemplo, tabelas HTML, SMILES) para uso posterior.<\/p>\n\n\n\n<p><strong>Fluxos de trabalho de contexto longo para LLMs\/VLMs<\/strong>:Ao compactar milhares de tokens de texto em algumas centenas de tokens de vis\u00e3o, o modelo permite que documentos longos sejam inseridos em grandes modelos de linguagem de forma mais econ\u00f4mica, reduzindo o or\u00e7amento de tokens e a sobrecarga de mem\u00f3ria.<\/p>\n\n\n\n<p><strong>Suporte a formatos diversos e multil\u00edngues<\/strong>:Embora a cobertura exata da linguagem n\u00e3o seja totalmente divulgada, a arquitetura subjacente suporta formatos de documentos avan\u00e7ados e foi treinada em dados multimodais.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">O que significa a atualiza\u00e7\u00e3o do DeepSeek-OCR?<\/h2>\n\n\n\n<p>Na se\u00e7\u00e3o anterior, abordamos a vis\u00e3o geral da atualiza\u00e7\u00e3o mais recente do DeepSeek-OCR. Em termos simples, esta vers\u00e3o traz tr\u00eas melhorias importantes: efici\u00eancia otimizada de tokens, melhor compreens\u00e3o da estrutura do documento e uma experi\u00eancia mais leve e simplificada para desenvolvedores e usu\u00e1rios comuns.<\/p>\n\n\n\n<p>Esta atualiza\u00e7\u00e3o beneficia n\u00e3o apenas engenheiros, mas tamb\u00e9m aqueles que contam com o DeepSeek como um assistente de produtividade di\u00e1ria, proporcionando melhorias percept\u00edveis em precis\u00e3o e velocidade em v\u00e1rias dimens\u00f5es:<\/p>\n\n\n\n<p><strong>Reduzindo erros no reconhecimento de documentos longos<\/strong><\/p>\n\n\n\n<p>Ao processar relat\u00f3rios longos ou artigos de pesquisa, os modelos tradicionais de OCR ou de linguagem de vis\u00e3o tendem a consumir grandes quantidades de computa\u00e7\u00e3o e tokens, muitas vezes \u201cesquecendo\u201d conte\u00fado anterior durante o processo.<\/p>\n\n\n\n<p>O DeepSeek-OCR introduz um mecanismo de compress\u00e3o visual que condensa documentos longos em menos tokens antes de realizar a compreens\u00e3o sem\u00e2ntica e a extra\u00e7\u00e3o de dados. Essa abordagem economiza recursos computacionais, permite um gerenciamento de contexto mais est\u00e1vel e reduz significativamente os erros de reconhecimento em documentos longos.<\/p>\n\n\n\n<p><strong>Economizando tempo na organiza\u00e7\u00e3o complexa de documentos<\/strong><\/p>\n\n\n\n<p>Em \u00e1reas como direito, finan\u00e7as, pesquisa e marketing, os documentos costumam conter layouts complexos \u2014 tabelas, gr\u00e1ficos, f\u00f3rmulas e estruturas com v\u00e1rias colunas. O DeepSeek-OCR atualizado reconhece e reconstr\u00f3i de forma inteligente esses elementos mistos, n\u00e3o apenas texto simples, preservando grande parte da formata\u00e7\u00e3o original.<\/p>\n\n\n\n<p>Isso torna a digitaliza\u00e7\u00e3o e a reorganiza\u00e7\u00e3o estrutural de documentos mais r\u00e1pidas e precisas, ideal para arquivamento, compila\u00e7\u00e3o de relat\u00f3rios ou leitura de documentos orientada por IA.<\/p>\n\n\n\n<p><strong>Quebrando barreiras entre idiomas e dom\u00ednios<\/strong><\/p>\n\n\n\n<p>O novo conjunto de dados de treinamento do modelo abrange mais de 100 idiomas e mais de 30 milh\u00f5es de p\u00e1ginas de documentos, abrangendo tanto os principais idiomas quanto os de poucos recursos. Ele tamb\u00e9m foi treinado para reconhecer conte\u00fado especializado, como diagramas geom\u00e9tricos e f\u00f3rmulas qu\u00edmicas.<\/p>\n\n\n\n<p>Como resultado, empresas globais agora podem extrair texto de contratos multil\u00edngues ou demonstra\u00e7\u00f5es financeiras japonesas sem usar ferramentas separadas, enquanto educadores e pesquisadores podem digitalizar materiais de matem\u00e1tica ou ci\u00eancias, identificando estruturas visuais com precis\u00e3o, sem necessidade de redesenho manual.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Uma nova hip\u00f3tese: usar a resolu\u00e7\u00e3o para simular um \u201cmecanismo de esquecimento\u201d<\/h2>\n\n\n\n<p>Uma das ideias mais intrigantes da equipe DeepSeek \u00e9 o uso da resolu\u00e7\u00e3o como uma forma de simular a mem\u00f3ria seletiva.<\/p>\n\n\n\n<p>Em termos simples, o sistema \u201clembra\u201d documentos em diferentes n\u00edveis de clareza:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Alta resolu\u00e7\u00e3o para detalhes cr\u00edticos (como gr\u00e1ficos e f\u00f3rmulas).<\/li>\n\n\n\n<li>Baixa resolu\u00e7\u00e3o para informa\u00e7\u00f5es menos essenciais ou layout geral.<\/li>\n<\/ul>\n\n\n\n<p>Este design permite que o sistema armazene hist\u00f3ricos extensos de documentos com mais efici\u00eancia e, ao recuperar dados, decida de forma inteligente quais partes requerem reconstru\u00e7\u00e3o completa e quais podem ser resumidas. Em ess\u00eancia, ele confere \u00e0 IA uma mem\u00f3ria seletiva mais semelhante \u00e0 humana, melhorando a gest\u00e3o do conhecimento a longo prazo e a efici\u00eancia da recupera\u00e7\u00e3o.<\/p>\n\n\n\n<p>No entanto, essa abordagem tamb\u00e9m apresenta desafios. Reduzir a resolu\u00e7\u00e3o inevitavelmente sacrifica algumas informa\u00e7\u00f5es. Se os dados forem compactados em excesso, a restaura\u00e7\u00e3o de detalhes finos se torna dif\u00edcil. Vers\u00f5es futuras precisar\u00e3o equilibrar a otimiza\u00e7\u00e3o de recursos com a reten\u00e7\u00e3o de precis\u00e3o para concretizar plenamente o potencial dessa ideia.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Olhando para o futuro: um ponto de virada para a Document AI<\/h2>\n\n\n\n<p>O lan\u00e7amento do DeepSeek-OCR representa um marco importante na evolu\u00e7\u00e3o da IA de Documentos. Ele avan\u00e7a o OCR da simples extra\u00e7\u00e3o de texto para a compreens\u00e3o estruturada e o racioc\u00ednio inteligente em documentos.<\/p>\n\n\n\n<p>Ap\u00f3s o lan\u00e7amento oficial em 2025, tanto usu\u00e1rios comuns quanto desenvolvedores podem esperar um reconhecimento mais r\u00e1pido, resultados estruturados mais precisos e uma experi\u00eancia de usu\u00e1rio mais tranquila.<\/p>\n\n\n\n<p>Vale ressaltar que o OCR n\u00e3o \u00e9 o \u00fanico caminho para a compreens\u00e3o da convers\u00e3o de imagem em texto. Modelos de Linguagem Ampla (LLMs) tamb\u00e9m podem realizar a extra\u00e7\u00e3o visual de texto por meio da percep\u00e7\u00e3o multimodal.<\/p>\n\n\n\n<p>Em um artigo anterior, comparamos v\u00e1rios conversores de imagem para texto (<a href=\"https:\/\/iwea.deeptracker.ai\/pt\/guide\/2025s-top-7-image-to-text-converters\/\"><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-vivid-cyan-blue-color\">veja o guia completo<\/mark><\/a>).<\/p>\n\n\n\n<p>Na iWeaver.ai, usamos tecnologia de extra\u00e7\u00e3o estruturada baseada em OCR, oferecendo alta precis\u00e3o e otimiza\u00e7\u00e3o espec\u00edfica de dom\u00ednio.<\/p>\n\n\n\n<p>Se voc\u00ea quiser experimentar os recursos de OCR do iWeaver, experimente o <a href=\"https:\/\/iwea.deeptracker.ai\/pt\/agents\/ai-image-summarizer\/\"><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-vivid-cyan-blue-color\">Resumo de imagens de IA<\/mark><\/a>.<\/p>","protected":false},"excerpt":{"rendered":"<p>Em um grande avan\u00e7o para a IA de documentos e o reconhecimento \u00f3ptico de caracteres (OCR), a DeepSeek-AI anunciou o lan\u00e7amento do DeepSeek-OCR, um modelo de vis\u00e3o e linguagem (VLM) com 3 bilh\u00f5es de par\u00e2metros, projetado especificamente para OCR de alta precis\u00e3o e em larga escala, al\u00e9m de convers\u00e3o estruturada de documentos. Este lan\u00e7amento aborda um dos principais gargalos nos fluxos de trabalho de IA atuais: como processar documentos longos e ricos em texto (como relat\u00f3rios, [\u2026]<\/p>","protected":false},"author":3,"featured_media":19887,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[138],"tags":[],"class_list":["post-19886","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog"],"acf":[],"_links":{"self":[{"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/posts\/19886","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/comments?post=19886"}],"version-history":[{"count":0,"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/posts\/19886\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/media\/19887"}],"wp:attachment":[{"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/media?parent=19886"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/categories?post=19886"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/tags?post=19886"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}