{"id":23097,"date":"2026-01-29T19:43:28","date_gmt":"2026-01-29T11:43:28","guid":{"rendered":"https:\/\/iwea.deeptracker.ai\/?p=23097"},"modified":"2026-01-29T19:47:16","modified_gmt":"2026-01-29T11:47:16","slug":"deepseek-ocr2-deep-dive-how-deploy","status":"publish","type":"post","link":"https:\/\/iwea.deeptracker.ai\/pt\/blog\/deepseek-ocr2-deep-dive-how-deploy\/","title":{"rendered":"An\u00e1lise detalhada do DeepSeek OCR 2: Como extrair com precis\u00e3o tabelas complexas e documentos com v\u00e1rias colunas (Um guia pr\u00e1tico)"},"content":{"rendered":"<div data-elementor-type=\"wp-post\" data-elementor-id=\"23097\" class=\"elementor elementor-23097\" data-elementor-post-type=\"post\">\n\t\t\t\t<div class=\"elementor-element elementor-element-511dc79e e-flex e-con-boxed e-con e-parent\" data-id=\"511dc79e\" data-element_type=\"container\">\n\t\t\t\t\t<div class=\"e-con-inner\">\n\t\t\t\t<div class=\"elementor-element elementor-element-1ed5e4a2 elementor-widget elementor-widget-text-editor\" data-id=\"1ed5e4a2\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t\t\t\t\t\t\n<p>Em 27 de janeiro, a DeepSeek lan\u00e7ou o OCR 2 como um modelo de c\u00f3digo aberto. Ap\u00f3s analisar seus <a href=\"https:\/\/huggingface.co\/deepseek-ai\/DeepSeek-OCR-2\" rel=\"nofollow noopener\" target=\"_blank\"><mark class=\"has-inline-color has-vivid-cyan-blue-color\" style=\"background-color: rgba(0, 0, 0, 0);\">relat\u00f3rio t\u00e9cnico<\/mark><\/a>Acredito que isso representa uma mudan\u00e7a sistem\u00e1tica na forma como a IA compreende dados visuais. Em vez de simplesmente aumentar o n\u00famero de par\u00e2metros, o DeepSeek focou em mudan\u00e7as arquitet\u00f4nicas fundamentais para melhorar o desempenho al\u00e9m dos limites dos modelos tradicionais de vis\u00e3o e linguagem (VLMs).<\/p>\n\n<h2 class=\"wp-block-heading\">DeepSeek OCR 2 \u00e9 mais do que apenas reconhecimento de texto.<\/h2>\n\n<p>O DeepSeek OCR 2 \u00e9 um modelo de vis\u00e3o e linguagem de \u00faltima gera\u00e7\u00e3o com 3 bilh\u00f5es de par\u00e2metros. Ele difere significativamente de ferramentas tradicionais como o Tesseract ou modelos visuais b\u00e1sicos. O OCR 2 prioriza dois objetivos espec\u00edficos:<\/p>\n\n<ul class=\"wp-block-list\">\n<li><strong>Ordem de leitura correta:<\/strong> Mant\u00e9m a sequ\u00eancia adequada para textos com v\u00e1rias colunas, notas de rodap\u00e9 e a rela\u00e7\u00e3o entre cabe\u00e7alhos e corpo do texto.<\/li>\n\n<li><strong>Estrutura de layout est\u00e1vel:<\/strong> Isso garante que tabelas, listas e conte\u00fado misto sejam formatados em estruturas utiliz\u00e1veis.<\/li>\n<\/ul>\n\n<p>Se voc\u00ea precisa processar digitaliza\u00e7\u00f5es de PDF para entrada em banco de dados, limpar dados para sistemas RAG ou analisar relat\u00f3rios financeiros complexos, o OCR 2 oferece um alto n\u00edvel de precis\u00e3o e reconstru\u00e7\u00e3o l\u00f3gica.<\/p>\n\n<h2 class=\"wp-block-heading\">Inova\u00e7\u00e3o arquitet\u00f4nica: por que o DeepSeek OCR 2 \u00e9 t\u00e3o eficiente?<\/h2>\n\n<h3 class=\"wp-block-heading\">Substituindo o CLIP por um modelo de linguagem<\/h3>\n\n<p>A maioria dos modelos visuais mais antigos usa o CLIP como componente de processamento de imagens. O CLIP foi projetado para associar imagens a r\u00f3tulos de texto. No entanto, ele n\u00e3o consegue compreender a rela\u00e7\u00e3o l\u00f3gica entre diferentes partes de um documento denso.<\/p>\n\n<p><strong>O DeepSeek <\/strong><strong>Solu\u00e7\u00e3o<\/strong><strong>:<\/strong> Eles usaram <strong>Qwen2-0,5B<\/strong> (uma arquitetura baseada em LLM) como n\u00facleo do codificador de vis\u00e3o.<\/p>\n\n<p><strong>O benef\u00edcio:<\/strong> Como o codificador \u00e9 baseado em um modelo de linguagem, os tokens visuais possuem uma capacidade b\u00e1sica de racioc\u00ednio durante o est\u00e1gio inicial. O modelo consegue identificar quais pixels pertencem a um cabe\u00e7alho e quais pertencem ao limite de uma tabela, o que leva a um processamento de dados mais preciso.<\/p>\n\n<figure class=\"wp-block-image size-large\"><img fetchpriority=\"high\" decoding=\"async\" width=\"1024\" height=\"564\" class=\"wp-image-23098\" src=\"https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-1024x564.webp\" alt=\"\" srcset=\"https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-1024x564.webp 1024w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-300x165.webp 300w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-768x423.webp 768w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-1536x846.webp 1536w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-2048x1129.webp 2048w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-18x10.webp 18w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<h3 class=\"wp-block-heading\">DeepEncoder V2 e Fluxo Causal Visual<\/h3>\n\n<p>Esta \u00e9 a inova\u00e7\u00e3o t\u00e9cnica mais significativa do OCR 2. Muitos modelos processam imagens em uma grade fixa, do canto superior esquerdo para o canto inferior direito. Essa ordem fixa frequentemente causa erros quando o modelo encontra tabelas complexas ou p\u00e1ginas com v\u00e1rias colunas.<\/p>\n\n<p><strong>O DeepSeek <\/strong><strong>Solu\u00e7\u00e3o<\/strong><strong>:<\/strong> Eles acrescentaram <strong>Fluxo Causal Visual<\/strong> para o componente DeepEncoder V2:<\/p>\n\n<ol class=\"wp-block-list\" start=\"1\">\n<li>O modelo primeiro coleta as informa\u00e7\u00f5es globais de toda a p\u00e1gina.<\/li>\n\n<li>Ele usa consultas aprend\u00edveis para reordenar os tokens visuais.<\/li>\n\n<li>Ele envia essa sequ\u00eancia logicamente organizada para o decodificador para gerar o texto.<\/li>\n<\/ol>\n\n<p>Isso permite que o modelo colete informa\u00e7\u00f5es com base no significado real dos dados. Como as informa\u00e7\u00f5es s\u00e3o organizadas por layout e sem\u00e2ntica durante a etapa de codifica\u00e7\u00e3o, a sa\u00edda final \u00e9 muito est\u00e1vel.<\/p>\n\n<figure class=\"wp-block-table\">\n<table class=\"has-fixed-layout\">\n<tbody>\n<tr>\n<td>M\u00e9trica<\/td>\n<td>Modelos tradicionais de OCR<\/td>\n<td>DeepSeek OCR 2<\/td>\n<\/tr>\n<tr>\n<td>Erro na ordem de leitura<\/td>\n<td>Alto (dificuldades com colunas)<\/td>\n<td>Significativamente menor (a dist\u00e2ncia de edi\u00e7\u00e3o caiu para 0,057)<\/td>\n<\/tr>\n<tr>\n<td>Compress\u00e3o de Tokens<\/td>\n<td>Baixo (milhares de tokens por p\u00e1gina)<\/td>\n<td>Muito alto (256 a 1120 tokens por p\u00e1gina)<\/td>\n<\/tr>\n<tr>\n<td>Estabilidade\/Precis\u00e3o<\/td>\n<td>Propenso \u00e0 repeti\u00e7\u00e3o ou a erros<\/td>\n<td>Precis\u00e3o do 97% (com compress\u00e3o de 10x)<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/figure>\n\n<h3 class=\"wp-block-heading\">Aprimorando a codifica\u00e7\u00e3o visual em dire\u00e7\u00e3o ao racioc\u00ednio<\/h3>\n\n<p>Especialistas descrevem o OCR 2 como um &quot;codificador visual orientado por modelo de linguagem&quot;. Isso significa que o codificador se concentra em rela\u00e7\u00f5es espaciais e informa\u00e7\u00f5es estruturais, em vez de apenas extrair caracter\u00edsticas visuais b\u00e1sicas.<\/p>\n\n<p><strong>Os resultados:<\/strong><\/p>\n\n<p>No teste profissional OmniDocBench v1.5, o OCR 2 alcan\u00e7ou uma pontua\u00e7\u00e3o de 91,09. Isso representa uma melhoria de 3,73 pontos em rela\u00e7\u00e3o \u00e0 vers\u00e3o anterior. A maior parte do progresso ocorreu na precis\u00e3o da leitura de ordens e no processamento de layouts complexos.<\/p>\n\n<h2 class=\"wp-block-heading\">Como usar o DeepSeek OCR 2: 3 m\u00e9todos de implanta\u00e7\u00e3o r\u00e1pida<\/h2>\n\n<p>A DeepSeek disponibilizou os pesos do modelo no Hugging Face. Voc\u00ea pode usar estes tr\u00eas m\u00e9todos para acessar o modelo para produ\u00e7\u00e3o ou pesquisa:<\/p>\n\n<h3 class=\"wp-block-heading\">M\u00e9todo 1: Ajuste fino r\u00e1pido via <a href=\"https:\/\/unsloth.ai\/docs\/models\/deepseek-ocr-2\" rel=\"nofollow noopener\" target=\"_blank\"><mark class=\"has-inline-color has-vivid-cyan-blue-color\" style=\"background-color: rgba(0, 0, 0, 0);\">Unsloth<\/mark><\/a>(Recomendado)<\/h3>\n\n<p>O Unsloth \u00e9 otimizado para OCR 2 e reduz significativamente o uso de mem\u00f3ria.<\/p>\n\n<pre class=\"wp-block-code\"><code><em>from unsloth import FastVisionModel import torch # Carregar o modelo model, tokenizer = FastVisionModel.from_pretrained( &quot;unsloth\/DeepSeek-OCR-2&quot;, load_in_4bit = True, # Usar quantiza\u00e7\u00e3o de 4 bits para economizar mem\u00f3ria ) # Prompt template prompt = &quot; &lt;|grounding|&gt;Por favor, converta este documento para Markdown e extraia todas as tabelas.&lt;\/grounding&gt;<\/em><\/code><\/pre>\n\n<h3 class=\"wp-block-heading\">M\u00e9todo 2: Infer\u00eancia de Alto Desempenho com vLLM<\/h3>\n\n<p>Essa \u00e9 a melhor op\u00e7\u00e3o para organiza\u00e7\u00f5es que precisam lidar com muitas solicita\u00e7\u00f5es simultaneamente.<\/p>\n\n<ul class=\"wp-block-list\">\n<li><strong>Configura\u00e7\u00f5es:<\/strong> A DeepSeek recomenda definir o <em><code>temperatura<\/code><\/em> Para obter os resultados mais consistentes, defina o valor para 0,0.<\/li>\n\n<li><strong>Suporte a idiomas:<\/strong> Voc\u00ea pode especificar o idioma de destino no prompt. Ele suporta mais de 100 idiomas.<\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">M\u00e9todo 3: Transformadores de rosto de abra\u00e7o padr\u00e3o<\/h3>\n\n<p>Para m\u00e1xima flexibilidade, utilize a biblioteca padr\u00e3o:<\/p>\n\n<ol class=\"wp-block-list\" start=\"1\">\n<li>Instale os requisitos: <em><code>pip install transformers einops addict easydict<\/code><\/em>.<\/li>\n\n<li>Carregar o modelo: <em><code>AutoModel.from_pretrained(&quot;deepseek-ai\/DeepSeek-OCR-2&quot;, trust_remote_code=True)<\/code><\/em>.<\/li>\n<\/ol>\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><strong>Dica:<\/strong> Ao processar digitaliza\u00e7\u00f5es inclinadas, girar a imagem em apenas 0,5 graus para endireit\u00e1-la pode ajudar o modelo a produzir resultados ainda melhores.<\/p>\n<\/blockquote>\n\n<p>Com base na minha longa observa\u00e7\u00e3o da ind\u00fastria de IA, a DeepSeek tem se destacado consistentemente como pioneira na otimiza\u00e7\u00e3o de algoritmos essenciais. Notei que... <a href=\"https:\/\/iwea.deeptracker.ai\/pt\/blog\/deepseek-ocr-vision-language-model\/\"><mark class=\"has-inline-color has-vivid-cyan-blue-color\" style=\"background-color: rgba(0, 0, 0, 0);\">primeiro modelo OCR<\/mark><\/a> Em outubro de 2025, a compress\u00e3o de tokens j\u00e1 era utilizada para melhorar a efici\u00eancia.<\/p>\n\n<p>O OCR 2 n\u00e3o \u00e9 apenas uma atualiza\u00e7\u00e3o de desempenho. Ele representa uma mudan\u00e7a fundamental na forma como a IA processa a l\u00f3gica visual. Ao usar uma arquitetura de modelo de linguagem para codifica\u00e7\u00e3o visual, o DeepSeek aumentou a profundidade com que a IA compreende dados complexos. Acredito que esses esfor\u00e7os demonstram um alto n\u00edvel de vis\u00e3o de futuro. Esse m\u00e9todo de organizar informa\u00e7\u00f5es em um n\u00edvel fundamental permite que a IA leia de uma maneira mais semelhante \u00e0 l\u00f3gica humana e fornece um novo padr\u00e3o para extra\u00e7\u00e3o precisa de dados no futuro.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<\/div>","protected":false},"excerpt":{"rendered":"<p>Em 27 de janeiro, a DeepSeek lan\u00e7ou o OCR 2 como um modelo de c\u00f3digo aberto. Ap\u00f3s analisar o relat\u00f3rio t\u00e9cnico, acredito que isso representa uma mudan\u00e7a sistem\u00e1tica na forma como a IA compreende dados visuais. Em vez de simplesmente aumentar o n\u00famero de par\u00e2metros, a DeepSeek focou em mudan\u00e7as arquitet\u00f4nicas fundamentais para melhorar o desempenho al\u00e9m dos limites dos Modelos de Vis\u00e3o-Linguagem (VLMs) tradicionais. DeepSeek [\u2026]<\/p>","protected":false},"author":25,"featured_media":23099,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[138],"tags":[],"class_list":["post-23097","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog"],"acf":[],"_links":{"self":[{"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/posts\/23097","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/users\/25"}],"replies":[{"embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/comments?post=23097"}],"version-history":[{"count":0,"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/posts\/23097\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/media\/23099"}],"wp:attachment":[{"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/media?parent=23097"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/categories?post=23097"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/pt\/wp-json\/wp\/v2\/tags?post=23097"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}