{"id":23097,"date":"2026-01-29T19:43:28","date_gmt":"2026-01-29T11:43:28","guid":{"rendered":"https:\/\/iwea.deeptracker.ai\/?p=23097"},"modified":"2026-01-29T19:47:16","modified_gmt":"2026-01-29T11:47:16","slug":"deepseek-ocr2-deep-dive-how-deploy","status":"publish","type":"post","link":"https:\/\/iwea.deeptracker.ai\/it\/blog\/deepseek-ocr2-deep-dive-how-deploy\/","title":{"rendered":"DeepSeek OCR 2 Deep Dive: come estrarre con precisione tabelle complesse e documenti multicolonna (una guida pratica)"},"content":{"rendered":"<div data-elementor-type=\"wp-post\" data-elementor-id=\"23097\" class=\"elementor elementor-23097\" data-elementor-post-type=\"post\">\n\t\t\t\t<div class=\"elementor-element elementor-element-511dc79e e-flex e-con-boxed e-con e-parent\" data-id=\"511dc79e\" data-element_type=\"container\">\n\t\t\t\t\t<div class=\"e-con-inner\">\n\t\t\t\t<div class=\"elementor-element elementor-element-1ed5e4a2 elementor-widget elementor-widget-text-editor\" data-id=\"1ed5e4a2\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t\t\t\t\t\t\n<p>Il 27 gennaio, DeepSeek ha rilasciato OCR 2 come modello open source. Dopo aver analizzato il loro <a href=\"https:\/\/huggingface.co\/deepseek-ai\/DeepSeek-OCR-2\" rel=\"nofollow noopener\" target=\"_blank\"><mark class=\"has-inline-color has-vivid-cyan-blue-color\" style=\"background-color: rgba(0, 0, 0, 0);\">rapporto tecnico<\/mark><\/a>Credo che questo rappresenti un cambiamento sistematico nel modo in cui l&#039;IA interpreta i dati visivi. Invece di limitarsi ad aumentare il numero di parametri, DeepSeek si \u00e8 concentrato su cambiamenti architetturali fondamentali per migliorare le prestazioni oltre i limiti dei tradizionali modelli di linguaggio visivo (VLM).<\/p>\n\n<h2 class=\"wp-block-heading\">DeepSeek OCR 2 \u00e8 pi\u00f9 di un semplice riconoscimento del testo<\/h2>\n\n<p>DeepSeek OCR 2 \u00e8 un modello di linguaggio visivo di nuova generazione con 3 miliardi di parametri. Si differenzia significativamente dagli strumenti tradizionali come Tesseract o dai modelli visivi di base. OCR 2 si pone due obiettivi specifici:<\/p>\n\n<ul class=\"wp-block-list\">\n<li><strong>Ordine di lettura corretto:<\/strong> Mantiene la sequenza corretta per il testo multicolonna, le note a pi\u00e8 di pagina e la relazione tra intestazioni e corpo del testo.<\/li>\n\n<li><strong>Struttura di layout stabile:<\/strong> Garantisce che tabelle, elenchi e contenuti misti siano formattati in strutture utilizzabili.<\/li>\n<\/ul>\n\n<p>Se \u00e8 necessario elaborare scansioni PDF per l&#039;inserimento in database, pulire dati per sistemi RAG o analizzare report finanziari complessi, OCR 2 garantisce un elevato livello di accuratezza e ricostruzione logica.<\/p>\n\n<h2 class=\"wp-block-heading\">Innovazione architettonica: perch\u00e9 DeepSeek OCR 2 \u00e8 cos\u00ec efficiente?<\/h2>\n\n<h3 class=\"wp-block-heading\">Sostituzione di CLIP con un modello linguistico<\/h3>\n\n<p>La maggior parte dei modelli visivi pi\u00f9 datati utilizza CLIP come componente di elaborazione delle immagini. CLIP \u00e8 stato progettato per abbinare le immagini alle etichette di testo. Tuttavia, non \u00e8 in grado di comprendere la relazione logica tra le diverse parti di un documento complesso.<\/p>\n\n<p><strong>Il DeepSeek <\/strong><strong>Soluzione<\/strong><strong>:<\/strong> Hanno usato <strong>Qwen2-0.5B<\/strong> (un&#039;architettura basata su LLM) come nucleo del codificatore di visione.<\/p>\n\n<p><strong>Il vantaggio:<\/strong> Poich\u00e9 il codificatore si basa su un modello linguistico, i token visivi hanno una capacit\u00e0 di ragionamento di base durante la fase iniziale. Il modello pu\u00f2 identificare quali pixel appartengono a un&#039;intestazione e quali appartengono a un limite di tabella, il che consente un&#039;elaborazione dei dati pi\u00f9 accurata.<\/p>\n\n<figure class=\"wp-block-image size-large\"><img fetchpriority=\"high\" decoding=\"async\" width=\"1024\" height=\"564\" class=\"wp-image-23098\" src=\"https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-1024x564.webp\" alt=\"\" srcset=\"https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-1024x564.webp 1024w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-300x165.webp 300w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-768x423.webp 768w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-1536x846.webp 1536w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-2048x1129.webp 2048w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-18x10.webp 18w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<h3 class=\"wp-block-heading\">DeepEncoder V2 e flusso causale visivo<\/h3>\n\n<p>Questa \u00e8 la svolta tecnica pi\u00f9 significativa di OCR 2. Molti modelli elaborano le immagini in una griglia fissa, dall&#039;alto a sinistra al basso a destra. Questo ordine fisso causa spesso errori quando il modello incontra tabelle complesse o pagine multicolonna.<\/p>\n\n<p><strong>Il DeepSeek <\/strong><strong>Soluzione<\/strong><strong>:<\/strong> Hanno aggiunto <strong>Flusso causale visivo<\/strong> al componente DeepEncoder V2:<\/p>\n\n<ol class=\"wp-block-list\" start=\"1\">\n<li>Il modello raccoglie innanzitutto le informazioni globali dell&#039;intera pagina.<\/li>\n\n<li>Utilizza query apprendibili per riordinare i token visivi.<\/li>\n\n<li>Invia questa sequenza organizzata logicamente al decoder per generare il testo.<\/li>\n<\/ol>\n\n<p>Ci\u00f2 consente al modello di raccogliere informazioni in base al significato effettivo dei dati. Poich\u00e9 le informazioni vengono organizzate in base al layout e alla semantica durante la fase di codifica, l&#039;output finale \u00e8 molto stabile.<\/p>\n\n<figure class=\"wp-block-table\">\n<table class=\"has-fixed-layout\">\n<tbody>\n<tr>\n<td>Metrico<\/td>\n<td>Modelli OCR tradizionali<\/td>\n<td>DeepSeek OCR 2<\/td>\n<\/tr>\n<tr>\n<td>Errore nell&#039;ordine di lettura<\/td>\n<td>Alto (ha difficolt\u00e0 con le colonne)<\/td>\n<td>Significativamente inferiore (la distanza di modifica \u00e8 scesa a 0,057)<\/td>\n<\/tr>\n<tr>\n<td>Compressione token<\/td>\n<td>Basso (migliaia di token per pagina)<\/td>\n<td>Molto alto (256 \u2013 1120 token per pagina)<\/td>\n<\/tr>\n<tr>\n<td>Stabilit\u00e0\/Precisione<\/td>\n<td>Tendente a ripetizioni o errori<\/td>\n<td>Precisione 97% (a compressione 10x)<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/figure>\n\n<h3 class=\"wp-block-heading\">Spostare la codifica visiva verso il ragionamento<\/h3>\n\n<p>Gli esperti descrivono OCR 2 come un &quot;codificatore visivo basato su modelli linguistici&quot;. Ci\u00f2 significa che il codificatore si concentra sulle relazioni spaziali e sulle informazioni strutturali anzich\u00e9 limitarsi a estrarre le caratteristiche visive di base.<\/p>\n\n<p><strong>I risultati:<\/strong><\/p>\n\n<p>Nel test professionale OmniDocBench v1.5, OCR 2 ha ottenuto un punteggio di 91,09. Si tratta di un miglioramento di 3,73 punti rispetto alla versione precedente. La maggior parte dei progressi si \u00e8 verificata nell&#039;accuratezza degli ordini di lettura e nella gestione di layout complessi.<\/p>\n\n<h2 class=\"wp-block-heading\">Come utilizzare DeepSeek OCR 2: 3 metodi di distribuzione rapida<\/h2>\n\n<p>DeepSeek ha rilasciato i pesi del modello su Hugging Face. \u00c8 possibile utilizzare questi tre metodi per accedere al modello per la produzione o la ricerca:<\/p>\n\n<h3 class=\"wp-block-heading\">Metodo 1: FastFine-Tuning tramite <a href=\"https:\/\/unsloth.ai\/docs\/models\/deepseek-ocr-2\" rel=\"nofollow noopener\" target=\"_blank\"><mark class=\"has-inline-color has-vivid-cyan-blue-color\" style=\"background-color: rgba(0, 0, 0, 0);\">Non-indolenza<\/mark><\/a>(Raccomandato)<\/h3>\n\n<p>Unsloth \u00e8 ottimizzato per OCR 2 e riduce significativamente l&#039;utilizzo della memoria.<\/p>\n\n<pre class=\"wp-block-code\"><code><em>da unsloth import FastVisionModel import torch # Carica il modello model, tokenizer = FastVisionModel.from_pretrained( &quot;unsloth\/DeepSeek-OCR-2&quot;, load_in_4bit = True, # Usa la quantizzazione a 4 bit per risparmiare memoria) # Prompt template prompt = &quot; \\n&lt;|grounding|&gt;Converti questo documento in Markdown ed estrai tutte le tabelle.&quot;<\/em><\/code><\/pre>\n\n<h3 class=\"wp-block-heading\">Metodo 2: inferenza ad alte prestazioni con vLLM<\/h3>\n\n<p>Questa \u00e8 la scelta migliore per le organizzazioni che devono gestire molte richieste contemporaneamente.<\/p>\n\n<ul class=\"wp-block-list\">\n<li><strong>Impostazioni:<\/strong> DeepSeek consiglia di impostare il <em><code>temperatura<\/code><\/em> a 0,0 per risultati pi\u00f9 coerenti.<\/li>\n\n<li><strong>Supporto linguistico:<\/strong> \u00c8 possibile specificare la lingua di destinazione nel prompt. Sono supportate oltre 100 lingue.<\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Metodo 3: Trasformatori standard per il viso abbracciato<\/h3>\n\n<p>Per la massima flessibilit\u00e0, utilizzare la libreria standard:<\/p>\n\n<ol class=\"wp-block-list\" start=\"1\">\n<li>Installa i requisiti: <em><code>pip install transformers einops addict easydict<\/code><\/em>.<\/li>\n\n<li>Carica il modello: <em><code>AutoModel.from_pretrained(&quot;deepseek-ai\/DeepSeek-OCR-2&quot;, trust_remote_code=True)<\/code><\/em>.<\/li>\n<\/ol>\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><strong>Mancia:<\/strong> Quando si elaborano scansioni inclinate, ruotare l&#039;immagine di soli 0,5 gradi per raddrizzarla pu\u00f2 aiutare il modello a produrre risultati ancora migliori.<\/p>\n<\/blockquote>\n\n<p>Dalla mia osservazione a lungo termine del settore dell&#039;intelligenza artificiale, DeepSeek ha costantemente agito come pioniere nell&#039;ottimizzazione degli algoritmi di base. Ho notato che il loro <a href=\"https:\/\/iwea.deeptracker.ai\/it\/blog\/deepseek-ocr-vision-language-model\/\"><mark class=\"has-inline-color has-vivid-cyan-blue-color\" style=\"background-color: rgba(0, 0, 0, 0);\">primo modello OCR<\/mark><\/a> nell&#039;ottobre 2025 ha gi\u00e0 utilizzato la compressione dei token per migliorare l&#039;efficienza.<\/p>\n\n<p>OCR 2 non \u00e8 solo un aggiornamento delle prestazioni. Rappresenta un cambiamento fondamentale nel modo in cui l&#039;intelligenza artificiale elabora la logica visiva. Utilizzando un&#039;architettura basata su un modello linguistico per la codifica visiva, DeepSeek ha aumentato la profondit\u00e0 con cui l&#039;intelligenza artificiale comprende dati complessi. Credo che questi sforzi dimostrino un alto livello di lungimiranza. Questo metodo di organizzazione delle informazioni a livello fondamentale consente all&#039;intelligenza artificiale di leggere in un modo pi\u00f9 simile alla logica umana e fornisce un nuovo standard per l&#039;estrazione accurata dei dati in futuro.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<\/div>","protected":false},"excerpt":{"rendered":"<p>Il 27 gennaio, DeepSeek ha rilasciato OCR 2 come modello open source. Dopo aver analizzato il loro rapporto tecnico, ritengo che ci\u00f2 rappresenti un cambiamento sistematico nel modo in cui l&#039;intelligenza artificiale interpreta i dati visivi. Invece di limitarsi ad aumentare il numero di parametri, DeepSeek si \u00e8 concentrata su modifiche architetturali fondamentali per migliorare le prestazioni oltre i limiti dei tradizionali modelli di linguaggio visivo (VLM). DeepSeek [\u2026]<\/p>","protected":false},"author":25,"featured_media":23099,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[138],"tags":[],"class_list":["post-23097","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog"],"acf":[],"_links":{"self":[{"href":"https:\/\/iwea.deeptracker.ai\/it\/wp-json\/wp\/v2\/posts\/23097","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/iwea.deeptracker.ai\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/iwea.deeptracker.ai\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/it\/wp-json\/wp\/v2\/users\/25"}],"replies":[{"embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/it\/wp-json\/wp\/v2\/comments?post=23097"}],"version-history":[{"count":0,"href":"https:\/\/iwea.deeptracker.ai\/it\/wp-json\/wp\/v2\/posts\/23097\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/it\/wp-json\/wp\/v2\/media\/23099"}],"wp:attachment":[{"href":"https:\/\/iwea.deeptracker.ai\/it\/wp-json\/wp\/v2\/media?parent=23097"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/it\/wp-json\/wp\/v2\/categories?post=23097"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/it\/wp-json\/wp\/v2\/tags?post=23097"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}