{"id":23097,"date":"2026-01-29T19:43:28","date_gmt":"2026-01-29T11:43:28","guid":{"rendered":"https:\/\/iwea.deeptracker.ai\/?p=23097"},"modified":"2026-01-29T19:47:16","modified_gmt":"2026-01-29T11:47:16","slug":"deepseek-ocr2-deep-dive-how-deploy","status":"publish","type":"post","link":"https:\/\/iwea.deeptracker.ai\/fr\/blog\/deepseek-ocr2-deep-dive-how-deploy\/","title":{"rendered":"DeepSeek OCR 2 : Analyse approfondie\u00a0: Comment extraire avec pr\u00e9cision des tableaux complexes et des documents \u00e0 plusieurs colonnes (Guide pratique)"},"content":{"rendered":"<div data-elementor-type=\"wp-post\" data-elementor-id=\"23097\" class=\"elementor elementor-23097\" data-elementor-post-type=\"post\">\n\t\t\t\t<div class=\"elementor-element elementor-element-511dc79e e-flex e-con-boxed e-con e-parent\" data-id=\"511dc79e\" data-element_type=\"container\">\n\t\t\t\t\t<div class=\"e-con-inner\">\n\t\t\t\t<div class=\"elementor-element elementor-element-1ed5e4a2 elementor-widget elementor-widget-text-editor\" data-id=\"1ed5e4a2\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t\t\t\t\t\t\n<p>Le 27 janvier, DeepSeek a publi\u00e9 OCR 2 en tant que mod\u00e8le open source. Apr\u00e8s avoir analys\u00e9 leurs <a href=\"https:\/\/huggingface.co\/deepseek-ai\/DeepSeek-OCR-2\" rel=\"nofollow noopener\" target=\"_blank\"><mark class=\"has-inline-color has-vivid-cyan-blue-color\" style=\"background-color: rgba(0, 0, 0, 0);\">rapport technique<\/mark><\/a>Je pense que cela repr\u00e9sente un changement syst\u00e9mique dans la fa\u00e7on dont l&#039;IA appr\u00e9hende les donn\u00e9es visuelles. Au lieu de simplement augmenter le nombre de param\u00e8tres, DeepSeek s&#039;est concentr\u00e9 sur des modifications architecturales fondamentales afin d&#039;am\u00e9liorer les performances au-del\u00e0 des limites des mod\u00e8les vision-langage (VLM) traditionnels.<\/p>\n\n<h2 class=\"wp-block-heading\">DeepSeek OCR 2 est bien plus qu&#039;un simple logiciel de reconnaissance de texte.<\/h2>\n\n<p>DeepSeek OCR 2 est un mod\u00e8le vision-langage de nouvelle g\u00e9n\u00e9ration dot\u00e9 de 3 milliards de param\u00e8tres. Il se distingue nettement des outils traditionnels comme Tesseract ou des mod\u00e8les visuels de base. OCR 2 privil\u00e9gie deux objectifs sp\u00e9cifiques\u00a0:<\/p>\n\n<ul class=\"wp-block-list\">\n<li><strong>Ordre de lecture correct\u00a0:<\/strong> Il assure le maintien de la s\u00e9quence appropri\u00e9e pour les textes \u00e0 plusieurs colonnes, les notes de bas de page et la relation entre les titres et le corps du texte.<\/li>\n\n<li><strong>Structure de mise en page stable\u00a0:<\/strong> Il garantit que les tableaux, les listes et les contenus mixtes sont format\u00e9s en structures utilisables.<\/li>\n<\/ul>\n\n<p>Si vous devez traiter des num\u00e9risations PDF pour la saisie dans une base de donn\u00e9es, nettoyer des donn\u00e9es pour des syst\u00e8mes RAG ou analyser des rapports financiers complexes, OCR 2 offre un haut niveau de pr\u00e9cision et de reconstruction logique.<\/p>\n\n<h2 class=\"wp-block-heading\">Innovation architecturale : pourquoi DeepSeek OCR 2 est-il si efficace ?<\/h2>\n\n<h3 class=\"wp-block-heading\">Remplacer CLIP par un mod\u00e8le de langage<\/h3>\n\n<p>La plupart des anciens mod\u00e8les visuels utilisent CLIP comme composant de traitement d&#039;images. CLIP a \u00e9t\u00e9 con\u00e7u pour associer des images \u00e0 des \u00e9tiquettes textuelles. Cependant, il ne permet pas de comprendre la relation logique entre les diff\u00e9rentes parties d&#039;un document dense.<\/p>\n\n<p><strong>La Recherche Profonde <\/strong><strong>Solution<\/strong><strong>:<\/strong> Ils ont utilis\u00e9 <strong>Qwen2-0,5B<\/strong> (une architecture bas\u00e9e sur LLM) comme c\u0153ur de l&#039;encodeur de vision.<\/p>\n\n<p><strong>L&#039;avantage :<\/strong> L&#039;encodeur \u00e9tant bas\u00e9 sur un mod\u00e8le de langage, les jetons visuels poss\u00e8dent une capacit\u00e9 de raisonnement rudimentaire d\u00e8s la phase initiale. Le mod\u00e8le peut identifier les pixels appartenant \u00e0 un en-t\u00eate et ceux appartenant \u00e0 une bordure de tableau, ce qui permet un traitement des donn\u00e9es plus pr\u00e9cis.<\/p>\n\n<figure class=\"wp-block-image size-large\"><img fetchpriority=\"high\" decoding=\"async\" width=\"1024\" height=\"564\" class=\"wp-image-23098\" src=\"https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-1024x564.webp\" alt=\"\" srcset=\"https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-1024x564.webp 1024w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-300x165.webp 300w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-768x423.webp 768w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-1536x846.webp 1536w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-2048x1129.webp 2048w, https:\/\/iwea.deeptracker.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-18x10.webp 18w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<h3 class=\"wp-block-heading\">DeepEncoder V2 et flux causal visuel<\/h3>\n\n<p>Il s&#039;agit de l&#039;avanc\u00e9e technique la plus significative en mati\u00e8re de reconnaissance optique de caract\u00e8res (OCR) 2. De nombreux mod\u00e8les traitent les images selon une grille fixe, de haut en bas et de gauche \u00e0 droite. Cet ordre fixe est souvent source d&#039;erreurs lorsque le mod\u00e8le rencontre des tableaux complexes ou des pages \u00e0 plusieurs colonnes.<\/p>\n\n<p><strong>La Recherche Profonde <\/strong><strong>Solution<\/strong><strong>:<\/strong> Ils ont ajout\u00e9 <strong>Flux causal visuel<\/strong> au composant DeepEncoder V2\u00a0:<\/p>\n\n<ol class=\"wp-block-list\" start=\"1\">\n<li>Le mod\u00e8le commence par collecter les informations globales de la page enti\u00e8re.<\/li>\n\n<li>Il utilise des requ\u00eates apprenables pour r\u00e9organiser les jetons visuels.<\/li>\n\n<li>Il envoie cette s\u00e9quence organis\u00e9e logiquement au d\u00e9codeur pour g\u00e9n\u00e9rer du texte.<\/li>\n<\/ol>\n\n<p>Cela permet au mod\u00e8le de recueillir des informations en fonction du sens r\u00e9el des donn\u00e9es. Comme les informations sont organis\u00e9es selon une structure et une s\u00e9mantique pr\u00e9cises lors de l&#039;encodage, le r\u00e9sultat final est tr\u00e8s stable.<\/p>\n\n<figure class=\"wp-block-table\">\n<table class=\"has-fixed-layout\">\n<tbody>\n<tr>\n<td>M\u00e9trique<\/td>\n<td>Mod\u00e8les OCR traditionnels<\/td>\n<td>DeepSeek OCR 2<\/td>\n<\/tr>\n<tr>\n<td>Erreur d&#039;ordre de lecture<\/td>\n<td>\u00c9lev\u00e9 (difficult\u00e9s avec les colonnes)<\/td>\n<td>Nettement inf\u00e9rieur (distance d&#039;\u00e9dition r\u00e9duite \u00e0 0,057)<\/td>\n<\/tr>\n<tr>\n<td>Compression de jetons<\/td>\n<td>Faible (milliers de jetons par page)<\/td>\n<td>Tr\u00e8s \u00e9lev\u00e9 (256 \u00e0 1120 jetons par page)<\/td>\n<\/tr>\n<tr>\n<td>Stabilit\u00e9\/Pr\u00e9cision<\/td>\n<td>Sujet aux r\u00e9p\u00e9titions ou aux erreurs<\/td>\n<td>Pr\u00e9cision du 97% (\u00e0 une compression de 10x)<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/figure>\n\n<h3 class=\"wp-block-heading\">Faire \u00e9voluer l&#039;encodage visuel vers le raisonnement<\/h3>\n\n<p>Les experts d\u00e9crivent OCR 2 comme un \u00ab encodeur de vision pilot\u00e9 par un mod\u00e8le de langage \u00bb. Cela signifie que l&#039;encodeur se concentre sur les relations spatiales et les informations structurelles plut\u00f4t que sur la simple extraction de caract\u00e9ristiques visuelles de base.<\/p>\n\n<p><strong>Les r\u00e9sultats:<\/strong><\/p>\n\n<p>Lors du test professionnel OmniDocBench v1.5, OCR 2 a obtenu un score de 91,09, soit une am\u00e9lioration de 3,73 points par rapport \u00e0 la version pr\u00e9c\u00e9dente. Cette am\u00e9lioration est principalement due \u00e0 une meilleure pr\u00e9cision dans la lecture de l&#039;ordre des documents et la gestion des mises en page complexes.<\/p>\n\n<h2 class=\"wp-block-heading\">Comment utiliser DeepSeek OCR 2\u00a0: 3 m\u00e9thodes de d\u00e9ploiement rapides<\/h2>\n\n<p>DeepSeek a publi\u00e9 les poids du mod\u00e8le Hugging Face. Vous pouvez utiliser ces trois m\u00e9thodes pour acc\u00e9der au mod\u00e8le \u00e0 des fins de production ou de recherche\u00a0:<\/p>\n\n<h3 class=\"wp-block-heading\">M\u00e9thode 1\u00a0: R\u00e9glage fin rapide via <a href=\"https:\/\/unsloth.ai\/docs\/models\/deepseek-ocr-2\" rel=\"nofollow noopener\" target=\"_blank\"><mark class=\"has-inline-color has-vivid-cyan-blue-color\" style=\"background-color: rgba(0, 0, 0, 0);\">D\u00e9passer la paresse<\/mark><\/a>(Recommand\u00e9)<\/h3>\n\n<p>Unsloth est optimis\u00e9 pour OCR 2 et r\u00e9duit consid\u00e9rablement l&#039;utilisation de la m\u00e9moire.<\/p>\n\n<pre class=\"wp-block-code\"><code><em>from unsloth import FastVisionModel import torch # Charger le mod\u00e8le model, tokenizer = FastVisionModel.from_pretrained( &quot;unsloth\/DeepSeek-OCR-2&quot;, load_in_4bit = True, # Utiliser la quantification 4 bits pour \u00e9conomiser de la m\u00e9moire ) # Mod\u00e8le d&#039;invite prompt = &quot; Veuillez convertir ce document en Markdown et extraire tous les tableaux.<\/em><\/code><\/pre>\n\n<h3 class=\"wp-block-heading\">M\u00e9thode 2\u00a0: Inf\u00e9rence haute performance avec vLLM<\/h3>\n\n<p>C&#039;est le meilleur choix pour les organisations qui doivent traiter de nombreuses demandes simultan\u00e9ment.<\/p>\n\n<ul class=\"wp-block-list\">\n<li><strong>Param\u00e8tres:<\/strong> DeepSeek recommande de param\u00e9trer <em><code>temp\u00e9rature<\/code><\/em> \u00e0 0,0 pour des r\u00e9sultats plus coh\u00e9rents.<\/li>\n\n<li><strong>Prise en charge linguistique :<\/strong> Vous pouvez sp\u00e9cifier la langue cible dans l&#039;invite de commande. Plus de 100 langues sont prises en charge.<\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">M\u00e9thode 3\u00a0: Transformateurs de visage \u00e0 c\u00e2lins standard<\/h3>\n\n<p>Pour une flexibilit\u00e9 maximale, utilisez la biblioth\u00e8que standard\u00a0:<\/p>\n\n<ol class=\"wp-block-list\" start=\"1\">\n<li>Installez les pr\u00e9requis\u00a0: <em><code>pip install transformers einops addict easydict<\/code><\/em>.<\/li>\n\n<li>Charger le mod\u00e8le\u00a0: <em><code>AutoModel.from_pretrained(&quot;deepseek-ai\/DeepSeek-OCR-2&quot;, trust_remote_code=True)<\/code><\/em>.<\/li>\n<\/ol>\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><strong>Conseil:<\/strong> Lors du traitement de num\u00e9risations inclin\u00e9es, une rotation de l&#039;image de seulement 0,5 degr\u00e9 pour la redresser peut aider le mod\u00e8le \u00e0 produire des r\u00e9sultats encore meilleurs.<\/p>\n<\/blockquote>\n\n<p>D&#039;apr\u00e8s mon observation \u00e0 long terme du secteur de l&#039;IA, DeepSeek a toujours fait figure de pionnier dans l&#039;optimisation des algorithmes fondamentaux. J&#039;ai notamment constat\u00e9 que leur <a href=\"https:\/\/iwea.deeptracker.ai\/fr\/blog\/deepseek-ocr-vision-language-model\/\"><mark class=\"has-inline-color has-vivid-cyan-blue-color\" style=\"background-color: rgba(0, 0, 0, 0);\">premier mod\u00e8le OCR<\/mark><\/a> En octobre 2025, la compression des jetons \u00e9tait d\u00e9j\u00e0 utilis\u00e9e pour am\u00e9liorer l&#039;efficacit\u00e9.<\/p>\n\n<p>OCR 2 ne se limite pas \u00e0 une simple mise \u00e0 jour des performances. Il repr\u00e9sente un changement fondamental dans la mani\u00e8re dont l&#039;IA traite la logique visuelle. Gr\u00e2ce \u00e0 l&#039;utilisation d&#039;une architecture de mod\u00e8le de langage pour l&#039;encodage visuel, DeepSeek a permis \u00e0 l&#039;IA d&#039;approfondir sa compr\u00e9hension des donn\u00e9es complexes. Ces efforts t\u00e9moignent, \u00e0 mon sens, d&#039;une vision novatrice. Cette m\u00e9thode d&#039;organisation de l&#039;information \u00e0 un niveau fondamental permet \u00e0 l&#039;IA de lire d&#039;une mani\u00e8re plus proche de la logique humaine et \u00e9tablit une nouvelle norme pour l&#039;extraction pr\u00e9cise des donn\u00e9es.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<\/div>","protected":false},"excerpt":{"rendered":"<p>Le 27 janvier, DeepSeek a publi\u00e9 OCR 2 en tant que mod\u00e8le open source. Apr\u00e8s analyse de leur rapport technique, je pense que cela repr\u00e9sente un changement syst\u00e9mique dans la fa\u00e7on dont l&#039;IA appr\u00e9hende les donn\u00e9es visuelles. Au lieu de simplement augmenter le nombre de param\u00e8tres, DeepSeek s&#039;est concentr\u00e9 sur des modifications architecturales fondamentales afin d&#039;am\u00e9liorer les performances au-del\u00e0 des limites des mod\u00e8les vision-langage (VLM) traditionnels. DeepSeek [\u2026]<\/p>","protected":false},"author":25,"featured_media":23099,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[138],"tags":[],"class_list":["post-23097","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog"],"acf":[],"_links":{"self":[{"href":"https:\/\/iwea.deeptracker.ai\/fr\/wp-json\/wp\/v2\/posts\/23097","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/iwea.deeptracker.ai\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/iwea.deeptracker.ai\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/fr\/wp-json\/wp\/v2\/users\/25"}],"replies":[{"embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/fr\/wp-json\/wp\/v2\/comments?post=23097"}],"version-history":[{"count":0,"href":"https:\/\/iwea.deeptracker.ai\/fr\/wp-json\/wp\/v2\/posts\/23097\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/fr\/wp-json\/wp\/v2\/media\/23099"}],"wp:attachment":[{"href":"https:\/\/iwea.deeptracker.ai\/fr\/wp-json\/wp\/v2\/media?parent=23097"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/fr\/wp-json\/wp\/v2\/categories?post=23097"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/iwea.deeptracker.ai\/fr\/wp-json\/wp\/v2\/tags?post=23097"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}