Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
| ocr [Le 13/07/2017, 19:49] – [Moteurs dont le développement est arrêté] Rectif sur cuneiform suite discussion sur la mail-list fabux | ocr [Le 02/10/2025, 21:41] (Version actuelle) – [Cuneiform] 95.173.222.49 | ||
|---|---|---|---|
| Ligne 1: | Ligne 1: | ||
| - | {{tag>precise | + | {{tag> |
| ---- | ---- | ||
| Ligne 9: | Ligne 9: | ||
| Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d' | Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d' | ||
| - | Pour le moment, la ROC (ou OCR) n'est pas un des domaines les plus avancés sous GNU/ | + | Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir. |
| Voir également : | Voir également : | ||
| - | * Les solutions de [[ged|Gestion Électronique des Documents (GED)]] | + | * Les solutions de [[:ged|Gestion Électronique des Documents (GED)]] |
| ===== Logiciels d'OCR pour GNU/Linux (utilisables en ligne de commande) ===== | ===== Logiciels d'OCR pour GNU/Linux (utilisables en ligne de commande) ===== | ||
| - | ==== gocr ==== | ||
| - | http:// | ||
| - | * **les plus :** | + | ====Cuneiform |
| - | -Empaqueté pour ubuntu ([[: | + | <note important> |
| - | -Reconnaît les fichiers png ; | + | |
| - | -Aide correcte ; | + | |
| - | -Facile à utiliser ; | + | |
| - | -Interface graphique: **[[apt> | + | |
| - | -La reconnaissance optique est fonctionnelle sur des fichiers images pour lesquelles tesseract ne donne aucun résultat. Par exemple une capture d' | + | |
| - | * **les moins :** | + | |
| - | -Le résultat est loin d' | + | |
| - | -Last update March 29, 2001 | + | |
| - | ==== OCRopus | + | |
| - | [[OCRopus]] (page détaillée) : ROC avec prise en compte | + | [[https:// |
| - | Tesseract by default anymore.]])) | + | |
| - | Site officiel : https:// | + | Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https:// |
| - | ==== tesseract-ocr ==== | + | Une application avec une interface graphique a également été développée : [[https:// |
| - | Voir la page [[:tesseract-ocr]] pour plus d' | + | Voir la [[http:// |
| - | * **les plus :** | + | Pour l' |
| - | -empaqueté pour ubuntu ([[: | + | |
| - | -très bonne performance si l' | + | |
| - | -accepte beaucoup de format d' | + | |
| - | -gère plusieurs langues dont le français (avec les accents) dans les versions 2 ou postérieures (paquets disponibles dans Universe) ; | + | |
| - | -possibilité de lui apprendre un nouveau jeu de caractères dans sa dernière version ; | + | |
| - | -gestion de plusieurs jeux de caractères simultanés ; | + | |
| - | -peut être utilisé dans les interfaces graphiques XSane (via les adaptateurs xsane2tess ou ocube) et gscan2pdf, disponibles sous Hardy et suivants. | + | |
| - | * **les moins :** | + | Il est aussi possible |
| - | -problème | + | <file bash># |
| - | ==== Moteurs dont le développement est arrêté ==== | + | printf %s " |
| - | === cuneiform | + | while read -r arg |
| + | do | ||
| + | convert -colorspace GRAY " | ||
| + | cuneiform | ||
| + | rm tmp.tiff | ||
| + | done</ | ||
| - | Le projet est en attente de nouveaux développeurs depuis mai 2011. [[https:// | + | Il peut être utilisé dans l' |
| - | [[http:// | ||
| - | Voir la [[http:// | + | ==== OCRopus ==== |
| - | * **les plus :** | + | [[OCRopus]] (page détaillée) : ROC avec prise en compte |
| - | - empaqueté pour Ubuntu ([[: | + | |
| - | * **les moins :** | + | |
| - | - ? | + | |
| - | < | + | |
| - | < | + | |
| - | printf %s " | + | ==== Tesseract-ocr ==== |
| - | while read -r arg | + | |
| - | do | + | Voir la page [[: |
| - | convert | + | Pour l' |
| - | cuneiform -l fra -f rtf -o $arg.rtf tmp.tiff | + | Donne de très bons résultats si l' |
| - | rm tmp.tiff | + | * Accepte beaucoup de format d' |
| - | done</ | + | * Gère plusieurs langues dont le français (avec les accents) ; |
| - | </ | + | * Possibilité de lui apprendre un nouveau jeu de caractères dans sa dernière version ; |
| + | * Gestion de plusieurs jeux de caractères simultanés ; | ||
| + | * Peut être utilisé dans les interfaces graphiques [[:XSane]] (via les adaptateurs [[: | ||
| + | |||
| + | ==== Gocr ==== | ||
| + | Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d' | ||
| - | === Ocrad === | + | Installez le paquet **[[apt>gocr]]** et **[[apt> |
| - | [[http:// | + | * Reconnaît les fichiers png ; |
| + | * Aide correcte. | ||
| - | * **les plus :** | + | [[http://jocr.sourceforge.net/ |
| - | - empaqueté pour Ubuntu ([[: | + | |
| - | - présence d'une aide. | + | |
| - | * **les moins :** | + | |
| - | - résultat très médiocre et non utilisable.\\ (FIXME à vérifier, car on obtient de bons résultats avec Kooka utilisant ocrad : voir ci-dessous) | + | |
| - | ===== Interfaces graphiques ===== | + | ==== Ocrad ==== |
| + | [[http:// | ||
| + | Pour l' | ||
| + | Cependant, les résultat sont médiocres par rapport aux autres moteurs. Peut s' | ||
| - | Il n' | ||
| - | ==== xsane ==== | ||
| - | [[:Xsane]] (page détaillée) est une application graphique très complète pour scanner, qui utilise **gocr** ou **tesseract** ou **cuneiform**. | ||
| - | === xsane mode d' | ||
| - | Testé sous Hardy, Intrepid, Jaunty, Lucid (avec cunéiform), Oneiric | + | ===== Interfaces graphiques ===== |
| + | |||
| + | ==== OCRthyPDF-Essentials ==== | ||
| + | **(en)** [[https:// | ||
| - | == Pré-requis == | ||
| - | * Avoir [[: | ||
| - | * ou pour utiliser le moteur de ROC tesseract avec XSane, suivre les indications de la page [[: | ||
| - | == Méthode | + | ==== Xsane ==== |
| + | [[:Xsane]] (page détaillée) est une application graphique très complète pour scanner, qui utilise **gocr**, **tesseract** ou **cuneiform**.\\ | ||
| + | Pour utiliser la ROC il faudra avoir [[: | ||
| - | | + | Pour faire de la ROC avec Xsane il faut : |
| + | | ||
| * pour **gocr** avec la reconnaissance des caractères accentués < | * pour **gocr** avec la reconnaissance des caractères accentués < | ||
| - | * pour **tesseract** <code > | + | * pour **tesseract** <code > |
| - | * pour **cuneiform** <code > | + | * pour **cuneiform** <code > |
| - | * dans XSane : // | + | * dans la zone à droite de la cible, sélectionner |
| - | * dans la zone à droite de la cible, sélectionner | + | * dans //Type//, sélectionner |
| - | * dans "Type", sélectionner | + | * dans le sélecteur couleur ou N/B, sélectionner |
| - | * dans le sélecteur couleur ou N/B, sélectionner | + | |
| - | et en-dessous, sélectionner la résolution qui convient (pour obtenir les meilleurs résultats, les avis divergent entre 300 et 600 ppi ; un test fait sur des textes écrits en polices 10 et 12 //Arial//, //Times New Roman// et //Courier 10 Pitch// donne les meilleurs résultats en 300 ppi). | + | |
| - | | {{ xsane_0.97-2.png }} | {{ xsane_0.97.png }} | | + | {{ Xsane_roc.png?350 }} |
| - | | //Captures d' | + | |
| - | La disposition des divers éléments diffère légèrement avec les versions suivantes de Xsane sous Hardy, Intrepid et Jaunty, mais le principe est le même.// || | + | |
| - | Ensuite : | + | Ensuite : |
| - | - dans la fenêtre | + | - dans la fenêtre |
| - recadrer sur la zone de texte à scanner ; | - recadrer sur la zone de texte à scanner ; | ||
| - | - XSane va enregistrer le résultat dans un fichier texte, par défaut sur votre bureau ou dans " | + | - XSane va enregistrer le résultat dans un fichier texte, par défaut sur votre bureau ou dans votre **Dossier personnel** |
| - | - cliquer sur "numériser" et attendre le " | + | - cliquer sur "Numériser" et attendre le " |
| - | - copier-coller le contenu du fichier texte dans un fichier ouvert avec un traitement de texte (OOo Writer ou autre) | + | - copier-coller le contenu du fichier texte dans un fichier ouvert avec un [[: |
| - terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte. | - terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte. | ||
| - | cuneiform est le moteur (voir plus haut), paramétré sous xsane qui a donné les meilleurs résultats, reconnaissance optique presque parfaite, avec une détection excellente des colonnes. | + | cuneiform est le moteur (voir plus haut), paramétré sous Xsane qui a donné les meilleurs résultats, reconnaissance optique presque parfaite, avec une détection excellente des colonnes. |
| ==== gscan2pdf ==== | ==== gscan2pdf ==== | ||
| Interface graphique permettant notamment de réaliser de la Reconnaissance Optique de Caractères avec les moteurs **gocr** et **tesseract**. Son développement dynamique lui permet d' | Interface graphique permettant notamment de réaliser de la Reconnaissance Optique de Caractères avec les moteurs **gocr** et **tesseract**. Son développement dynamique lui permet d' | ||
| - | |||
| - | gscan2pdf est présent dans les dépôts. | ||
| Voir chapitre utilisation de la page détaillée [[: | Voir chapitre utilisation de la page détaillée [[: | ||
| Ligne 136: | Ligne 114: | ||
| ==== OCRFeeder ==== | ==== OCRFeeder ==== | ||
| - | Il est présent dans les dépôts (Ubuntu Precise 12.04 LTS et 14.04 LTS). | + | OCRFeeder |
| - | Interface graphique simple, permettant | + | Attention, le paquet tesseract est installé pour la reconnaissance |
| - | Attention, le paquet tesseract est installé pour la reconnaissance de l' | + | <note important> |
| Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois). | Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois). | ||
| - | * **les plus :** | + | [[: |
| - | - empaqueté pour Ubuntu ([[: | + | Ce qu'il sait faire : |
| - | - permet de sélectionner | + | * Sélectionner |
| - | - permet de voir côte à côte l' | + | * Voir côte à côte l' |
| - | - détecte | + | * Détecte |
| - | - dispose | + | * Dispose |
| - | - supprime | + | * Supprime |
| - | - export | + | * Export |
| - | * **les moins :** | + | |
| - | | + | Ce qu' |
| - | < | + | * La rotation de l' |
| - | ==== ocrgui ==== | ||
| - | [[http:// | ||
| ==== Skanlite ==== | ==== Skanlite ==== | ||
| Ligne 165: | Ligne 141: | ||
| Voir la page dédiée : | Voir la page dédiée : | ||
| ==== xsane2tess ==== | ==== xsane2tess ==== | ||
| - | Testé sous Precise 12.04. | + | [[xsane2tess]]: |
| - | + | ||
| - | *[[xsane2tess]]: | + | |
| ==== gImageReader ==== | ==== gImageReader ==== | ||
| - | + | [[gimagereader|gImageReader]] | |
| - | Site du logiciel : [[https:// | + | |
| - | + | ||
| - | Facile et simple d' | + | |
| - | + | ||
| - | Une interface graphique | + | |
| - | + | ||
| - | http:// | + | |
| - | + | ||
| - | Pour avoir la reconnaissance du français : installer | + | |
| - | + | ||
| - | Fonctionnalités (recopiées et traduites du site officiel - version 0.9 de mars 2011 - info au 19/ | + | |
| - | -Traite images et fichiers PDF | + | |
| - | -Acquisition depuis scanner | + | |
| - | -Sélection des parties de l' | + | |
| - | -Supporte différentes langues | + | |
| - | -Comparaison cote à cote de la source et du résultat | + | |
| - | -Supprime les saut de lignes dans le texte résultant | + | |
| - | -Supporte tesseract 3.0 | + | |
| - | + | ||
| - | A l' | + | |
| - | + | ||
| - | - prise en charge des dictionnaires myspell | + | |
| - | + | ||
| - | - lecture des lignes tordues. | + | |
| - | + | ||
| - | - interface graphique ergonomique | + | |
| - | + | ||
| - | - fonctionne sous Ubuntu 12.04 | + | |
| - | + | ||
| - | + | ||
| ==== YAGF ==== | ==== YAGF ==== | ||
| - | * [[YAGF]] est une interface graphique pour [[# | + | [[YAGF]] est une interface graphique pour [[# |
| - | + | ||
| - | * **(en)** [[http:// | + | |
| + | **(en)** [[https:// | ||
| + | ==== LIOS ==== | ||
| + | Lios est une interface graphique pour [[# | ||
| + | * [[: | ||
| + | * puis [[: | ||
| + | * puis installez le paquet **[[apt> | ||
| =====OCR en ligne===== | =====OCR en ligne===== | ||
| - | ====Free OCR==== | + | Voir les solutions de [[: |
| - | Le site [[http:// | + | |
| - | + | ||
| - | Points forts : | + | |
| - | * gratuit | + | |
| - | * performant | + | |
| - | * gère plusieurs langues | + | |
| - | * reconnait les textes en colonne | + | |
| - | + | ||
| - | Points faibles : | + | |
| - | * nécessité d' | + | |
| - | * on ne peut faire reconnaître que dix pages ( 2 Mo maximum ). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer | + | |
| - | + | ||
| - | Voir également : | + | |
| - | * Les solutions de [[: | + | |
| ====WatchOCR - Server PDF et OCR du contenu==== | ====WatchOCR - Server PDF et OCR du contenu==== | ||
| Ligne 233: | Ligne 166: | ||
| ===== Programmes Windows utilisables sous GNU/Linux via Wine ===== | ===== Programmes Windows utilisables sous GNU/Linux via Wine ===== | ||
| - | Simple OCR : image non PDF | + | |
| ==== SimpleOCR ==== | ==== SimpleOCR ==== | ||
| - | * [[http://appdb.winehq.org/appview.php? | + | * [[https://www.01net.com/telecharger/ |
| Non libre mais gratuit. Basé sur WOCAR | Non libre mais gratuit. Basé sur WOCAR | ||
| , image non PDF | , image non PDF | ||
| Ligne 242: | Ligne 175: | ||
| ==== WebOCR ==== | ==== WebOCR ==== | ||
| - | * [[http:// | + | * [[https:// |
| ==== Recognita ==== | ==== Recognita ==== | ||
| Ligne 250: | Ligne 183: | ||
| ==== ReadIris ==== | ==== ReadIris ==== | ||
| - | [[http:// | + | [[https:// |
| ==== ABBY FineReader 8.0 OCR ==== | ==== ABBY FineReader 8.0 OCR ==== | ||
| Ligne 259: | Ligne 192: | ||
| ==== Cellwriter (GNU/Linux) ==== | ==== Cellwriter (GNU/Linux) ==== | ||
| - | * [[cellwriter|CellWriter: | + | [[:cellwriter|CellWriter: |
| - | ==== Xstroke (GNU/Linux) ==== | ||
| - | * [[http:// | ||
| ==== Myscript (GNU/Linux et win) ==== | ==== Myscript (GNU/Linux et win) ==== | ||
| - | * [[http:// | + | * [[https:// |
| - | * [[http:// | + | * [[https:// |
| - | Non libre, [[http:// | + | Non libre, [[http:// |
| - | + | ||
| - | ==== CalliGrapher (win) ==== | + | |
| - | + | ||
| - | * [[http:// | + | |
| - | + | ||
| - | Non libre, version d' | + | |
| ===== Voir aussi ===== | ===== Voir aussi ===== | ||
| - | * [[http:// | + | * [[https:// |
| ---- | ---- | ||
| - | // | + | // |
