Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
ocr [Le 13/09/2017, 08:22] 77.204.135.22ocr [Le 02/10/2025, 21:41] (Version actuelle) – [Cuneiform] 95.173.222.49
Ligne 17: Ligne 17:
  
 ====Cuneiform ==== ====Cuneiform ====
 +<note important>Le code ne semble pas avoir été mis à jour depuis 2011</note>
  
-[[http://cognitiveforms.com/ru/products_and_services/Cuneiform.html#1189-Cuneiform|cuneiform]] (en russe, ou en [[http://en.cognitiveforms.ru/products/cuneiform/|anglais]]) est un OCR multi-plateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, png, tiff,  Il peut exporter en format texte, html, rtf, et d'autres.+[[https://cuneiform.ru/eng/|cuneiform]] est un OCR multi-plateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, jpg, png, tiff,  Il peut exporter en format texte, html, rtf, et d'autres.
  
 Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://code.launchpad.net/cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://launchpad.net/cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue.  Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://code.launchpad.net/cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://launchpad.net/cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue. 
 +
 +Une application avec une interface graphique a également été développée : [[https://github.com/sibskull/cuneiform-qt|cuneiform-qt]].
  
 Voir la  [[http://wiki.ubuntuusers.de/Cuneiform-Linux?highlight=cuneiform#Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract. Voir la  [[http://wiki.ubuntuusers.de/Cuneiform-Linux?highlight=cuneiform#Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract.
Ligne 29: Ligne 32:
 <file bash>#!/bin/sh <file bash>#!/bin/sh
  
-printf %s "$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS"+printf %s "$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS" |
 while read -r arg while read -r arg
 do do
- convert -colorspace GRAY $arg tmp.tiff + convert -colorspace GRAY "$argtmp.tiff 
- cuneiform -l fra -f rtf -o $arg.rtf tmp.tiff+ cuneiform -l fra -f rtf -o "$arg".rtf tmp.tiff
  rm tmp.tiff  rm tmp.tiff
 done</file> done</file>
Ligne 56: Ligne 59:
  
 ==== Gocr ==== ==== Gocr ====
-Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'erreur par document. +Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'erreur par document.
  
 Installez le paquet **[[apt>gocr]]** et **[[apt>gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire : Installez le paquet **[[apt>gocr]]** et **[[apt>gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire :
   * Reconnaît les fichiers png ;   * Reconnaît les fichiers png ;
-  * Aide correcte +  * Aide correcte.
-   * La reconnaissance optique est fonctionnelle sur des fichiers images pour lesquelles tesseract ne donne aucun résultat. Par exemple une capture d'écran en mode console réalisée avec [[:fbgrab]].+
  
 [[http://jocr.sourceforge.net/|Site officiel]] [[http://jocr.sourceforge.net/|Site officiel]]
Ligne 73: Ligne 75:
  
 ===== Interfaces graphiques ===== ===== Interfaces graphiques =====
 +
 +==== OCRthyPDF-Essentials ====
 +**(en)** [[https://github.com/digidigital/OCRthyPDF-Essentials|OCRthyPDF-Essentials]] est une application directement installable depuis le centre d'applications.
 +
 +
  
 ==== Xsane ==== ==== Xsane ====
Ligne 79: Ligne 86:
  
 Pour faire de la ROC avec Xsane il faut : Pour faire de la ROC avec Xsane il faut :
-  * Choisir son moteur d'OCR : ouvrir Xsane et dans //Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par : +  * Choisir son moteur d'OCR : ouvrir Xsane et dans //Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par :
       * pour  **gocr** avec la reconnaissance des caractères accentués <code>gocr -f UTF8</code>       * pour  **gocr** avec la reconnaissance des caractères accentués <code>gocr -f UTF8</code>
-      * pour **tesseract** <code >xsane2tess  -l  fra</code>+      * pour **tesseract** <code >xsane2tess -l fra</code>
       * pour **cuneiform** <code >cuneiform -l fra</code>       * pour **cuneiform** <code >cuneiform -l fra</code>
   * dans la zone à droite de la cible, sélectionner //Enregistrer// ;   * dans la zone à droite de la cible, sélectionner //Enregistrer// ;
Ligne 111: Ligne 118:
 Attention, le paquet tesseract est installé pour la reconnaissance de l'anglais uniquement. Voir les paquet langues supplémentaires sur [[:tesseract-ocr]]. Attention, le paquet tesseract est installé pour la reconnaissance de l'anglais uniquement. Voir les paquet langues supplémentaires sur [[:tesseract-ocr]].
  
-<note important>OCRFeeder, après installation, ne se lance pas sous Linux Mint 18, ni sous Xubuntu 16.04. +<note important>OCRFeeder, après installation, ne se lance pas. Pour résoudre ce problèmeentrez la commande suivante dans un [[terminal]] : <code bash>sudo sed -i 's/ocrfeeder -i %f/ocrfeeder/' /usr/share/applications/ocrfeeder.desktop</code></note>
-Solution : installer l'éditeur de menu //alacarte//. Sous Xubuntul'éditeur de menu est déjà installé. +
-Éditer le raccourci de OCRFeeder : remplacer la commande "ocrfeeder -i %f" par "ocrfeeder"</note>+
  
 Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois). Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois).
Ligne 139: Ligne 144:
  
 ==== gImageReader ==== ==== gImageReader ====
- +[[gimagereader|gImageReader]] est une interface graphique très simple d'emploi pour **[[:tesseract-ocr|tesseract-ocr]]**.\\
-{{ gimagereader_xenial.png?450}} +
-[[https://github.com/manisandro/gImageReader|gImageReader]] est une interface graphique pour **tesseract-ocr** sous [[:Gnome]]. Il est très simple d'emploi.\\ +
-Pour l'utiliser, [[:tutoriel:comment_installer_un_paquet|installez le paquet]] ** [[apt>gimagereader]]** et pour avoir la reconnaissance du français le paquet **[[apt>tesseract-ocr-fra]]**. +
- +
- +
-Fonctionnalités : +
-    -Traite images et fichiers PDF, +
-    -Acquisition depuis scanner, +
-    -Sélection des parties de l'image à traiter, +
-    -Supporte différentes langues, +
-    -Comparaison cote à cote de la source et du résultat, +
-    -Supprime les saut de lignes dans le texte résultant, +
-    - prise en charge des dictionnaires myspell, +
-    - lecture des lignes tordues, +
-    - interface graphique ergonomique. +
  
 ==== YAGF ==== ==== YAGF ====
 [[YAGF]] est une interface graphique pour [[#cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#tesseract|tesseract]]. [[YAGF]] est une interface graphique pour [[#cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#tesseract|tesseract]].
  
-**(en)** [[http://symmetrica.net/cuneiform-linux/yagf-en.html|Site officiel du logiciel]]+**(en)** [[https://sourceforge.net/projects/yagf-ocr/|Site officiel du logiciel]]
  
  
 ==== LIOS ==== ==== LIOS ====
-Lios est une interface graphique pour [[#cuneiform]] et [[#tesseract]].Pour l'utiliser [[:tutoriel:comment_installer_un_paquet|installez le paquet]] **[[apt>lios]]**.+Lios est une interface graphique pour [[#cuneiform]] et [[#tesseract]]. Pour l'utiliser [[:tutoriel:comment_installer_un_paquet|installez le paquet]] **[[apt>lios]]**. Si vous souhaitez avoir la dernière version en français : 
 +  * [[:PPA|Ajouter le PPA]] **ppa:nalin-x-linux/lios**((https://launchpad.net/~nalin-x-linux/+archive/ubuntu/lios)) dans vos sources de logiciels;  
 +  * puis [[:tutoriel:comment_modifier_sources_maj#recharger_la_liste_des_paquets|rechargez la liste des paquets]], 
 +  * puis installez le paquet **[[apt>lios]]**.
 =====OCR en ligne===== =====OCR en ligne=====
  
-====Free OCR==== +Voir les solutions de [[:ged|Gestion Électronique des Documents (GED)]] 
-Le site [[http://www.free-ocr.com/|Free OCR]] permet de faire de la reconnaissance de caractères en ligne. Il est gratuit et utilise tesseract pour la reconnaissance.  +
- +
-Points forts : +
-  * gratuit +
-  * performant +
-  * gère plusieurs langues +
-  * reconnait les textes en colonne +
- +
-Points faibles : +
-  * nécessité d'entrer un captcha à chaque texte soumis  +
-  * on ne peut faire reconnaître que dix pages ( 2 Mo maximum ). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer +
- +
-Voir également : +
-   * Les solutions de [[:ged|Gestion Électronique des Documents (GED)]] +
  
 ====WatchOCR - Server PDF et OCR du contenu==== ====WatchOCR - Server PDF et OCR du contenu====
Ligne 188: Ligne 166:
  
 ===== Programmes Windows utilisables sous GNU/Linux via Wine ===== ===== Programmes Windows utilisables sous GNU/Linux via Wine =====
-Simple OCR : image non PDF+
 ==== SimpleOCR ==== ==== SimpleOCR ====
  
-  * [[http://www.01net.com/telecharger/windows/Multimedia/scanner_ocr/fiches/32246.html|Lien de téléchargement]]+  * [[https://www.01net.com/telecharger/windows/Multimedia/scanner_ocr/fiches/32246.html|Lien de téléchargement]]
 Non libre mais gratuit. Basé sur WOCAR Non libre mais gratuit. Basé sur WOCAR
 , image non PDF , image non PDF
Ligne 197: Ligne 175:
 ==== WebOCR ==== ==== WebOCR ====
  
-  * [[http://appdb.winehq.org/appview.php?iAppId=829|Fiche sur Winehq.org]]+  * [[https://appdb.winehq.org/appview.php?iAppId=829|Fiche sur Winehq.org]]
  
 ==== Recognita ==== ==== Recognita ====
Ligne 205: Ligne 183:
 ==== ReadIris ==== ==== ReadIris ====
  
-[[http://appdb.winehq.org/objectManager.php?sClass=application&iId=2543|Fiche sur WineHQ.org]]+[[https://appdb.winehq.org/objectManager.php?sClass=application&iId=2543|Fiche sur WineHQ.org]]
  
 ==== ABBY FineReader 8.0 OCR ==== ==== ABBY FineReader 8.0 OCR ====
Ligne 218: Ligne 196:
  
 ==== Myscript (GNU/Linux et win) ==== ==== Myscript (GNU/Linux et win) ====
-  * [[http://appdb.winehq.org/objectManager.php?sClass=application&iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] +  * [[https://appdb.winehq.org/objectManager.php?sClass=application&iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] 
-  * [[http://appdb.winehq.org/objectManager.php?sClass=application&iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://www.visionobjects.com/handwriting_recognition/downloadstylus3.htm#Linux|existe pour GNU/Linux]] ), reconnaît l'écriture attachée +  * [[https://appdb.winehq.org/objectManager.php?sClass=application&iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://www.visionobjects.com/handwriting_recognition/downloadstylus3.htm#Linux|existe pour GNU/Linux]] ), reconnaît l'écriture attachée 
-Non libre, [[http://www.visionobjects.com/handwriting_recognition/onlinestore.htm|versions d'évaluation 30 jours]] des logiciels sur le site officiel. +Non libre, [[http://www.visionobjects.com/handwriting_recognition/onlinestore.htm|versions d'évaluation 30 jours]] des logiciels sur le site officiel.
  
 ===== Voir aussi ===== ===== Voir aussi =====
  
-  * [[http://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum à propos de l'OCR]]+  * [[https://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum à propos de l'OCR]]
    
 ---- ----
  
 //Contributeurs : [[:utilisateurs:Teolemon|Pierre S.]] et [[:utilisateurs:Sorbus]] --- [[:utilisateurs:L'Africain|L'Africain]] Le 14/07/2017, 21:06.// //Contributeurs : [[:utilisateurs:Teolemon|Pierre S.]] et [[:utilisateurs:Sorbus]] --- [[:utilisateurs:L'Africain|L'Africain]] Le 14/07/2017, 21:06.//