Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
ocr [Le 08/11/2017, 21:29] – [Cuneiform] 82.232.236.21ocr [Le 02/10/2025, 21:41] (Version actuelle) – [Cuneiform] 95.173.222.49
Ligne 17: Ligne 17:
  
 ====Cuneiform ==== ====Cuneiform ====
 +<note important>Le code ne semble pas avoir été mis à jour depuis 2011</note>
  
-Résultat peu probant. +[[https://cuneiform.ru/eng/|cuneiform]] est un OCR multi-plateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, jpg, png, tiff,  Il peut exporter en format texte, html, rtf, et d'autres.
- +
-[[http://cognitiveforms.com/ru/products_and_services/Cuneiform.html#1189-Cuneiform|cuneiform]] (en russe, ou en [[http://en.cognitiveforms.ru/products/cuneiform/|anglais]]) est un OCR multi-plateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, png, tiff,  Il peut exporter en format texte, html, rtf, et d'autres.+
  
 Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://code.launchpad.net/cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://launchpad.net/cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue.  Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://code.launchpad.net/cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://launchpad.net/cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue. 
 +
 +Une application avec une interface graphique a également été développée : [[https://github.com/sibskull/cuneiform-qt|cuneiform-qt]].
  
 Voir la  [[http://wiki.ubuntuusers.de/Cuneiform-Linux?highlight=cuneiform#Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract. Voir la  [[http://wiki.ubuntuusers.de/Cuneiform-Linux?highlight=cuneiform#Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract.
Ligne 31: Ligne 32:
 <file bash>#!/bin/sh <file bash>#!/bin/sh
  
-printf %s "$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS"+printf %s "$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS" |
 while read -r arg while read -r arg
 do do
- convert -colorspace GRAY $arg tmp.tiff + convert -colorspace GRAY "$argtmp.tiff 
- cuneiform -l fra -f rtf -o $arg.rtf tmp.tiff+ cuneiform -l fra -f rtf -o "$arg".rtf tmp.tiff
  rm tmp.tiff  rm tmp.tiff
 done</file> done</file>
Ligne 58: Ligne 59:
  
 ==== Gocr ==== ==== Gocr ====
-Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'erreur par document. +Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'erreur par document.
  
 Installez le paquet **[[apt>gocr]]** et **[[apt>gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire : Installez le paquet **[[apt>gocr]]** et **[[apt>gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire :
   * Reconnaît les fichiers png ;   * Reconnaît les fichiers png ;
-  * Aide correcte +  * Aide correcte.
-   * La reconnaissance optique est fonctionnelle sur des fichiers images pour lesquelles tesseract ne donne aucun résultat. Par exemple une capture d'écran en mode console réalisée avec [[:fbgrab]].+
  
 [[http://jocr.sourceforge.net/|Site officiel]] [[http://jocr.sourceforge.net/|Site officiel]]
Ligne 75: Ligne 75:
  
 ===== Interfaces graphiques ===== ===== Interfaces graphiques =====
 +
 +==== OCRthyPDF-Essentials ====
 +**(en)** [[https://github.com/digidigital/OCRthyPDF-Essentials|OCRthyPDF-Essentials]] est une application directement installable depuis le centre d'applications.
 +
 +
  
 ==== Xsane ==== ==== Xsane ====
Ligne 81: Ligne 86:
  
 Pour faire de la ROC avec Xsane il faut : Pour faire de la ROC avec Xsane il faut :
-  * Choisir son moteur d'OCR : ouvrir Xsane et dans //Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par : +  * Choisir son moteur d'OCR : ouvrir Xsane et dans //Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par :
       * pour  **gocr** avec la reconnaissance des caractères accentués <code>gocr -f UTF8</code>       * pour  **gocr** avec la reconnaissance des caractères accentués <code>gocr -f UTF8</code>
       * pour **tesseract** <code >xsane2tess -l fra</code>       * pour **tesseract** <code >xsane2tess -l fra</code>
Ligne 113: Ligne 118:
 Attention, le paquet tesseract est installé pour la reconnaissance de l'anglais uniquement. Voir les paquet langues supplémentaires sur [[:tesseract-ocr]]. Attention, le paquet tesseract est installé pour la reconnaissance de l'anglais uniquement. Voir les paquet langues supplémentaires sur [[:tesseract-ocr]].
  
-<note important>OCRFeeder, après installation, ne se lance pas sous Linux Mint 18, ni sous Xubuntu 16.04. +<note important>OCRFeeder, après installation, ne se lance pas. Pour résoudre ce problèmeentrez la commande suivante dans un [[terminal]] : <code bash>sudo sed -i 's/ocrfeeder -i %f/ocrfeeder/' /usr/share/applications/ocrfeeder.desktop</code></note>
-Solution : installer l'éditeur de menu //alacarte//. Sous Xubuntul'éditeur de menu est déjà installé. +
-Éditer le raccourci de OCRFeeder : remplacer la commande "ocrfeeder -i %f" par "ocrfeeder"</note>+
  
 Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois). Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois).
Ligne 146: Ligne 149:
 [[YAGF]] est une interface graphique pour [[#cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#tesseract|tesseract]]. [[YAGF]] est une interface graphique pour [[#cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#tesseract|tesseract]].
  
-**(en)** [[http://symmetrica.net/cuneiform-linux/yagf-en.html|Site officiel du logiciel]] LIEN POLLUÉ+**(en)** [[https://sourceforge.net/projects/yagf-ocr/|Site officiel du logiciel]]
  
  
 ==== LIOS ==== ==== LIOS ====
-Lios est une interface graphique pour [[#cuneiform]] et [[#tesseract]].Pour l'utiliser [[:tutoriel:comment_installer_un_paquet|installez le paquet]] **[[apt>lios]]**.+Lios est une interface graphique pour [[#cuneiform]] et [[#tesseract]]. Pour l'utiliser [[:tutoriel:comment_installer_un_paquet|installez le paquet]] **[[apt>lios]]**. Si vous souhaitez avoir la dernière version en français : 
 +  * [[:PPA|Ajouter le PPA]] **ppa:nalin-x-linux/lios**((https://launchpad.net/~nalin-x-linux/+archive/ubuntu/lios)) dans vos sources de logiciels;  
 +  * puis [[:tutoriel:comment_modifier_sources_maj#recharger_la_liste_des_paquets|rechargez la liste des paquets]], 
 +  * puis installez le paquet **[[apt>lios]]**.
 =====OCR en ligne===== =====OCR en ligne=====
  
-====Free OCR==== +Voir les solutions de [[:ged|Gestion Électronique des Documents (GED)]] 
-Le site [[http://www.free-ocr.com/|Free OCR]] permet de faire de la reconnaissance de caractères en ligne. Il est gratuit et utilise tesseract pour la reconnaissance.  +
- +
-Points forts : +
-  * gratuit +
-  * performant +
-  * gère plusieurs langues +
-  * reconnait les textes en colonne +
- +
-Points faibles : +
-  * nécessité d'entrer un captcha à chaque texte soumis  +
-  * on ne peut faire reconnaître que dix pages ( 2 Mo maximum ). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer +
- +
-Voir également : +
-   * Les solutions de [[:ged|Gestion Électronique des Documents (GED)]] +
  
 ====WatchOCR - Server PDF et OCR du contenu==== ====WatchOCR - Server PDF et OCR du contenu====
Ligne 174: Ligne 166:
  
 ===== Programmes Windows utilisables sous GNU/Linux via Wine ===== ===== Programmes Windows utilisables sous GNU/Linux via Wine =====
-Simple OCR : image non PDF+
 ==== SimpleOCR ==== ==== SimpleOCR ====
  
-  * [[http://www.01net.com/telecharger/windows/Multimedia/scanner_ocr/fiches/32246.html|Lien de téléchargement]]+  * [[https://www.01net.com/telecharger/windows/Multimedia/scanner_ocr/fiches/32246.html|Lien de téléchargement]]
 Non libre mais gratuit. Basé sur WOCAR Non libre mais gratuit. Basé sur WOCAR
 , image non PDF , image non PDF
Ligne 183: Ligne 175:
 ==== WebOCR ==== ==== WebOCR ====
  
-  * [[http://appdb.winehq.org/appview.php?iAppId=829|Fiche sur Winehq.org]]+  * [[https://appdb.winehq.org/appview.php?iAppId=829|Fiche sur Winehq.org]]
  
 ==== Recognita ==== ==== Recognita ====
Ligne 191: Ligne 183:
 ==== ReadIris ==== ==== ReadIris ====
  
-[[http://appdb.winehq.org/objectManager.php?sClass=application&iId=2543|Fiche sur WineHQ.org]]+[[https://appdb.winehq.org/objectManager.php?sClass=application&iId=2543|Fiche sur WineHQ.org]]
  
 ==== ABBY FineReader 8.0 OCR ==== ==== ABBY FineReader 8.0 OCR ====
Ligne 204: Ligne 196:
  
 ==== Myscript (GNU/Linux et win) ==== ==== Myscript (GNU/Linux et win) ====
-  * [[http://appdb.winehq.org/objectManager.php?sClass=application&iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] +  * [[https://appdb.winehq.org/objectManager.php?sClass=application&iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] 
-  * [[http://appdb.winehq.org/objectManager.php?sClass=application&iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://www.visionobjects.com/handwriting_recognition/downloadstylus3.htm#Linux|existe pour GNU/Linux]] ), reconnaît l'écriture attachée +  * [[https://appdb.winehq.org/objectManager.php?sClass=application&iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://www.visionobjects.com/handwriting_recognition/downloadstylus3.htm#Linux|existe pour GNU/Linux]] ), reconnaît l'écriture attachée 
-Non libre, [[http://www.visionobjects.com/handwriting_recognition/onlinestore.htm|versions d'évaluation 30 jours]] des logiciels sur le site officiel. +Non libre, [[http://www.visionobjects.com/handwriting_recognition/onlinestore.htm|versions d'évaluation 30 jours]] des logiciels sur le site officiel.
  
 ===== Voir aussi ===== ===== Voir aussi =====
  
-  * [[http://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum à propos de l'OCR]]+  * [[https://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum à propos de l'OCR]]
    
 ---- ----
  
 //Contributeurs : [[:utilisateurs:Teolemon|Pierre S.]] et [[:utilisateurs:Sorbus]] --- [[:utilisateurs:L'Africain|L'Africain]] Le 14/07/2017, 21:06.// //Contributeurs : [[:utilisateurs:Teolemon|Pierre S.]] et [[:utilisateurs:Sorbus]] --- [[:utilisateurs:L'Africain|L'Africain]] Le 14/07/2017, 21:06.//