? Reconnaissance optique de caractères (OCR ) est une technique de saisie de données qui utilise un type de police spécifique et un scanner OCR pour lire le jeu de caractères et l'envoyer à votre ordinateur. L' American National Standards Institute ou ANSI, définit le type de police comme un ensemble de caractères 0-9 , de A à Z , et quelques caractères spéciaux , contenant chacun une taille et une forme définie . Polices OCR sont reproductibles , et les humains et scanners OCR peuvent lire et de les distinguer . Catégories scanners OCR sont soit saisie de texte ou scanners de capture de données . Scanners d'entrée de texte lu le document en entier , ou au moins une grande partie de celui-ci . La saisie des données peut être nourris à la main ou le scanner peut avoir l'alimentation automatique des données , la lecture , le tri et l'empilage des capacités . Lorsque vous utilisez un scanner d'entrée de texte , l'édition a lieu pendant ou après la numérisation. Saisie des données scanners capture et le formatage pendant le processus de numérisation , et aucune édition humain de données a lieu. Pour cette raison , les données scanners de capture doit être plus précis. Types types de scanner peuvent être fixes ou portatifs . Scanners fixes, tels que les remorques plateaux , feuille à feuille et scanners à tambour utilisent principalement la saisie de texte à lire, traiter et images de données stockées sur votre ordinateur, où vous pouvez ensuite modifier ou autrement mettre en forme le texte capturé . Scanners portatifs, tels que les stylos numériques ou les scanners de codes à barres , utilisez l' entrée de texte ou de capture de données pour lire et traiter des informations de données et ensuite le stocker pour une édition ultérieure , ou des données " de blocage " pour empêcher sa modification . Méthodes bref, un scanner OCR prend une photo du document , puis le logiciel de numérisation OCR regarde la police OCR l'image contient , puis lit et convertit texte en utilisant une matrice synthétique simulant ou la méthode d' extraction de caractéristiques . Matrice Matching est une forme de pattern matching où le scanner se penche sur un personnage et il correspond à un dans sa bibliothèque de caractères ou des modèles de caractères. Extraction d'entité ne repose pas sur une bibliothèque prédéfinie , mais sur les caractéristiques générales telles que les zones ouvertes , formes fermées et les lignes se croisent lorsque déchiffrer caractères. Extraction d'entité va également par le nom Intelligent Character Recognition , ou ICR . Avantages L' avantage le plus important de l'aide d'un scanner OCR est l'élimination des erreurs de saisie des données humaines . OCR scanners lire les données à des vitesses qui peuvent atteindre plus de 200 caractères par seconde. Le taux de la précision d'un scanner OCR est 99,9975 pour cent , ou une erreur de lecture de caractères en 40000 , par rapport à un taux d' erreur de lecture de l'homme de caractères dans une 300 . Vérifier validation chiffres automatique peut ramener le taux de précision de l'OCR à moins d'un 3.000.000. Considérations pauvres des originaux de qualité se traduira dans les documents OCR moins précises . Les documents manuscrits , des documents contenant du texte stylisé , vieux documents , photocopies et les documents les plus faxées ne fonctionnent pas bien avec les scanners OCR. Recommandations pour les documents acceptables comprennent du texte imprimé dans une police de caractères de moins de 72 points, un texte d'imprimante à jet d'encre et laser , des documents de fax avec 200 points par pouce ( dpi) ou résolution supérieure et les imprimés commerciaux tels que les livres , brochures et magazines.
|