Seamless PDF Conversion & Text Extraction Using ABBYY's Powerful OCR Software Development Kit

Seamless PDF Conversion & Text Extraction Using ABBYY’s Powerful OCR Software Development Kit

ABBYY FineReader Engine

Le SDK OCR le plus complet pour les développeurs de logiciels

Intégrez des fonctionnalités OCR reposant sur l’IA à vos applications.

Analyse automatisée de documents

L’étape d’analyse automatisée de documents est un élément essentiel du processus global de reconnaissance. Pour réaliser cette étape avec une grande précision, ABBYY FineReader Engine utilise de nombreux algorithmes d’IA de pointe.

Lors de l’étape d’analyse du document, la structure logique de ce dernier est analysée : la première et la dernière pages du document sont identifiées, les éléments de formatage tels que les pieds de pages, les titres et la table des matières sont détectés.

En même temps, la mise en page de chacune des pages est décortiquée et chaque page est divisée en objets comme des blocs de texte, des images, des tableaux, des cellules de tableaux, des codes barre et des séparateurs. De plus, les algorithmes d’analyse du document détectent l’orientation de la page, identifient les doubles pages, détectent le texte vertical et déterminent les zones de la page n’étant pas pertinentes pour le processus de reconnaissance. Par conséquent, ABBYY FineReader Engine est capable de définir les champs et zones de texte qui doivent être reconnus, et d’autres zones de la page comme les images ou les diagrammes qui doivent être conservées dans leur format d’origine. En même temps, il reçoit des informations sur la structure logique du document – y compris son formatage – qui seront utilisées à la fin du processus OCR, lorsque le document sera reconstruit à l’identique.

Les résultats de cette analyse sont utilisés pour retrouver la structure et la mise en page d’un document dans un scénario de réutilisation du contenu. Toutes les images et les diagrammes sont conservés dans leur présentation d’origine sans texte reconnu.

Spécification de blocs manuels pour la reconnaissance par champ

Les zones de reconnaissance de texte peuvent être définies manuellement. Dans ce cas, le champ pertinent est défini directement et l’analyse automatisée du document n’est pas nécessaire. Lors de l’étape ultérieure de reconnaissance, l’outil de reconnaissance reçoit des informations à propos des coordonnées et des propriétés des champs nécessaires et applique l’OCR uniquement à la zone spécifiée.

Prêt à parler à un expert ?

Demander une démo Contactez-nous

Solve Manuals