Auto détection

L’auto détection est la procédure qui permet de détecter certains éléments d’un document pour établir son appartenance à un gabarit. La Reconnaissance Optique des​​ Caractères détecte les zones préétablies telles que le nom de la compagnie qui émet le document, la date, le numéro de facture, le montant total ou toute autre information pertinente contenue sur un document.

Création d’une nouvelle zone​​ 

Pour créer une nouvelle zone de détection sur un document, il faut utiliser la souris et dessiner la zone (clic, maintient et glisse). Les zones de détection doivent toujours être un peu plus grandes que le texte ou la valeur que nous tentons de saisir. Cette technique permet d’augmenter le taux de réussite de la lecture du document. Il est possible de valider l’information lue par OCR en comparant ce qui se trouve sur le document et la valeur retournée par OCR dans la section « Texte de la zone détectée par l’OCR ».

Notes​​ importantes : L’OCR ne lit pas les mots complets qui sortent la zone de détection.

Voici quelques exemples de bonnes pratiques lors de la création de nouvelles zones de détection :

Configuration d’une zone de détection

Lors de la sélection d’une nouvelle zone ou en cliquant sur une zone existante, la fiche de configuration du champ apparaît :

  • Nom du champ : Sélectionner le nom du champ parmi la liste de​​ champs globaux.

  • Description :​​ Affiche la description du champ, s’il y a lieu, qui est définie dans les​​ champs globaux.

  • Type de champ : Définit le type​​ de données qui seront extraites avec ce champ. Il existe 4 types de champs soit : texte, monétaire, numérique et date. Chacun des types de champ a des filtres de caractères particuliers, ce qui permet d’améliorer la reconnaissance optique des caractères.​​ La valeur par défaut définie dans les configurations des champs globaux apparaîtra. Cependant, il est possible de le modifier directement dans le gabarit. Si le type de champ est modifié dans le gabarit, les modifications seront appliquées uniquement pour​​ le gabarit.

  • Est une liste : Cette configuration permet de lire plusieurs valeurs et les séparer en plusieurs distinctes lors du passage de OCR. Cette configuration est, entre autres, utilisée dans les traitements en groupe pour identifier chaque numéro de​​ facture sur les états de compte ou sur les chèques.​​ 

  • Type : Le type permet de spécialiser le champ :

    • Identifiant de gabarit : indique au système qu’il pourra reconnaître le gabarit à partir de ce champ. Indiquer alors la « Valeur détectée » : c’est cette​​ valeur qui permettra au système d’associer le document au bon gabarit. Exemple :

                  • Sensible à la casse : Permet de prendre en compte ou non les majuscules dans l’identifiant du gabarit et le marqueur de position.

                  • Sensible aux accents : Permet de prendre en compte ou non les accents dans l’identifiant du gabarit et le marqueur de position.

                  • Filtre : Lors de la détection d’un identifiant de gabarit ou du marqueur de position, on fait abstraction et/ou conversion des caractères. Exemple : 1 = l = i, 5=S, 0 = O​​ 

    • Marqueur de position : Permet de créer un point de référence pour un champ mobile. Par exemple, si le total de la facture apparaît toujours à une hauteur variable sur la facture, il est possible de l’extraire avec un champ mobile. Toutefois, pour permettre au système de situer la position de la donnée, il faut lui définir un repère. C’est un champ de type « marqueur de position » qui remplira ce rôle. Le système trouvera alors la valeur définie dans « Valeur détectée » et lira les données à la position relative à celui-ci pour alimenter le champ mobile. Exemple de marqueur de position :​​ 

    • Champ mobile : Permet de définir une valeur qui n’est pas à une position fixe dans le document, mais à une position relative à un champ de type « Marqueur de position ».​​ Par exemple, le champ mobile suivant est celui attaché au marqueur de position de l’exemple précédent :

  • Clé unique de document : Permet d’indiquer si ce champ est l’identificateur unique de ce document parmi tous ceux utilisant le même gabarit. Habituellement, on utilise un numéro unique qui définit le document, par exemple, un numéro de facture, bon de commande ou date. Il est possible de configurer le gabarit avec une combinaison de plusieurs champs globaux – Clé unique du document.​​ 

  • Masque du champ :​​ Le masque de champ permet de spécifier le format de détection pour les dates, car celles-ci sont présentées selon différents formats. Il permet de spécifier le format de la date source. Viridem lira la date dans le format spécifié et la transformera toujours sous le format ANNÉE-MOIS-JOUR. Par exemple, le masque « dd-MMMM-yyyy » transformera la​​ date 21 avril 2015 vers 2015-04-21.

    Les caractères possibles dans le masque sont :
    A : Une lettre, entre A et Z, majuscule ou minuscule
    N : Un chiffre en 0 et 9
    Z : Une combinaison alphanumérique, combinant les caractères des lettres A et N ci-haut.
    ()-+$% : Permet de positionner ces caractères dans la chaîne à détecter et seront retournés tels quels.
    Pour les dates :
    Année : yyyy = 2014, yy = 14
    Mois : M = 1, MM= 01, MMM = Jan, MMMM = January ou janvier
    Jour : d = 1, dd = 01
    Éliminer les suffixes de date anglaise (st,​​ nd,​​ rd​​ et​​ th) : bb​​ 

  • Texte de la zone détecté par l’OCR : Donne en temps réel le texte détecté dans la zone sélectionnée. Très utile pour configurer​​ les champs identifiants de gabarit.

  • Le champ ne peut contenir d’espaces : Cette option va enlever les espaces contenus dans le texte qui est détecté par l’OCR. Ne pas utiliser sur un champ s’il est possible qu’il contienne des espaces légitimes. Exemple :​​ 6 novembre 2017

  • Pourcentage de tolérance de l’OCR : Chaque fois que l’ORC détecte un mot, il le compare à son dictionnaire et émet un « niveau de confiance » quant à la précision de sa détection. Ce paramètre permet de le rendre plus ou moins tolérant sur​​ son niveau de confiance afin de permettre une détection plus précise.

  • Tolérance en pixel : Permet de donner une marge de manœuvre au système pour trouver les données. Par exemple, une valeur de 5 précise au système qu’il peut chercher 5 pixels dans tous les sens de la zone définie pour tenter de trouver la valeur recherchée s’il ne la trouve pas à l’endroit exact défini par le champ. Cette fonctionnalité est utile dans le cas où les données seraient imprimées de façon imprécise d’une itération à l’autre d’un document.

Modification d’une zone de détection

En tout temps il est possible de modifier une zone de détection. Pour modifier une zone de détection, il faut la sélectionner sur le document. Une fois la zone sélectionnée, il est possible de modifier son emplacement, son format ainsi que les configurations de la zone. Pour conserver les modifications, appuyer sur enregistrer.​​ 

Désactivation d’une zone de détection

En tout temps, il est possible de désactiver une zone de détection sur un gabarit. Une fois désactivée, la zone ne sera plus considérée lors de la détection des documents. Les valeurs associées aux champs seront plus visibles. Les zones désactivées sont de couleur orange sur les gabarits. Les champs globaux associés aux zones désactivées sont de nouveau disponibles pour être sélectionnés.

Lorsqu’une zone de détection est désactivée, elle peut être réactivée. Au moment de la réactivation, les zones seront de nouveau disponibles. De plus, les valeurs lues par OCR seront de nouveau disponibles.​​ 

Suppression d’une zone de détection

Seulement les zones n’ayant aucune valeur reconnue sur des documents peuvent être supprimées.​​