Comment numériser les livres et les documents multi-colonne avec Aspose.OCR

Comment numériser les livres et les documents multi-colonne avec Aspose.OCR

Le scan ou la photographie des livres et des magazines entraîne souvent des images complexes et multi-colombes, ce qui déclenche l’OCR standard. Aspose.OCR pour .NET fournit des paramètres avancés pour extraire de manière fiable le texte structuré, ordonné par colonne, idéal pour les bibliothèques, la recherche et la publication.

Problème du monde réel

Les livres, les journaux et les périodiques sont souvent stockés comme des images scannées avec des colonnes, des notes et des illustrations. l’extraction de texte lisible, structuré manuellement est lente, sans erreur, et coûte cher pour les bibliothèques ou les archives.

Vue de la solution

Aspose.OCR pour .NET gère les réglages multi-columnes et complexes, préservant l’ordre de lecture et vous permettant d’automatiser la numérisation en masse des livres et des magazines, économiser du temps et améliorer la précision des données pour les chercheurs et les éditeurs.

Principaux

Assurez-vous que vous avez :

  • Visual Studio 2019 ou ultérieur
  • .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
  • Aspose.OCR pour .NET de NuGet
  • Les compétences C#
PM> Install-Package Aspose.OCR

La mise en œuvre étape par étape

Étape 1 : Installer et configurer Aspose.OCR

using Aspose.OCR;

Étape 2 : scanner ou photographier vos pages du livre / magazine

Ajoutez toutes les images de page scannées à votre entrée pour la reconnaissance du batch.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

Étape 3 : Configurez les paramètres de reconnaissance multi-colonne

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

Étape 4 : extraire le texte en ordre structuré

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Étape 5 : Exporter ou enregistrer le texte numérique

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

Étape 6: Ajoutez le traitement des erreurs et les vérifications de qualité

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Étape 7 : Optimiser pour les livres bulles ou rares

  • Batch traite toutes les pages du livre en dossiers
  • Utilisez des scans de haute résistance pour les livres rares ou anciens
  • Valider une page d’échantillon avant de lancer toute la collection
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

Étape 8 : Exemple complet

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utiliser les cas et les applications

Bibliothèques et humanités numériques

Permettre le prêt numérique, la recherche et l’analyse des livres rares et des journaux historiques.

Publication académique et de recherche

Digitaliser facilement les journaux, les procédures de conférence ou les livres de texte pour un accès électronique.

Layouts multilingue et complexe

Extrait du contenu des journaux avec des colonnes de langue étrangère, des panneaux ou des notes.

Défis communs et solutions

Défi 1 : Évitez les colonnes ou les illustrations

Solution: Utilisez des scans de haute qualité et testez les modes DOCUMENT/AUTO pour la meilleure commande de lecture.

Défi 2 : Qualité OCR pour les livres anciens ou endommagés

Solution: Améliore les scans et valide les résultats avant le traitement de masse.

Défi 3 : Digitalisation à grande échelle

Solution: Automatisez les flux de travail et utilisez le traitement des erreurs pour les opérations à grande échelle.

Considérations de performance

  • Utilisez de bons scans de source, en particulier pour les livres rares ou fragiles
  • Le processus de batch pour l’échelle
  • Enregistrez des outils numériques dans des formats flexibles (texte, Word, PDF)

Migliori pratiche

  • Valider la sortie contre les pages d’origine pour l’exactitude
  • Organiser les pages du livre par volume et par chapitre pour une récupération facile
  • Backup des scans et du texte numérique
  • Mise à jour du moteur OCR pour les dernières améliorations

Scénarios avancés

Scénario 1 : Digitaliser les magazines multilingues

settings.Language = Language.German;

Scénario 2: Exportation en PDF pour les lecteurs eBook

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

Conclusion

Aspose.OCR pour .NET est le moyen le plus rapide pour introduire des livres et des publications complexes dans l’ère numérique, prêts à la recherche, l’analyse et le partage.

Voir des exemples supplémentaires et des conseils d’intégration à la Aspose.OCR pour la référence API .NET .

 Français