Comment numériser les livres et les documents multi-colonne avec Aspose.OCR
Le scan ou la photographie des livres et des magazines entraîne souvent des images complexes et multi-colombes, ce qui déclenche l’OCR standard. Aspose.OCR pour .NET fournit des paramètres avancés pour extraire de manière fiable le texte structuré, ordonné par colonne, idéal pour les bibliothèques, la recherche et la publication.
Problème du monde réel
Les livres, les journaux et les périodiques sont souvent stockés comme des images scannées avec des colonnes, des notes et des illustrations. l’extraction de texte lisible, structuré manuellement est lente, sans erreur, et coûte cher pour les bibliothèques ou les archives.
Vue de la solution
Aspose.OCR pour .NET gère les réglages multi-columnes et complexes, préservant l’ordre de lecture et vous permettant d’automatiser la numérisation en masse des livres et des magazines, économiser du temps et améliorer la précision des données pour les chercheurs et les éditeurs.
Principaux
Assurez-vous que vous avez :
- Visual Studio 2019 ou ultérieur
- .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
- Aspose.OCR pour .NET de NuGet
- Les compétences C#
PM> Install-Package Aspose.OCR
La mise en œuvre étape par étape
Étape 1 : Installer et configurer Aspose.OCR
using Aspose.OCR;
Étape 2 : scanner ou photographier vos pages du livre / magazine
Ajoutez toutes les images de page scannées à votre entrée pour la reconnaissance du batch.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
Étape 3 : Configurez les paramètres de reconnaissance multi-colonne
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts
Étape 4 : extraire le texte en ordre structuré
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Étape 5 : Exporter ou enregistrer le texte numérique
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text); // Save as text
result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}
Étape 6: Ajoutez le traitement des erreurs et les vérifications de qualité
try
{
// OCR and export code
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Étape 7 : Optimiser pour les livres bulles ou rares
- Batch traite toutes les pages du livre en dossiers
- Utilisez des scans de haute résistance pour les livres rares ou anciens
- Valider une page d’échantillon avant de lancer toute la collection
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
input.Add(file);
}
Étape 8 : Exemple complet
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text);
result.Save("book_page.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Utiliser les cas et les applications
Bibliothèques et humanités numériques
Permettre le prêt numérique, la recherche et l’analyse des livres rares et des journaux historiques.
Publication académique et de recherche
Digitaliser facilement les journaux, les procédures de conférence ou les livres de texte pour un accès électronique.
Layouts multilingue et complexe
Extrait du contenu des journaux avec des colonnes de langue étrangère, des panneaux ou des notes.
Défis communs et solutions
Défi 1 : Évitez les colonnes ou les illustrations
Solution: Utilisez des scans de haute qualité et testez les modes DOCUMENT/AUTO pour la meilleure commande de lecture.
Défi 2 : Qualité OCR pour les livres anciens ou endommagés
Solution: Améliore les scans et valide les résultats avant le traitement de masse.
Défi 3 : Digitalisation à grande échelle
Solution: Automatisez les flux de travail et utilisez le traitement des erreurs pour les opérations à grande échelle.
Considérations de performance
- Utilisez de bons scans de source, en particulier pour les livres rares ou fragiles
- Le processus de batch pour l’échelle
- Enregistrez des outils numériques dans des formats flexibles (texte, Word, PDF)
Migliori pratiche
- Valider la sortie contre les pages d’origine pour l’exactitude
- Organiser les pages du livre par volume et par chapitre pour une récupération facile
- Backup des scans et du texte numérique
- Mise à jour du moteur OCR pour les dernières améliorations
Scénarios avancés
Scénario 1 : Digitaliser les magazines multilingues
settings.Language = Language.German;
Scénario 2: Exportation en PDF pour les lecteurs eBook
foreach (RecognitionResult result in results)
{
result.Save("book_page.pdf", SaveFormat.Pdf);
}
Conclusion
Aspose.OCR pour .NET est le moyen le plus rapide pour introduire des livres et des publications complexes dans l’ère numérique, prêts à la recherche, l’analyse et le partage.
Voir des exemples supplémentaires et des conseils d’intégration à la Aspose.OCR pour la référence API .NET .