Comment extraire le texte des images scanées avec Aspose.OCR
Le scan des contrats, des accords, de pages de livres ou de vieux enregistrements produit généralement des fichiers d’image – pas de texte éditable. Aspose.OCR Scan to Text for .NET vous permet de automatiser l’extraction de textes structurés, recherchables à partir de tout document ou photo scanné, en sauvegardant des heures innombrables de entrée manuelle.
Problème du monde réel
Les documents de papier, les livres et les archives sont souvent stockés comme des images. l’extraction de leur contenu pour les flux de travail numériques, la conformité, ou la recherche peut être lente, coûteuse, et susceptible d’erreur si fait manuellement.
Vue de la solution
Aspose.OCR Scan to Text for .NET convertit des images de pages imprimées en texte utilisable, traite des colonnes unies, multi-columnes et des layouts complexes. Le flux de travail est parfait pour la numérisation des contrats, des livres, dossiers et documents d’affaires pour une utilisation moderne.
Principaux
Assurez-vous que vous avez :
- Visual Studio 2019 ou ultérieur
- .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
- Aspose.OCR pour .NET de NuGet
- Les connaissances C#
PM> Install-Package Aspose.OCR
La mise en œuvre étape par étape
Étape 1 : Installer et configurer Aspose.OCR
Ajouter le paquet NuGet et référence Aspose.OCR :
using Aspose.OCR;
Étape 2 : Ajouter vos images scanées
Télécharger un ou plusieurs fichiers d’image à traiter.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
Étape 3 : Configurer les paramètres de reconnaissance
Tune pour le langage du document et le layout selon les besoins.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
Étape 4 : Démarrer le processus de reconnaissance
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Étape 5: Enregistrer ou traiter le texte extrait
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
// Save to Word or PDF as needed
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
Étape 6 : Ajoutez le traitement des erreurs
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Use results...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Étape 7 : Optimiser les layouts de documents
- Pour les livres ou les articles, utilisez DetectAreasMode.DOCUMENT ou essayez DétecteAreaModa.AUTO
- Images de pré-procédure (crop, desquew) pour la meilleure précision
- Processus Batch pour grands archives
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
input.Add(file);
}
Étape 8 : Exemple complet
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Utiliser les cas et les applications
Contrats et accords de numérisation
Digitaliser rapidement les documents juridiques ou commerciaux pour la recherche, l’archivage et les flux de travail numériques.
Traitement du livre et des archives
Convertir des pages de livres ou des enregistrements historiques en formats recherchables et édifiables.
Conformité et extraction de données
Permet des vérifications de conformité automatisées, des audits ou des extraits de texte des documents d’héritage.
Défis communs et solutions
Défi 1 : Scans de mauvaise qualité ou textes déchirés
Solution: Utilisez la pré-traitement ou améliorez les images pour une meilleure précision OCR.
Défi 2 : Layouts multi-colombes ou complexes
Solution: Ajuster DetectAreasMode et tester pour la meilleure gestion du layout.
Défi 3 : la numérisation du batch
Solution: Utilisez le traitement des lots et la gestion des ressources pour les emplois à grande échelle.
Considérations de performance
- Le processus de batch pour la vitesse et l’escalabilité
- Utilisez des images source de bonne qualité
- Déposer des objets OCR après utilisation
Migliori pratiche
- Valider toujours le texte extrait avant automation ou archivation
- Utilisez les paramètres de reconnaissance corrects pour le type de document
- Backup des scans originaux pour référence
- Les résultats de test OCR sur un ensemble d’échantillons avant la production
Scénarios avancés
Scénario 1 : Extraction de documents multilingue
settings.Language = Language.French;
Scénario 2: Exportation à JSON pour l’intégration
foreach (RecognitionResult result in results)
{
result.Save("scanned_text.json", SaveFormat.Json);
}
Conclusion
Aspose.OCR Scan to Text for .NET est le moyen le plus rapide pour convertir les images et documents scanés en texte utilisable, éditable – idéal pour des projets juridiques, académiques ou d’entreprise.
Voir plus d’exemples et de détails techniques dans le Aspose.OCR pour la référence API .NET .