Comment convertir les PDF scanés en documents recherchables
Beaucoup de documents précieux sont coincés dans les PDF scannés, ce qui les rend inaccessibles aux moteurs de recherche ou aux outils de productivité. Aspose.OCR Scanned PDF to Text for .NET vous permet de transformer ces fichiers statiques en documents complètement recherchables, édifiables avec un code minimum.
Problème du monde réel
Les contrats, livres ou archives PDF scanés ne peuvent pas être recherchés, indexés ou copiés sauf si le texte est extrait.Rétification manuelle est lente, coûteuse et risque d’introduire des erreurs - en particulier pour les fichiers de grande taille ou de plusieurs pages.
Vue de la solution
Aspose.OCR pour .NET peut traiter des PDF scanés, extraire et exporter du texte dans une variété de formats – rendre les documents recherchables, indexables et prêts pour les flux de travail numériques ou la conformité.
Principaux
- Visual Studio 2019 ou ultérieur
- .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
- Aspose.OCR pour .NET de NuGet
- L’expérience de programmation C#
PM> Install-Package Aspose.OCR
La mise en œuvre étape par étape
Étape 1 : Installer et configurer Aspose.OCR
using Aspose.OCR;
Étape 2 : Ajouter des fichiers PDF scanés
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");
Étape 3 : Configurer les paramètres de reconnaissance pour les PDF
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts
Étape 4: Exécuter OCR sur les PDF scanés
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Étape 5 : Exporter des formats recherchables
foreach (RecognitionResult result in results)
{
result.Save("archive_searchable.pdf", SaveFormat.Pdf); // Searchable PDF
result.Save("archive_text.txt", SaveFormat.Text); // Plain text
result.Save("archive_word.docx", SaveFormat.Docx); // Word document
}
Étape 6: Ajoutez le traitement et la validation des erreurs
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Étape 7 : Optimiser pour les multi-pages et les grands PDF
- Pour les PDF avec de nombreuses pages, ajoutez le fichier et définissez les rangs de page selon les besoins
- Mise en place des paramètres pour le layout et le langage du document
- Batch traite tous les fichiers dans un catalogue
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Étape 8 : Exemple complet
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("archive_searchable.pdf", SaveFormat.Pdf);
result.Save("archive_text.txt", SaveFormat.Text);
result.Save("archive_word.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Utiliser les cas et les applications
Recherche numérique Archive
Convertez les archives statiques et scannées en ressources indexées et recherchables pour les bibliothèques, les firmes de droit ou les sociétés.
Digitalisation réglementaire et de conformité
Extrait du texte des documents de conformité scannés pour la validation et l’audit.
Publication académique et de livres
Digitaliser les livres de texte et les documents de recherche pour l’accès numérique, le e-learning ou la distribution.
Défis communs et solutions
Défi 1 : Scans de faible qualité ou de mauvaise qualité
Solution: Pré-procédure pour la clarté; utilisez le mode AUTO pour une gestion robuste du layout.
Défi 2 : PDF multi-linguages
Résolution: Ajuster les paramètres de langue et tester sur les fichiers d’échantillon.
Défi 3 : Les fichiers très grands ou batch
Résolution: Traitement dans des batches gérables et contrôle de l’utilisation de la mémoire.
Considérations de performance
- Processus Batch pour une efficacité maximale
- Utilisez des PDF scanés de bonne qualité
- Disponibilité d’objets OCR après utilisation
Migliori pratiche
- Valider la sortie contre les PDF source avant l’intégration
- Organiser des PDF par thème ou par département pour une gestion plus facile
- Sécuriser tous les fichiers scannés et traités
- Utilisez la dernière version d’Aspose.OCR pour la meilleure précision
Scénarios avancés
Scénario 1: Exportation à JSON pour les pipelines de données
foreach (RecognitionResult result in results)
{
result.Save("archive_data.json", SaveFormat.Json);
}
Scénario 2 : Page sélective OCR
input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only
Conclusion
ASPOSE.OCR Scanned PDF to Text for .NET vous permet de convertir rapidement les PDF scannés en documents recherchables et modifiables pour les flux de travail modernes.
Trouvez plus de codes et de conseils dans le Aspose.OCR pour la référence API .NET .