Comment extraire le texte des PDF scanés avec Aspose.OCR

Comment extraire le texte des PDF scanés avec Aspose.OCR

Extrait de texte à partir de fichiers PDF scannés ou basés sur l’image utilisés pour exiger des flux de travail complexes ou du travail manuel coûteux. Avec Aspose.OCR Scanned PDF to Text for .NET, vous pouvez automatiser ce processus, convertissant les PDF en texte recherchable et modifiable avec seulement quelques lignes de code.

Problème du monde réel

Les organisations reçoivent souvent des contrats, des rapports ou des archives comme des PDF scannés. Copier manuellement le texte ou la recherche à l’intérieur de ces documents est aveugle et erroné, ralentissant les projets de conformité, d’archivage et de transformation numérique.

Vue de la solution

Aspose.OCR pour .NET vous permet de traiter les PDF scannés – en les transformant en textes ou en PDF recherchables, en rendant les informations accessibles, indexables et prêtes pour les flux de travail numériques.

Principaux

Avant de commencer, assurez-vous que vous avez :

  • Visual Studio 2019 ou ultérieur
  • .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
  • Aspose.OCR pour .NET de NuGet
  • Les connaissances C#
PM> Install-Package Aspose.OCR

La mise en œuvre étape par étape

Étape 1 : Installer et configurer Aspose.OCR

Ajouter le paquet NuGet et référence Aspose.OCR :

using Aspose.OCR;

Étape 2 : Ajouter vos fichiers PDF scanés

Créez un objet OcrInput pour l’entrée PDF et ajoutez vos fichiers PDF scannés.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Étape 3 : Configurer les paramètres de reconnaissance

Configurez la langue et d’autres paramètres de reconnaissance pour correspondre à vos documents.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Étape 4 : Démarrer le processus de reconnaissance

Reconnaître le texte de vos PDF scannés :

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Étape 5 : Enregistrer ou exporter un texte reconnu

Exporter le texte reconnu dans les fichiers, ou convertir les résultats en PDFs recherchables.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Étape 6 : Ajoutez le traitement des erreurs

Développer la reconnaissance dans un bloc de tentative/catch pour la robustesse.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Étape 7 : Optimiser pour les PDF de grande ou multi-page

  • Traiter PDFs page par page pour les fichiers énormes
  • Utilisez des scans de haute qualité pour obtenir les meilleurs résultats
  • Processus de batch en parallèle pour de grandes collections
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Étape 8: Exemple de travail complet

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utiliser les cas et les applications

Archives numériques

Convertir des bibliothèques entières de documents scannés en fichiers recherchables, indexables pour la conformité et la gestion des connaissances.

Gestion juridique et contractuelle

Extrait des clauses contractuelles ou des termes de PDF pour la révision, l’automatisation ou la signature numérique.

Recherche de document Streamline

Permettre une recherche rapide de texte complet dans les archives, les bases de connaissances ou les fichiers de cas.

Défis communs et solutions

Défi 1 : Scans de faible qualité ou de mauvaise qualité

Résolution: Utilisez des filtres pré-processifs et des scans de haute qualité lorsque cela est possible.

Défi 2 : PDF de plusieurs langues

Solution: Configurez la langue dans les paramètres de reconnaissance ou le processus avec plusieurs options linguistiques.

Défi 3 : Des fichiers PDF très grands

Résolution: Traitement en lots ou par page, et surveillance de l’utilisation de la mémoire.

Considérations de performance

  • Utiliser un DPI optimal (300+) pour les PDF scannés
  • Le processus Batch pour la meilleure transmission
  • Déposer des objets OCR et des fichiers fermés

Migliori pratiche

  • Valider la production OCR avant une automation ultérieure
  • Organiser et sauvegarder les fichiers PDF originaux
  • Utilisez le bon SaveFormat pour votre flux de travail
  • Actualiser régulièrement Aspose.OCR pour de nouvelles fonctionnalités PDF

Scénarios avancés

Scénario 1 : extraire uniquement des pages spécifiques d’un PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scénario 2: Exportation à plusieurs formats

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR pour .NET vous permet de convertir les PDF scannés en textes activables et en fichiers recherchables – en éliminant l’entrée manuelle et rendant les informations accessibles à votre organisation entière.

Pour plus de détails et d’exemples, voir le Aspose.OCR pour la référence API .NET .

 Français