Comment convertir les PDF scanés en documents recherchables

Comment convertir les PDF scanés en documents recherchables

Beaucoup de documents précieux sont coincés dans les PDF scannés, ce qui les rend inaccessibles aux moteurs de recherche ou aux outils de productivité. Aspose.OCR Scanned PDF to Text for .NET vous permet de transformer ces fichiers statiques en documents complètement recherchables, édifiables avec un code minimum.

Problème du monde réel

Les contrats, livres ou archives PDF scanés ne peuvent pas être recherchés, indexés ou copiés sauf si le texte est extrait.Rétification manuelle est lente, coûteuse et risque d’introduire des erreurs - en particulier pour les fichiers de grande taille ou de plusieurs pages.

Vue de la solution

Aspose.OCR pour .NET peut traiter des PDF scanés, extraire et exporter du texte dans une variété de formats – rendre les documents recherchables, indexables et prêts pour les flux de travail numériques ou la conformité.

Principaux

  • Visual Studio 2019 ou ultérieur
  • .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
  • Aspose.OCR pour .NET de NuGet
  • L’expérience de programmation C#
PM> Install-Package Aspose.OCR

La mise en œuvre étape par étape

Étape 1 : Installer et configurer Aspose.OCR

using Aspose.OCR;

Étape 2 : Ajouter des fichiers PDF scanés

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");

Étape 3 : Configurer les paramètres de reconnaissance pour les PDF

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts

Étape 4: Exécuter OCR sur les PDF scanés

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Étape 5 : Exporter des formats recherchables

foreach (RecognitionResult result in results)
{
    result.Save("archive_searchable.pdf", SaveFormat.Pdf);   // Searchable PDF
    result.Save("archive_text.txt", SaveFormat.Text);         // Plain text
    result.Save("archive_word.docx", SaveFormat.Docx);       // Word document
}

Étape 6: Ajoutez le traitement et la validation des erreurs

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Étape 7 : Optimiser pour les multi-pages et les grands PDF

  • Pour les PDF avec de nombreuses pages, ajoutez le fichier et définissez les rangs de page selon les besoins
  • Mise en place des paramètres pour le layout et le langage du document
  • Batch traite tous les fichiers dans un catalogue
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Étape 8 : Exemple complet

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive1.pdf");
            input.Add("books.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("archive_searchable.pdf", SaveFormat.Pdf);
                result.Save("archive_text.txt", SaveFormat.Text);
                result.Save("archive_word.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utiliser les cas et les applications

Recherche numérique Archive

Convertez les archives statiques et scannées en ressources indexées et recherchables pour les bibliothèques, les firmes de droit ou les sociétés.

Digitalisation réglementaire et de conformité

Extrait du texte des documents de conformité scannés pour la validation et l’audit.

Publication académique et de livres

Digitaliser les livres de texte et les documents de recherche pour l’accès numérique, le e-learning ou la distribution.

Défis communs et solutions

Défi 1 : Scans de faible qualité ou de mauvaise qualité

Solution: Pré-procédure pour la clarté; utilisez le mode AUTO pour une gestion robuste du layout.

Défi 2 : PDF multi-linguages

Résolution: Ajuster les paramètres de langue et tester sur les fichiers d’échantillon.

Défi 3 : Les fichiers très grands ou batch

Résolution: Traitement dans des batches gérables et contrôle de l’utilisation de la mémoire.

Considérations de performance

  • Processus Batch pour une efficacité maximale
  • Utilisez des PDF scanés de bonne qualité
  • Disponibilité d’objets OCR après utilisation

Migliori pratiche

  • Valider la sortie contre les PDF source avant l’intégration
  • Organiser des PDF par thème ou par département pour une gestion plus facile
  • Sécuriser tous les fichiers scannés et traités
  • Utilisez la dernière version d’Aspose.OCR pour la meilleure précision

Scénarios avancés

Scénario 1: Exportation à JSON pour les pipelines de données

foreach (RecognitionResult result in results)
{
    result.Save("archive_data.json", SaveFormat.Json);
}

Scénario 2 : Page sélective OCR

input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only

Conclusion

ASPOSE.OCR Scanned PDF to Text for .NET vous permet de convertir rapidement les PDF scannés en documents recherchables et modifiables pour les flux de travail modernes.

Trouvez plus de codes et de conseils dans le Aspose.OCR pour la référence API .NET .

 Français