Πώς να αυτοματοποιήσετε την εξόρυξη δεδομένων από πολλαπλές σελίδες PDFs με Aspose.OCR

Πολλαπλές σελίδες PDF από σαρωτές, αρχεία ή επιχειρηματικές ροές εργασίας συχνά κρατούν τεράστιες ποσότητες μη αναζητήσιμου κειμένου και τραπεζών. Η χειροκίνητη εκχύλιση είναι αργή και μη κλιμακώσιμη. Το Aspose.OCR για .NET αυτόματοθετεί την εκχυλίσση κείμενου, πίνακα και δομής από μακρύ, πολύπλοκο PDF με ελάχιστο κώδικα.

Το πρόβλημα του πραγματικού κόσμου

Τα νομικά, οικονομικά και ακαδημαϊκά αρχεία επεξεργάζονται τακτικά πολλαπλές σελίδες με σάρωση PDF που περιέχουν εκατοντάδες σελίδες.

Συνοπτική λύση

Το Aspose.OCR για το .NET μπορεί να συσχετίσει τις διαδικασίες και να εξάγει κείμενα / πίνακες από κάθε σελίδα σε ένα πολλαπλές σελίδες PDF. Μπορείτε να καθορίσετε τις γραμμές σελίδων, τις μορφές εξαγωγής και την αυτόματη ολοκλήρωση με επιχειρηματικές εφαρμογές ή ψηφιακά αρχεία.

Προϋποθέσεις

Visual Studio 2019 ή αργότερα
.NET 6.0 ή μεταγενέστερος (ή .NET Framework 4.6.2+)
Aspose.OCR για .NET από το NuGet
Βασικές δεξιότητες προγραμματισμού C

PM> Install-Package Aspose.OCR

Βήμα προς βήμα εφαρμογή

Βήμα 1: Εγκατάσταση και διαμόρφωση Aspose.OCR

using Aspose.OCR;

Βήμα 2: Προσθήκη πολλαπλών σελίδων αρχείων PDF

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf"); // all pages
input.Add("report.pdf", 5, 10); // pages 5-14

Βήμα 3: Ρυθμίστε τις ρυθμίσεις αναγνώρισης και τις σειρές σελίδων

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;

Βήμα 4: Εξάγετε κείμενο και πίνακες από κάθε σελίδα

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Βήμα 5: Αποτελέσματα εξαγωγής για κάθε σελίδα

int page = 1;
foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.txt", SaveFormat.Text);
    result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
    result.Save($"output_page_{page}.json", SaveFormat.Json);
    page++;
}

Βήμα 6: Διαχείριση σφαλμάτων και επικύρωση δεδομένων

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Βήμα 7: Βελτιστοποίηση για μεγάλα αρχεία και θέσεις εργασίας

Επεξεργασία PDFs σε φακέλους ανά διεύθυνση
Χρησιμοποιήστε επιλεκτική επεξεργασία σελίδων για ταχύτητα
Ελέγξτε τη μνήμη / χρήση CPU

foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Βήμα 8: Συμπληρωματικό παράδειγμα

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive.pdf");
            input.Add("report.pdf", 5, 10);

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            int page = 1;
            foreach (RecognitionResult result in results)
            {
                result.Save($"output_page_{page}.txt", SaveFormat.Text);
                result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
                result.Save($"output_page_{page}.json", SaveFormat.Json);
                page++;
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Χρήση περιπτώσεων και εφαρμογών

Νομική και Συμμόρφωση Αρχείο

Απομακρύνετε το πλήρες περιεχόμενο των συμβάσεων, των δικαστικών καταθέσεων ή των κυβερνητικών αρχείων για την αναζήτηση και τη συμμόρφωση.

Ακαδημαϊκά και ερευνητικά αρχεία

Ψηφιακά και χωριστά περιοδικά, διατριβές ή πίνακες δεδομένων για ανάλυση ή ηλεκτρονική μάθηση.

Χρηματοοικονομικές και ελεγκτικές ροές εργασίας

Αυτόματη εξόρυξη από τα μεγάλα αρχεία δηλώσεων, εκθέσεις και πλάκες.

Κοινές προκλήσεις και λύσεις

Δοκιμή 1: Ανεπαρκής διάταξη σελίδων

Λύση: Χρησιμοποιήστε την ανίχνευση AUTO ή ρυθμίστε διαφορετικές διαστάσεις ανά εύρος σελίδων.

Προκλήσεις 2: Πολύ μεγάλα PDFs

Λύση: Διαδικασία σε πακέτα, χωρισμένα αρχεία για καλύτερη απόδοση μνήμης.

Πρόκληση 3: Μεικτό περιεχόμενο (κείμενο, πίνακες, εικόνες)

Λύση: Ελεγχόμενες και μετα-διαδικαστικές εξόδους· λειτουργία ανίχνευσης τόνου.

Αξιολόγηση των επιδόσεων

Τα μεγάλα PDF απαιτούν περισσότερη μνήμη/CPU
Μπατς θέσεις εργασίας εκτός ωρών για την καλύτερη απόδοση
Επιβεβαιώστε τα δείγματα παραγωγής πριν από την ενσωμάτωση

שיטות עבודה מומלצות

Χρησιμοποιήστε τις συμβάσεις ονομασίας για εύκολη παρακολούθηση
Διαχωρίστε πολλαπλές σελίδες PDF εάν τα αρχεία είναι πολύ μεγάλα
Εξασφάλιση τόσο των αρχείων προέλευσης όσο και των εγγράφων έκδοσης
Validate and spot-check output in κρίσιμες ροές εργασίας

Προχωρημένα σενάρια

Σενάριο 1: Εξαγωγή σε αναζητήσιμα PDF ανά σελίδα

foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.pdf", SaveFormat.Pdf);
    page++;
}

Σενάριο 2: Ενσωμάτωση με βάση δεδομένων ή σύννεφο

foreach (RecognitionResult result in results)
{
    string json = File.ReadAllText($"output_page_{page}.json");
    // Upload json or send to a cloud endpoint
}

Συμπεράσματα

Το Aspose.OCR για το .NET επιτρέπει τη σταθερή, κλιμακώσιμη εξόρυξη κειμένου και δομημένα δεδομένα από πολλαπλές σελίδες PDF – εξοικονομεί ώρες χειροκίνητης προσπάθειας και βελτιώνει την αυτοματοποίηση των ροών εργασίας.

Δείτε περισσότερα PDF και παρτίδα επεξεργασίας παραδείγματα στο Aspose.OCR για την αναφορά .NET API .