Aspose.OCR ile çok sayfalık PDF'lerden veri çıkarımı nasıl otomatikleştirilir

Aspose.OCR ile çok sayfalık PDF'lerden veri çıkarımı nasıl otomatikleştirilir

Tarayıcılardan, arşivlerden veya kurumsal çalışma akışlarından çok sayıda sayfalık PDF’ler genellikle arama yapılamayan metin ve tabloların büyük miktarda tutar. manuel çıkarma yavaş ve ölçeklenemez. .NET için Aspose.OCR, uzun, karmaşık pdf’lerden metnin, tablaların ve yapının çıkarılmasını en az kodla otomatikleştirir.

Gerçek Dünya Sorunları

Yasal, finansal ve akademik arşivler düzenli olarak yüzlerce sayfa içeren çok sayfalık taranan PDF’ler ile uğraşır.

Çözüm Özetleri

Aspose.OCR for .NET, işlemleri paketleyebilir ve her sayfadan metin / tabloları bir çok sayfalık PDF’de çıkarabilir. sayfa satırlarını, ihracat biçimlerini ve iş uygulamaları veya dijital arşivlerle otomatik entegrasyonu belirleyebilirsiniz.

Ön koşullar

  • Visual Studio 2019 veya sonraki
  • .NET 6.0 veya sonraki (veya .Net Framework 4.6.2+)
  • Aspose.OCR için .NET için NuGet
  • C# Programlama Yetenekleri
PM> Install-Package Aspose.OCR

adım adım uygulama

Adım 1: Aspose.OCR yükleme ve ayarlayın

using Aspose.OCR;

Adım 2: Çok sayfalık PDF dosyalarını ekleyin

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf"); // all pages
input.Add("report.pdf", 5, 10); // pages 5-14

Adım 3: Tanıma Ayarları ve Sayfa Sıralamaları ayarlayın

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;

Adım 4: Her sayfadan metin ve tablolar çıkarın

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Adım 5: Her sayfa için ihracat sonuçları

int page = 1;
foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.txt", SaveFormat.Text);
    result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
    result.Save($"output_page_{page}.json", SaveFormat.Json);
    page++;
}

Adım 6: Hataları ele almak ve verileri doğrulamak

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Adım 7: Büyük dosyalar ve batch işleri için optimizasyon

  • PDF dosyalarını dizinlere göre işleme
  • Hız için seçici sayfa işleme kullanın
  • • Hafıza / CPU Kullanımı
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Adım 8: Tam Bir Örnek

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive.pdf");
            input.Add("report.pdf", 5, 10);

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            int page = 1;
            foreach (RecognitionResult result in results)
            {
                result.Save($"output_page_{page}.txt", SaveFormat.Text);
                result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
                result.Save($"output_page_{page}.json", SaveFormat.Json);
                page++;
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Cases ve Uygulamaları Kullanın

Yasal ve Uyumluluk Arşivleme

Sözleşmelerin, mahkeme başvurularının veya hükümet kayıtlarının tam içeriğini arama ve uyumluluk için çıkarın.

Akademik ve Araştırma Arşivi

Analiz veya e-öğrenme için dijital ve bölünmüş dergiler, tezler veya veri tabloları.

Finansal ve Denetim Çalışma Akışları

Büyük açıklama arşivlerinden, raporlardan ve spreadsheets’ten otomatik çıkarma.

Toplu Sorunlar ve Çözümler

1. Sorun: Karmaşık sayfa düzenlemeleri

** Çözüm:** AUTO algılama kullanın veya sayfa aralığına göre farklı modlar ayarlayın.

Challenge 2: Çok Büyük PDF’ler

** Çözüm:** Paketlerde işlem; daha iyi hafıza performansı için bölünmüş dosyalar.

Challenge 3: Karışık İçerik (Text, Tablolar, Görüntüler)

** Çözüm:** Doğrulama ve post-process çıkışları; ton tespit modu.

performans değerlendirmeleri

  • Büyük PDF’ler daha fazla hafıza / CPU gerektirir
  • En iyi performans için Batch Off-hours işleri
  • Entegre edilmeden önce çıkış örneklerini doğrulayın

En İyi Uygulamalar

  • Kolay izleme için adlandırma sözleşmelerini kullanın
  • Çok sayfalık PDF’leri çok büyük dosyalar varsa dağıtın
  • Kaynak ve çıkış belgelerini güvence altına alın
  • Önemli çalışma akışlarında doğrulama ve spot-check çıkışları

Gelişmiş Senaryolar

Senaryo 1: Sayfa başına arama yapılabilir PDF’ye ihraç

foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.pdf", SaveFormat.Pdf);
    page++;
}

2. Senaryo: Bir veritabanı veya bulut ile entegre

foreach (RecognitionResult result in results)
{
    string json = File.ReadAllText($"output_page_{page}.json");
    // Upload json or send to a cloud endpoint
}

Sonuç

Aspose.OCR for .NET, çok sayfalık PDF’lerden sağlam, ölçeklenebilir metin ve yapılandırılmış verilerin çıkarılmasını sağlar - manuel çaba saatlerini tasarruf eder ve çalışma akışının otomatikleştirilmesini iyileştirir.

Daha fazla PDF ve batch işleme örnekleri görüntüle Aspose.OCR .NET API Referans için .

 Türkçe