Cara Mengekstrak Teks dari PDF yang Dipindai dengan Aspose.OCR

Cara Mengekstrak Teks dari PDF yang Dipindai dengan Aspose.OCR

Mengekstrak teks dari file PDF yang dipindai atau didasarkan pada gambar yang digunakan untuk membutuhkan aliran kerja yang kompleks atau kerja manual yang mahal.Dengan Aspose.OCR Scanned PDF ke Text untuk .NET, Anda dapat mengautomatikkan proses ini, mengubah PDF menjadi teks yang dapat dicari dan dapat diedit dengan hanya beberapa baris kode.

Masalah dunia nyata

Organisasi sering menerima kontrak, laporan, atau arkib seperti PDF yang dipindai. menyalin teks secara manual atau mencari di dalam dokumen-dokumen ini membosankan dan keliru, melambatkan pematuhan, mengarkibkan, dan proyek transformasi digital.

Penyelesaian Overview

Aspose.OCR untuk .NET memungkinkan Anda untuk mengumpulkan proses PDF yang dipindai – mengubahnya menjadi PDF teks atau dapat dicari, membuat informasi yang dapat diindeks, dan siap untuk aliran kerja digital.

Persyaratan

Sebelum memulai, pastikan Anda memiliki:

  • Visual Studio 2019 atau lebih baru
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET dari NuGet
  • Pengetahuan dasar C#
PM> Install-Package Aspose.OCR

Implementasi langkah demi langkah

Langkah 1: Menginstal dan mengkonfigurasi Aspose.OCR

Tambahkan paket NuGet dan referensi Aspose.OCR:

using Aspose.OCR;

Langkah 2: Tambahkan file PDF yang dipancarkan

Buat objek OcrInput untuk input PDF dan tambahkan file PDF yang dipindai.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Langkah 3: Mengkonfigurasi Pengenalan

Konfigurasi bahasa dan pengaturan pengenalan lainnya untuk sesuai dengan dokumen Anda.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Langkah 4: Melakukan proses pengakuan

Mengidentifikasi teks dari PDF Anda yang dipindai:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Langkah 5: Simpan atau Ekspor Teks Teridentifikasi

Ekspor teks yang diakui ke file, atau konversi hasil ke PDF yang dapat dicari.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Langkah 6: Menambahkan Error Handling

Menggerakkan pengenalan dalam blok percobaan / catch untuk kekuatan.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Langkah 7: Optimisasi untuk PDF besar atau berbilang halaman

  • Memproses PDF halaman per halaman untuk file besar
  • Gunakan scan berkualitas tinggi untuk hasil terbaik
  • Proses batch secara paralel untuk koleksi besar
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Langkah 8: Contoh kerja lengkap

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Menggunakan kasus dan aplikasi

Arsip Digital

Konversi seluruh perpustakaan dokumen yang dipindai menjadi file yang dapat dicari dan dapat diindeks untuk pematuhan dan pengelolaan pengetahuan.

Manajemen Hukum dan Kontrak

Mengekstrak klausa kontrak atau ketentuan dari PDF untuk review, otomatisasi, atau penandatanganan digital.

Pencarian Dokumen Streamlined

Memungkinkan pencarian teks penuh yang cepat dalam arkib, basis pengetahuan, atau file kasus.

Tantangan dan Solusi Umum

Tantangan 1: Kualitas rendah atau scan terbalik

** Solusi:** Gunakan filter pra-proses dan pemindaian berkualitas tinggi di mana mungkin.

Tantangan 2: Multi-bahasa PDF

** Solusi:** Tetapkan bahasa dalam pengenalan atau proses dengan beberapa pilihan bahasa.

Tantangan 3: file PDF yang sangat besar

** Solusi:** Proses dalam batch atau per halaman, dan memantau penggunaan memori.

Pertimbangan kinerja

  • Menggunakan DPI optimal (300+) untuk PDF yang dipindai
  • Proses batch untuk pencapaian terbaik
  • Menyediakan objek OCR dan penyimpanan file tertutup

Praktik Terbaik

  • Validasi output OCR sebelum otomatisasi lebih lanjut
  • Mengatur dan menyimpan file PDF asli
  • Gunakan SaveFormat yang benar untuk aliran kerja Anda
  • Mengemas kini Aspose.OCR secara teratur untuk fitur PDF baru

Skenario Lanjutan

Skenario 1: Mengekstrak hanya halaman tertentu dari PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Skenario 2: Ekspor ke Multi-Format

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Kesimpulan

Aspose.OCR untuk .NET memungkinkan Anda untuk mengubah PDF yang dipindai menjadi teks dan file yang dapat dicari – menghapus input manual dan membuat informasi yang tersedia untuk seluruh organisasi Anda.

Untuk lebih detail dan contoh, lihat Aspose.OCR untuk .NET API Referensi .

 Indonesia