Cara Mengekstrak Teks dari PDF yang Dipindai dengan Aspose.OCR
Mengekstrak teks dari file PDF yang dipindai atau didasarkan pada gambar yang digunakan untuk membutuhkan aliran kerja yang kompleks atau kerja manual yang mahal.Dengan Aspose.OCR Scanned PDF ke Text untuk .NET, Anda dapat mengautomatikkan proses ini, mengubah PDF menjadi teks yang dapat dicari dan dapat diedit dengan hanya beberapa baris kode.
Masalah dunia nyata
Organisasi sering menerima kontrak, laporan, atau arkib seperti PDF yang dipindai. menyalin teks secara manual atau mencari di dalam dokumen-dokumen ini membosankan dan keliru, melambatkan pematuhan, mengarkibkan, dan proyek transformasi digital.
Penyelesaian Overview
Aspose.OCR untuk .NET memungkinkan Anda untuk mengumpulkan proses PDF yang dipindai – mengubahnya menjadi PDF teks atau dapat dicari, membuat informasi yang dapat diindeks, dan siap untuk aliran kerja digital.
Persyaratan
Sebelum memulai, pastikan Anda memiliki:
- Visual Studio 2019 atau lebih baru
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET dari NuGet
- Pengetahuan dasar C#
PM> Install-Package Aspose.OCR
Implementasi langkah demi langkah
Langkah 1: Menginstal dan mengkonfigurasi Aspose.OCR
Tambahkan paket NuGet dan referensi Aspose.OCR:
using Aspose.OCR;
Langkah 2: Tambahkan file PDF yang dipancarkan
Buat objek OcrInput untuk input PDF dan tambahkan file PDF yang dipindai.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Langkah 3: Mengkonfigurasi Pengenalan
Konfigurasi bahasa dan pengaturan pengenalan lainnya untuk sesuai dengan dokumen Anda.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Langkah 4: Melakukan proses pengakuan
Mengidentifikasi teks dari PDF Anda yang dipindai:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Langkah 5: Simpan atau Ekspor Teks Teridentifikasi
Ekspor teks yang diakui ke file, atau konversi hasil ke PDF yang dapat dicari.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Langkah 6: Menambahkan Error Handling
Menggerakkan pengenalan dalam blok percobaan / catch untuk kekuatan.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Langkah 7: Optimisasi untuk PDF besar atau berbilang halaman
- Memproses PDF halaman per halaman untuk file besar
- Gunakan scan berkualitas tinggi untuk hasil terbaik
- Proses batch secara paralel untuk koleksi besar
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Langkah 8: Contoh kerja lengkap
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Menggunakan kasus dan aplikasi
Arsip Digital
Konversi seluruh perpustakaan dokumen yang dipindai menjadi file yang dapat dicari dan dapat diindeks untuk pematuhan dan pengelolaan pengetahuan.
Manajemen Hukum dan Kontrak
Mengekstrak klausa kontrak atau ketentuan dari PDF untuk review, otomatisasi, atau penandatanganan digital.
Pencarian Dokumen Streamlined
Memungkinkan pencarian teks penuh yang cepat dalam arkib, basis pengetahuan, atau file kasus.
Tantangan dan Solusi Umum
Tantangan 1: Kualitas rendah atau scan terbalik
** Solusi:** Gunakan filter pra-proses dan pemindaian berkualitas tinggi di mana mungkin.
Tantangan 2: Multi-bahasa PDF
** Solusi:** Tetapkan bahasa dalam pengenalan atau proses dengan beberapa pilihan bahasa.
Tantangan 3: file PDF yang sangat besar
** Solusi:** Proses dalam batch atau per halaman, dan memantau penggunaan memori.
Pertimbangan kinerja
- Menggunakan DPI optimal (300+) untuk PDF yang dipindai
- Proses batch untuk pencapaian terbaik
- Menyediakan objek OCR dan penyimpanan file tertutup
Praktik Terbaik
- Validasi output OCR sebelum otomatisasi lebih lanjut
- Mengatur dan menyimpan file PDF asli
- Gunakan SaveFormat yang benar untuk aliran kerja Anda
- Mengemas kini Aspose.OCR secara teratur untuk fitur PDF baru
Skenario Lanjutan
Skenario 1: Mengekstrak hanya halaman tertentu dari PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Skenario 2: Ekspor ke Multi-Format
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Kesimpulan
Aspose.OCR untuk .NET memungkinkan Anda untuk mengubah PDF yang dipindai menjadi teks dan file yang dapat dicari – menghapus input manual dan membuat informasi yang tersedia untuk seluruh organisasi Anda.
Untuk lebih detail dan contoh, lihat Aspose.OCR untuk .NET API Referensi .