Bagaimana untuk mengekstrak teks daripada PDF yang disemak dengan Aspose.OCR
Mengekstrak teks daripada fail PDF yang disemak atau berdasarkan imej yang digunakan untuk memerlukan aliran kerja yang kompleks atau kerja manual yang mahal.Dengan Aspose.OCR Scanned PDF ke Text untuk .NET, anda boleh mengautomatikkan proses ini, menukar PDF kepada teks yang boleh dicari dan boleh diedit dengan hanya beberapa baris kod.
Masalah dunia sebenar
Organisasi sering menerima kontrak, laporan, atau arkib seperti PDF yang disemak. menyalin teks secara manual atau mencari di dalam dokumen-dokumen ini adalah membosankan dan keliru, melambatkan pematuhan, penyimpanan, dan projek-projek transformasi digital.
Gambaran keseluruhan penyelesaian
Aspose.OCR untuk .NET membolehkan anda batch proses PDF yang disemak—mengubahnya ke dalam teks atau boleh dicari PDF, menjadikan maklumat yang boleh diakses, indeks, dan bersedia untuk aliran kerja digital.
Prerequisites
Sebelum memulakan, pastikan anda mempunyai:
- Visual Studio 2019 atau seterusnya
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET daripada NuGet
- Pengetahuan asas C#
PM> Install-Package Aspose.OCR
Pelaksanaan langkah demi langkah
Langkah 1: Pemasangan dan Konfigurasi Aspose.OCR
Tambah pakej NuGet dan rujukan Aspose.OCR:
using Aspose.OCR;
Langkah 2: Tambah fail PDF anda yang disemak
Mencipta objek OcrInput untuk input PDF dan tambahkan fail PDF yang disemak.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Langkah 3: Mengesetkan tetapan pengenalan
Tetapkan bahasa dan tetapan pengenalan lain untuk menyesuaikan dokumen anda.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Langkah 4: Melaksanakan proses pengiktirafan
Mengenalpasti teks daripada PDF anda yang disemak:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Langkah 5: Simpan atau Eksport teks yang diiktiraf
Eksport teks yang diiktiraf ke dalam fail, atau menukar hasil kepada PDF yang boleh dicari.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Langkah 6: Menambah penyelesaian kesilapan
Menggerakkan pengenalan dalam blok percubaan / tangkapan untuk kekuatan.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Langkah 7: Mengoptimumkan untuk PDF besar atau berbilang halaman
- Pemprosesan PDF halaman per halaman untuk fail besar
- Gunakan pemindaian berkualiti tinggi untuk hasil terbaik
- Proses batch secara serentak untuk koleksi besar
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Langkah 8: Contoh kerja lengkap
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Penggunaan Kasus dan Permohonan
Penyimpanan Digital
Menukar keseluruhan perpustakaan dokumen yang disemak ke dalam fail yang boleh dicari, indeks untuk pematuhan dan pengurusan pengetahuan.
Pengurusan Undang-undang dan Kontrak
Mengekstrak terma atau syarat kontrak daripada PDF untuk pemeriksaan, automatik, atau penandatanganan digital.
Pencarian dokumen Streamlined
Membolehkan carian teks penuh yang cepat dalam arkib, pangkalan pengetahuan, atau fail kes.
Tantangan dan Penyelesaian Bersama
Tantangan 1: Kualiti rendah atau pemindaian yang rosak
** Penyelesaian:** Gunakan penapis pra-proses dan pemindaian berkualiti tinggi di mana mungkin.
Tantangan 2: PDF dalam pelbagai bahasa
** Penyelesaian:** Tetapkan bahasa dalam tetapan pengenalan atau proses dengan pelbagai pilihan bahasa.
Tantangan 3: fail PDF yang sangat besar
** Penyelesaian:** Proses dalam batch atau per halaman, dan memantau penggunaan memori.
Pertimbangan prestasi
- Menggunakan DPI yang optimum (300+) untuk PDF yang disemak
- Proses batch untuk penghantaran terbaik
- Menyediakan objek OCR dan pengendalian fail tertutup
amalan terbaik
- Mengesahkan output OCR sebelum automatik lanjut
- Mengatur dan menyimpan fail PDF asal
- Gunakan SaveFormat yang betul untuk aliran kerja anda
- Mengemas kini Aspose.OCR secara berkala untuk ciri-ciri PDF baru
Senario lanjutan
Senario 1: Mengekstrak hanya halaman tertentu daripada PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Scenario 2: Eksport ke pelbagai format
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Conclusion
Aspose.OCR untuk .NET membolehkan anda menukar PDF yang dipindai kepada teks dan fail yang boleh dicari - menghapuskan entri manual dan membuat maklumat boleh diakses kepada seluruh organisasi anda.
Untuk maklumat lanjut dan contoh, lihat Aspose.OCR untuk .NET API Rujukan .