Bagaimana untuk mengekstrak teks daripada PDF yang disemak dengan Aspose.OCR

Mengekstrak teks daripada skan atau berdasarkan imej Perkhidmatan PDF fail yang digunakan untuk memerlukan aliran kerja yang kompleks atau kerja manual yang mahal.Dengan Aspose.OCR Scanned PDF to Text for .NET, anda boleh mengautomatikkan proses ini, menukar PDF kepada teks yang boleh dicari dan boleh diedit dengan hanya beberapa baris kod.

Masalah dunia sebenar

Organisasi sering menerima kontrak, laporan, atau arkib seperti PDF yang disemak. menyalin teks secara manual atau mencari di dalam dokumen-dokumen ini adalah membosankan dan keliru, melambatkan pematuhan, penyimpanan, dan projek-projek transformasi digital.

Gambaran keseluruhan penyelesaian

Aspose.OCR untuk .NET membolehkan anda batch proses PDF yang disemak—mengubahnya ke dalam teks atau boleh dicari PDF, menjadikan maklumat yang boleh diakses, indeks, dan bersedia untuk aliran kerja digital.

Prerequisites

Sebelum memulakan, pastikan anda mempunyai:

Visual Studio 2019 atau seterusnya
.NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
Aspose.OCR untuk .NET daripada NuGet
Pengetahuan asas C

PM> Install-Package Aspose.OCR

Pelaksanaan langkah demi langkah

Langkah 1: Pemasangan dan Konfigurasi Aspose.OCR

Tambah pakej NuGet dan rujukan Aspose.OCR:

using Aspose.OCR;

Langkah 2: Tambah fail PDF anda yang disemak

Mencipta objek OcrInput untuk input PDF dan tambahkan fail PDF yang disemak.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Langkah 3: Mengesetkan tetapan pengenalan

Tetapkan bahasa dan tetapan pengenalan lain untuk menyesuaikan dokumen anda.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Langkah 4: Melaksanakan proses pengiktirafan

Mengenalpasti teks daripada PDF anda yang disemak:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Langkah 5: Simpan atau Eksport teks yang diiktiraf

Eksport teks yang diiktiraf ke dalam fail, atau menukar hasil kepada PDF yang boleh dicari.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Langkah 6: Menambah penyelesaian kesilapan

Menggerakkan pengenalan dalam blok percubaan / tangkapan untuk kekuatan.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Langkah 7: Mengoptimumkan untuk PDF besar atau berbilang halaman

Pemprosesan PDF halaman per halaman untuk fail besar
Gunakan pemindaian berkualiti tinggi untuk hasil terbaik
Proses batch secara serentak untuk koleksi besar

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Langkah 8: Contoh kerja lengkap

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Penggunaan Kasus dan Permohonan

Penyimpanan Digital

Menukar keseluruhan perpustakaan dokumen yang disemak ke dalam fail yang boleh dicari, indeks untuk pematuhan dan pengurusan pengetahuan.

Pengurusan Undang-undang dan Kontrak

Mengekstrak terma atau syarat kontrak daripada PDF untuk pemeriksaan, automatik, atau penandatanganan digital.

Pencarian dokumen Streamlined

Membolehkan carian teks penuh yang cepat dalam arkib, pangkalan pengetahuan, atau fail kes.

Tantangan dan Penyelesaian Bersama

Tantangan 1: Kualiti rendah atau pemindaian yang rosak

Penyelesaian: Gunakan penapis pra-proses dan pemindaian berkualiti tinggi di mana mungkin.

Tantangan 2: PDF dalam pelbagai bahasa

Penyelesaian: Tetapkan bahasa dalam tetapan pengenalan atau proses dengan pelbagai pilihan bahasa.

Tantangan 3: fail PDF yang sangat besar

Penyelesaian: Proses dalam batch atau per halaman, dan memantau penggunaan memori.

Pertimbangan prestasi

Menggunakan DPI yang optimum (300+) untuk PDF yang disemak
Proses batch untuk penghantaran terbaik
Menyediakan objek OCR dan pengendalian fail tertutup

amalan terbaik

Mengesahkan output OCR sebelum automatik lanjut
Mengatur dan menyimpan fail PDF asal
Gunakan SaveFormat yang betul untuk aliran kerja anda
Mengemas kini Aspose.OCR secara berkala untuk ciri-ciri PDF baru

Senario lanjutan

Senario 1: Mengekstrak hanya halaman tertentu daripada PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scenario 2: Eksport ke pelbagai format

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR untuk .NET membolehkan anda menukar PDF yang dipindai kepada teks dan fail yang boleh dicari - menghapuskan entri manual dan membuat maklumat boleh diakses kepada seluruh organisasi anda.

Untuk maklumat lanjut dan contoh, lihat Aspose.OCR untuk .NET API Rujukan .