Làm thế nào để trích xuất văn bản từ các PDF được quét với Aspose.OCR

Thu thập văn bản từ quét hoặc dựa trên hình ảnh PDF Các tập tin được sử dụng để yêu cầu dòng công việc phức tạp hoặc làm việc thủ công đắt tiền. Với Aspose.OCR Scanned PDF to Text for .NET, bạn có thể tự động hóa quá trình này, chuyển đổi PDF sang văn bản có khả năng tìm kiếm và chỉnh sửa chỉ với một vài dòng mã.

Vấn đề thế giới thực

Các tổ chức thường nhận được các hợp đồng, báo cáo, hoặc lưu trữ như các tập tin PDF được quét. Bản sao văn bản bằng tay hoặc tìm kiếm bên trong các tài liệu này là mệt mỏi và sai lầm, làm chậm việc tuân thủ, lưu hành, và các dự án chuyển đổi kỹ thuật số.

Giải pháp Overview

Aspose.OCR cho .NET cho phép bạn tập hợp quá trình PDF được quét – biến chúng thành văn bản hoặc PDF có thể tìm kiếm, làm cho thông tin dễ tiếp cận, indexable, và sẵn sàng cho dòng công việc kỹ thuật số.

Nguyên tắc

Trước khi bắt đầu, hãy chắc chắn rằng bạn có:

Visual Studio 2019 hoặc hơn
.NET 6.0 hoặc mới hơn (hoặc .NET Framework 4.6.2+)
Aspose.OCR cho .NET từ NuGet
C# kiến thức cơ bản

PM> Install-Package Aspose.OCR

Chế độ thực hiện từng bước

Bước 1: Cài đặt và cấu hình Aspose.OCR

Thêm gói NuGet và tham khảo Aspose.OCR:

using Aspose.OCR;

Bước 2: Thêm tệp PDF quét của bạn

Tạo một đối tượng OcrInput cho nhập PDF và thêm tệp PDF quét của bạn.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Bước 3: Thiết lập cài đặt nhận dạng

Thiết lập ngôn ngữ và các cài đặt nhận dạng khác để phù hợp với tài liệu của bạn.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Bước 4: Thực hiện quá trình nhận dạng

Nhận biết văn bản từ các PDF được quét của bạn:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Bước 5: Lưu hoặc xuất văn bản được công nhận

Xuất khẩu văn bản được công nhận sang tệp, hoặc chuyển đổi kết quả sang PDF có thể tìm kiếm.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Bước 6: Thêm lỗi xử lý

Nhập nhận dạng trong một block try/catch cho độ bền.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Bước 7: Tối ưu hóa cho PDF lớn hoặc nhiều trang

Xử lý PDFs trang theo trang cho các tệp lớn
Sử dụng quét chất lượng cao cho kết quả tốt nhất
Bộ xử lý đồng bộ cho các bộ sưu tập lớn

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Bước 8: Hoàn thành ví dụ làm việc

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Sử dụng trường hợp và ứng dụng

Archive kỹ thuật số

Chuyển đổi toàn bộ thư viện các tài liệu được quét thành các tệp có thể tìm kiếm, chỉ định để tuân thủ và quản lý kiến thức.

Quản lý pháp lý và hợp đồng

Thu thập các điều khoản hoặc điều kiện hợp đồng từ PDF để xem xét, tự động hóa hoặc ký kết kỹ thuật số.

Streamlined Document Tìm kiếm

Khả năng tìm kiếm văn bản đầy đủ nhanh chóng trong các tập tin, cơ sở kiến thức hoặc tệp trường hợp.

Những thách thức và giải pháp chung

Thách thức 1: Chất lượng thấp hoặc quét

Giải pháp: Sử dụng bộ lọc trước xử lý và quét chất lượng cao khi có thể.

Thách thức 2: PDF đa ngôn ngữ

Giải pháp: Thiết lập ngôn ngữ trong cài đặt nhận dạng hoặc quá trình với nhiều tùy chọn ngôn từ.

Thách thức 3: Các tập tin PDF rất lớn

Giải pháp: Thực hiện theo gói hoặc theo trang, và theo dõi sử dụng bộ nhớ.

Các tính toán hiệu suất

Sử dụng tối ưu DPI (300+) cho PDF được quét
Bộ xử lý Batch cho thông qua tốt nhất
Thiết lập các đối tượng OCR và bộ xử lý tắt tệp

Thực hành tốt nhất

Chứng nhận OCR trước khi tự động hóa thêm
Tổ chức và sao lưu các tập tin PDF gốc
Sử dụng SaveFormat đúng cho dòng công việc của bạn
Cập nhật Aspose.OCR thường xuyên cho các tính năng PDF mới

kịch bản tiên tiến

Kịch bản 1: Chỉ loại bỏ các trang cụ thể từ PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Kịch bản 2: xuất khẩu sang nhiều định dạng

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Kết luận

Aspose.OCR cho .NET cho phép bạn chuyển đổi các PDF được quét thành văn bản có thể thực hiện và các tệp tìm kiếm – loại bỏ nhập thủ công và làm cho thông tin có sẵn cho toàn bộ tổ chức của bạn.

Để biết thêm chi tiết và ví dụ, hãy xem Aspose.OCR cho .NET API Reference .