Cách chuyển đổi PDF quét thành tài liệu văn bản có thể tìm kiếm trong .NET

Cách chuyển đổi PDF quét thành tài liệu văn bản có thể tìm kiếm trong .NET

Scanned PDFs thường khó làm việc vì chúng chủ yếu chỉ là hình ảnh của văn bản. Chuyển đổi những hình ảnh này thành tài liệu văn bản có thể tìm kiếm và chỉnh sửa mở ra một thế giới cơ hội cho việc quản lý tài liệu và khả năng truy cập nội dung. Với Aspose.OCR cho .NET, bạn có thể chuyển đổi các PDF quét thành tài liệu hoàn toàn có thể tìm kiếm trong khi vẫn giữ nguyên hình ảnh gốc.

Tại sao nên chuyển đổi PDF quét thành tài liệu văn bản có thể tìm kiếm?

  1. Khả năng truy cập:
    • Biến nội dung quét thành có thể tìm kiếm, giúp dễ dàng tìm thông tin mà không cần đọc thủ công qua tài liệu.
  2. Chỉnh sửa nội dung:
    • Khi đã chuyển đổi thành văn bản, nội dung có thể được chỉnh sửa, cập nhật hoặc tái sử dụng ở các định dạng khác.
  3. Hiệu quả:
    • Tiết kiệm thời gian bằng cách tự động hóa quá trình chuyển đổi PDF quét thành tài liệu văn bản hoàn toàn truy cập được.

Điều kiện tiên quyết: Thiết lập để trích xuất văn bản từ PDF quét

Trước khi trích xuất văn bản từ PDF quét, hãy làm theo các bước sau để đảm bảo mọi thứ được thiết lập:

  1. Cài đặt Aspose.OCR cho .NET:
    • Thêm Aspose.OCR vào dự án của bạn bằng cách sử dụng NuGet:
      dotnet add package Aspose.OCR
  2. Nhận giấy phép của bạn:
    • Thiết lập giấy phép theo dõi của bạn bằng cách sử dụng SetMeteredKey() để mở khóa toàn bộ chức năng của Aspose.OCR.
  3. Chuẩn bị PDF quét của bạn:
    • Đảm bảo rằng các PDF quét có chất lượng tốt để cải thiện độ chính xác nhận diện.

Hướng dẫn từng bước: Chuyển đổi PDF quét thành văn bản có thể tìm kiếm

Bước 1: Thiết lập giấy phép của bạn

Bắt đầu bằng cách cấu hình giấy phép Aspose.OCR của bạn để mở khóa tất cả các tính năng.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Giấy phép đã được cấu hình thành công.");

Bước 2: Tải PDF quét vào đối tượng đầu vào OCR

Tiếp theo, tải PDF quét vào đối tượng OcrInput để bắt đầu quá trình OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Xử lý 3 trang đầu
Console.WriteLine("PDF quét đã được tải thành công.");

Bước 3: Cấu hình động cơ OCR để nhận diện

Thiết lập động cơ OCR và cấu hình bất kỳ cài đặt nhận diện nào, chẳng hạn như ngôn ngữ và độ chính xác.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Đặt ngôn ngữ OCR
Console.WriteLine("Động cơ OCR đã được cấu hình.");

Bước 4: Trích xuất và xuất văn bản đã nhận diện

Bây giờ, hãy trích xuất văn bản từ PDF quét bằng cách sử dụng động cơ OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Văn bản đã được trích xuất thành công từ PDF quét.");

// Xuất văn bản đã nhận diện
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Lưu kết quả vào tệp văn bản
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Văn bản đã được lưu vào recognized_text.txt.");

Bước 5: Kiểm tra PDF có thể tìm kiếm

Đảm bảo rằng văn bản đã trích xuất có thể tìm kiếm và chỉnh sửa bằng cách kiểm tra đầu ra trong trình xem hoặc chỉnh sửa PDF.

Các vấn đề và giải pháp thường gặp

1. Độ chính xác OCR thấp

  • Giải pháp: Đảm bảo rằng PDF quét có chất lượng cao (ít nhất 300 DPI) để cải thiện kết quả nhận diện.

2. Phông chữ không được hỗ trợ

  • Giải pháp: Đảm bảo ngôn ngữ chính xác được thiết lập trong cài đặt OCR để nhận diện văn bản chính xác, đặc biệt là đối với các ký tự không phải Latin.

3. Hiệu suất chậm đối với PDF lớn

  • Giải pháp: Đối với PDF lớn, hãy xử lý tài liệu thành các phần nhỏ hơn hoặc các trang để giảm mức sử dụng bộ nhớ và tăng tốc độ quá trình.
 Tiếng Việt