Làm thế nào để trích xuất văn bản từ các PDF được quét trong .NET bằng cách sử dụng Aspose.OCR

Làm thế nào để trích xuất văn bản từ các PDF được quét trong .NET bằng cách sử dụng Aspose.OCR

PDF được quét thường là thách thức để làm việc với vì chúng về cơ bản chỉ là hình ảnh văn bản. Việc chuyển đổi những hình ảnh này thành các tài liệu văn bản có thể tìm kiếm, chỉnh sửa mở ra một thế giới của khả năng quản lý tài liệu và khả năng truy cập nội dung. Với Aspose.OCR cho .NET, bạn có thể chuyển đổi PDF được quét thành các tài liệu có thể tìm kiếm đầy đủ trong khi duy trì hình ảnh ban đầu.

Tại sao OCR (Optical Character Recognition) quan trọng đối với PDF được quét

  • Tiết xuất dữ liệu:- OCR cho phép bạn chuyển đổi văn bản quét thành dữ liệu có thể đọc bằng máy, có thể được chỉnh sửa và index.

  • Khả năng tìm kiếm:- Bằng cách chuyển đổi PDF được quét thành tài liệu có thể tìm kiếm, bạn có thể nhanh chóng tìm thấy thông tin liên quan mà không cần tìm kiếm bằng tay thông qua các trang.

  • Tăng cường năng suất:- Tiết kiệm thời gian bằng cách tự động chuyển đổi các tài liệu được quét sang các định dạng có thể chỉnh sửa như Word hoặc Excel.

Yêu cầu: Cài đặt cho PDF Text Extraction Scanned

Trước khi bạn bắt đầu thu thập văn bản từ các PDF được quét, hãy đảm bảo rằng các bước sau đây được hoàn thành:

  • Cài đặt Aspose.OCR cho .NET:- Thêm Aspose.OCR vào dự án của bạn bằng NuGet: dotnet add package Aspose.OCR

  • Nhận giấy phép đo lường:- Thiết lập giấy phép đo của bạn để mở khóa tất cả các tính năng của thư viện Aspose.OCR sử dụng SetMeteredKey().

  • Cung cấp PDF đã quét của bạn:- Hãy chắc chắn rằng PDF được quét của bạn là chất lượng cao. kết quả chất lượng tốt hơn trong OCR chính xác hơn.

Hướng dẫn từng bước: Thích xuất văn bản từ PDF được quét

Bước 1: Cài đặt thư viện cần thiết

Bắt đầu bằng cách cài đặt Aspose.OCR cho .NET vào dự án của bạn. bạn có thể làm điều này trực tiếp từ NuGet.

dotnet add package Aspose.OCR

Bước 2: Thiết lập khóa giấy phép của bạn

Trước khi tiến hành, hãy thiết lập giấy phép của bạn cho Aspose.OCR để mở khóa tất cả các tính năng.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Bước 3: Tải PDF quét vào đối tượng nhập OCR

Bạn sẽ cần tải PDF được quét vào OcrInput object. Aspose.OCR hỗ trợ quét nhiều trang của một PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Bước 4: Xử lý PDF quét bằng OCR Engine

Với PDF được tải lên, chuyển nó sang động cơ Aspose OCR để nhận dạng.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Bước 5: Tắt văn bản được nhận hoặc lưu nó

Một khi động cơ OCR xử lý PDF, bạn có thể xuất bản văn bản được công nhận trực tiếp hoặc lưu nó vào một tệp.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Bước 6: Kiểm tra và tối ưu hóa kết quả OCR

Sau khi trích xuất văn bản, kiểm tra kết quả cho độ chính xác. nếu cần thiết, bạn có thể gõ cài đặt OCR để cải thiện kết quả cho các bố trí tài liệu khác nhau.

Các vấn đề chung và Fixes

• Độ chính xác OCR

  • Solution: Hãy chắc chắn rằng chất lượng PDF được quét là cao. Sử dụng quét độ phân giải cao để cải thiện độ chính xác nhận dạng.

2.Không hỗ trợ Fonts

  • Giải pháp: Cung cấp cài đặt ngôn ngữ chính xác trong các tùy chọn OCR để nâng cao nhận thức cho các ký tự không Latin.

3. hiệu suất chậm

  • Giải pháp: Chia PDF thành các mảnh nhỏ hơn hoặc các trang để xử lý nhanh hơn, đặc biệt là đối với các tài liệu lớn.
 Tiếng Việt