Làm thế nào để trích xuất văn bản từ các PDF được quét với Aspose.OCR
Tiết xuất văn bản từ các tệp PDF được quét hoặc dựa trên hình ảnh được sử dụng để yêu cầu dòng công việc phức tạp hoặc làm việc thủ công đắt tiền. Với Aspose.OCR Scanned PDF to Text for .NET, bạn có thể tự động hóa quá trình này, chuyển đổi PDF sang văn Bản có khả năng tìm kiếm và chỉnh sửa chỉ với một vài dòng mã.
Vấn đề thế giới thực
Các tổ chức thường nhận được các hợp đồng, báo cáo, hoặc lưu trữ như các tập tin PDF được quét. Bản sao văn bản bằng tay hoặc tìm kiếm bên trong các tài liệu này là mệt mỏi và sai lầm, làm chậm việc tuân thủ, lưu hành, và các dự án chuyển đổi kỹ thuật số.
Giải pháp Overview
Aspose.OCR cho .NET cho phép bạn tập hợp quá trình PDF được quét – biến chúng thành văn bản hoặc PDF có thể tìm kiếm, làm cho thông tin dễ tiếp cận, indexable, và sẵn sàng cho dòng công việc kỹ thuật số.
Nguyên tắc
Trước khi bắt đầu, hãy chắc chắn rằng bạn có:
- Visual Studio 2019 hoặc hơn
- .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
- Aspose.OCR cho .NET từ NuGet
- C# kiến thức cơ bản
PM> Install-Package Aspose.OCR
Chế độ thực hiện từng bước
Bước 1: Cài đặt và cấu hình Aspose.OCR
Thêm gói NuGet và tham khảo Aspose.OCR:
using Aspose.OCR;
Bước 2: Thêm tệp PDF quét của bạn
Tạo một đối tượng OcrInput cho nhập PDF và thêm tệp PDF quét của bạn.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Bước 3: Thiết lập cài đặt nhận dạng
Thiết lập ngôn ngữ và các cài đặt nhận dạng khác để phù hợp với tài liệu của bạn.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Bước 4: Thực hiện quá trình nhận dạng
Nhận biết văn bản từ các PDF được quét của bạn:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Bước 5: Lưu hoặc xuất văn bản được công nhận
Xuất khẩu văn bản được công nhận sang tệp, hoặc chuyển đổi kết quả sang PDF có thể tìm kiếm.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Bước 6: Thêm lỗi xử lý
Nhập nhận dạng trong một block try/catch cho độ bền.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Bước 7: Tối ưu hóa cho PDF lớn hoặc nhiều trang
- Xử lý PDFs trang theo trang cho các tệp lớn
- Sử dụng quét chất lượng cao cho kết quả tốt nhất
- Bộ xử lý đồng bộ cho các bộ sưu tập lớn
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Bước 8: Hoàn thành ví dụ làm việc
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Sử dụng trường hợp và ứng dụng
Archive kỹ thuật số
Chuyển đổi toàn bộ thư viện các tài liệu được quét thành các tệp có thể tìm kiếm, chỉ định để tuân thủ và quản lý kiến thức.
Quản lý pháp lý và hợp đồng
Thu thập các điều khoản hoặc điều kiện hợp đồng từ PDF để xem xét, tự động hóa hoặc ký kết kỹ thuật số.
Streamlined Document Tìm kiếm
Khả năng tìm kiếm văn bản đầy đủ nhanh chóng trong các tập tin, cơ sở kiến thức hoặc tệp trường hợp.
Những thách thức và giải pháp chung
Thách thức 1: Chất lượng thấp hoặc quét
- Giải pháp: * Sử dụng bộ lọc trước xử lý và quét chất lượng cao khi có thể.
Thách thức 2: PDF đa ngôn ngữ
** Giải pháp:** Thiết lập ngôn ngữ trong cài đặt nhận dạng hoặc quá trình với nhiều tùy chọn ngôn từ.
Thách thức 3: Các tập tin PDF rất lớn
- Giải pháp: * Thực hiện theo gói hoặc theo trang, và theo dõi sử dụng bộ nhớ.
Các tính toán hiệu suất
- Sử dụng tối ưu DPI (300+) cho PDF được quét
- Bộ xử lý Batch cho thông qua tốt nhất
- Thiết lập các đối tượng OCR và bộ xử lý tắt tệp
Thực hành tốt nhất
- Chứng nhận OCR trước khi tự động hóa thêm
- Tổ chức và sao lưu các tập tin PDF gốc
- Sử dụng SaveFormat đúng cho dòng công việc của bạn
- Cập nhật Aspose.OCR thường xuyên cho các tính năng PDF mới
kịch bản tiên tiến
Kịch bản 1: Chỉ loại bỏ các trang cụ thể từ PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Kịch bản 2: xuất khẩu sang nhiều định dạng
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Kết luận
Aspose.OCR cho .NET cho phép bạn chuyển đổi các PDF được quét thành văn bản có thể thực hiện và các tệp tìm kiếm – loại bỏ nhập thủ công và làm cho thông tin có sẵn cho toàn bộ tổ chức của bạn.
Để biết thêm chi tiết và ví dụ, hãy xem Aspose.OCR cho .NET API Reference .