Làm thế nào để chuyển đổi PDF được quét sang tài liệu có thể tìm kiếm

Làm thế nào để chuyển đổi PDF được quét sang tài liệu có thể tìm kiếm

Nhiều tài liệu có giá trị bị mắc kẹt trong các tập tin PDF được quét, làm cho chúng không thể tìm kiếm và không sẵn dùng cho các công cụ Tìm kiếm hoặc Công cụ năng suất. Aspose.OCR Scanned PDF to Text for .NET cho phép bạn chuyển đổi các tệp static này thành các văn bản hoàn toàn có thể truy cập, chỉnh sửa với mã tối thiểu.

Vấn đề thế giới thực

Các hợp đồng PDF được quét, sách hoặc lưu trữ không thể được tìm kiếm, index, hoặc sao chép trừ khi văn bản được rút ra. retyping thủ công là chậm, đắt tiền, và có nguy cơ đưa ra lỗi - đặc biệt là cho các tập tin lớn hoặc nhiều trang.

Giải pháp Overview

Aspose.OCR cho .NET có thể thu thập các quy trình PDF được quét, lấy và xuất văn bản trong một loạt các định dạng – làm cho các tài liệu dễ tìm kiếm, indexable, và sẵn sàng cho dòng công việc kỹ thuật số hoặc tuân thủ.

Nguyên tắc

  • Visual Studio 2019 hoặc hơn
  • .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
  • Aspose.OCR cho .NET từ NuGet
  • Kinh nghiệm lập trình C#
PM> Install-Package Aspose.OCR

Chế độ thực hiện từng bước

Bước 1: Cài đặt và cấu hình Aspose.OCR

using Aspose.OCR;

Bước 2: Thêm tệp PDF được quét

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");

Bước 3: Thiết lập cài đặt nhận dạng cho PDF

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts

Bước 4: Thực hiện OCR trên các PDF được quét

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Bước 5: Xuất sang định dạng tìm kiếm

foreach (RecognitionResult result in results)
{
    result.Save("archive_searchable.pdf", SaveFormat.Pdf);   // Searchable PDF
    result.Save("archive_text.txt", SaveFormat.Text);         // Plain text
    result.Save("archive_word.docx", SaveFormat.Docx);       // Word document
}

Bước 6: Thêm lỗi xử lý và xác thực

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Bước 7: Tối ưu hóa cho nhiều trang và PDF lớn

  • Đối với PDF có nhiều trang, hãy thêm tệp và thiết lập phạm vi trang theo yêu cầu.
  • Tune thiết lập cho bố trí tài liệu và ngôn ngữ
  • Batch xử lý tất cả các tập tin trong một thư mục
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Bước 8: Chọn ví dụ đầy đủ

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive1.pdf");
            input.Add("books.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("archive_searchable.pdf", SaveFormat.Pdf);
                result.Save("archive_text.txt", SaveFormat.Text);
                result.Save("archive_word.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Sử dụng trường hợp và ứng dụng

Digital Archive Tìm kiếm

Chuyển lưu trữ tĩnh, quét thành các tài nguyên có thể tìm kiếm, được chỉ định cho các thư viện, các công ty pháp luật hoặc các tập đoàn.

Quy định và tuân thủ kỹ thuật số

Thu thập văn bản từ các tài liệu tuân thủ được quét để xác thực và kiểm toán.

Học tập và sách xuất bản

Digitize textbooks and research papers for digital access, e-learning, hoặc phân phối.

Những thách thức và giải pháp chung

Thách thức 1: Chất lượng thấp hoặc quét

** Giải pháp:** Preprocess for clarity; use AUTO mode for robust layout handling.

Thách thức 2: PDF đa ngôn ngữ

** Giải pháp:** Điều chỉnh cài đặt ngôn ngữ và kiểm tra trên các tệp mẫu.

Thách thức 3: Các tập tin rất lớn hoặc nhỏ

  • Giải pháp: * Hoạt động trong các gói có thể quản lý và theo dõi sử dụng bộ nhớ.

Các tính toán hiệu suất

  • Bộ xử lý Batch cho hiệu quả tối đa
  • Sử dụng PDF quét chất lượng tốt
  • Thiết bị OCR sau khi sử dụng

Thực hành tốt nhất

  • Chứng nhận output chống lại nguồn PDF trước khi tích hợp
  • Tổ chức PDF theo chủ đề hoặc bộ phận để quản lý dễ dàng hơn
  • Bảo mật tất cả các tập tin được quét và xử lý
  • Sử dụng phiên bản mới nhất của Aspose.OCR cho độ chính xác tốt nhất

kịch bản tiên tiến

Kịch bản 1: Export to JSON for Data Pipelines

foreach (RecognitionResult result in results)
{
    result.Save("archive_data.json", SaveFormat.Json);
}

Kịch bản 2: Selective Page OCR

input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only

Kết luận

Aspose.OCR Scanned PDF to Text for .NET cho phép bạn nhanh chóng chuyển đổi PDF được quét thành tài liệu có thể tìm kiếm và chỉnh sửa cho các dòng công việc hiện đại.

Tìm thêm mã tiên tiến và lời khuyên trong Aspose.OCR cho .NET API Reference .

 Tiếng Việt