Cara Mengkonversi PDF yang Dipindai ke Dokumen yang dapat dicari

Banyak dokumen berharga terperangkap dalam PDF yang dipindai, menjadikannya tidak dapat dicari dan tidak tersedia untuk mesin pencari atau alat produktivitas PDF untuk Text for .NET memungkinkan Anda mengubah file statik ini menjadi dokumen yang dapat dicari sepenuhnya dan dapat diedit dengan kode minimum.

Masalah dunia nyata

Kontrak PDF yang dipindai, buku, atau arkib tidak dapat dicari, diindeks atau disalin kecuali teks dikeluarkan. retyping manual lambat, mahal, dan berisiko membuat kesalahan - terutama untuk file besar atau multi-page.

Penyelesaian Overview

Aspose.OCR untuk .NET dapat membungkus proses PDF yang dipindai, mengekstrak dan mengeksportasi teks dalam berbagai format – membuat dokumen yang dapat dicari, dapat diindeks, dan siap untuk aliran kerja digital atau pematuhan.

Persyaratan

Visual Studio 2019 atau lebih baru
.NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
Aspose.OCR untuk .NET dari NuGet
Pengalaman dalam pemrograman C

PM> Install-Package Aspose.OCR

Implementasi langkah demi langkah

Langkah 1: Menginstal dan mengkonfigurasi Aspose.OCR

using Aspose.OCR;

Langkah 2: Tambahkan file PDF yang dipindai

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");

Langkah 3: Mengkonfigurasi pengaturan pengenalan untuk PDF

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts

Langkah 4: Lakukan OCR pada PDF yang dipindai

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Langkah 5: Ekspor ke format yang dapat dicari

foreach (RecognitionResult result in results)
{
    result.Save("archive_searchable.pdf", SaveFormat.Pdf);   // Searchable PDF
    result.Save("archive_text.txt", SaveFormat.Text);         // Plain text
    result.Save("archive_word.docx", SaveFormat.Docx);       // Word document
}

Langkah 6: Menambahkan Error Handling dan Validasi

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Langkah 7: Optimisasi untuk Multi-Page dan PDF Besar

Untuk PDF dengan banyak halaman, tambahkan file dan tetapkan jalur halaman sesuai kebutuhan
Tetapan Tune untuk tata letak dokumen dan bahasa
Batch memproses semua file dalam direktori

foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Langkah 8 : Contoh Lengkap

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive1.pdf");
            input.Add("books.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("archive_searchable.pdf", SaveFormat.Pdf);
                result.Save("archive_text.txt", SaveFormat.Text);
                result.Save("archive_word.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Menggunakan kasus dan aplikasi

Pencarian Arsip Digital

Konversi arkib statik, yang dipindai menjadi sumber daya yang dapat dicari dan diindeks untuk perpustakaan, perusahaan hukum, atau perusahaan.

Peraturan dan Kepatuhan Digitalisasi

Mengekstrak teks dari dokumen pematuhan yang dipindai untuk validasi dan audit.

Akademik dan Penerbitan Buku

Digitalisasi buku teks dan kertas penelitian untuk akses digital, e-learning, atau distribusi.

Tantangan dan Solusi Umum

Tantangan 1: Kualitas rendah atau scan terbalik

Solusi: Preprocess untuk ketelusan; gunakan mode AUTO untuk pengendalian layout yang kuat.

Tantangan 2: Multi-bahasa PDF

Solusi: Mengatur pengaturan bahasa dan menguji pada file sampel.

Tantangan 3: File yang sangat besar atau batch

Solusi: Proses dalam batch yang dapat dikelola dan memantau penggunaan memori.

Pertimbangan kinerja

Proses batch untuk efisiensi maksimum
Menggunakan PDF yang berkualitas baik
Mendapatkan objek OCR setelah digunakan

Praktik Terbaik

Validasi output terhadap PDF sumber sebelum integrasi
Mengatur PDF dengan tema atau departemen untuk pengelolaan yang lebih mudah
Menyelamatkan semua file yang dipindai dan diproses
Gunakan versi terbaru Aspose.OCR untuk ketepatan terbaik

Skenario Lanjutan

Skenario 1: Ekspor ke JSON untuk Pipa Data

foreach (RecognitionResult result in results)
{
    result.Save("archive_data.json", SaveFormat.Json);
}

Skenario 2: Selektif Halaman OCR

input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only

Kesimpulan

Aspose.OCR Scanned PDF to Text for .NET memungkinkan Anda dengan cepat mengubah PDF yang dipindai menjadi dokumen yang dapat dicari dan dapat diedit untuk aliran kerja modern.

Temukan kode dan tips lebih lanjut di Aspose.OCR untuk .NET API Referensi .