Cara Mengekstrak Teks dari Gambar yang Dipindai dengan Aspose.OCR

Cara Mengekstrak Teks dari Gambar yang Dipindai dengan Aspose.OCR

Memindai kontrak, perjanjian, halaman buku, atau rekaman lama biasanya menghasilkan file gambar—tidak dapat diedit teks. Aspose.OCR Scan to Text for .NET memungkinkan Anda untuk mengautomatikkan ekstraksi teks terstruktur, dapat dicari dari dokumen atau foto yang dipindahkan, menghemat jam masuk manual yang tak terhitung jumlahnya.

Masalah dunia nyata

Dokumen kertas, buku, dan arkib sering disimpan sebagai gambar. mengekstrak konten mereka untuk aliran kerja digital, pematuhan, atau penelitian dapat lambat, mahal, and prone to error if done manually.

Penyelesaian Overview

Aspose.OCR Scan to Text for .NET mengubah gambar halaman cetak menjadi teks yang dapat digunakan, mengendalikan satu kolom, multi-kolom dan tata letak yang kompleks. aliran kerja ini sempurna untuk digitalisasi kontrak, buku, rekaman, dan dokumen bisnis untuk penggunaan modern.

Persyaratan

Pastikan Anda memiliki:

  • Visual Studio 2019 atau lebih baru
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET dari NuGet
  • Pengetahuan dasar C#
PM> Install-Package Aspose.OCR

Implementasi langkah demi langkah

Langkah 1: Menginstal dan mengkonfigurasi Aspose.OCR

Tambahkan paket NuGet dan referensi Aspose.OCR:

using Aspose.OCR;

Langkah 2: Tambahkan gambar yang dipancarkan

Mengisi satu atau lebih file gambar untuk diproses.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Langkah 3: Mengkonfigurasi Pengenalan

Tune untuk bahasa dokumen dan layout seperti yang diperlukan.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Langkah 4: Melakukan proses pengakuan

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Langkah 5: Simpan atau memproses teks yang dikeluarkan

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Langkah 6: Menambahkan Error Handling

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Langkah 7: Mengoptimalkan Layout Dokumen

  • Untuk buku-buku atau artikel, gunakan DetectAreasMode.DOCUMENT atau coba DetektAreaModa.AUTO
  • Preprocess image (crop, deskew) untuk ketepatan terbaik
  • Proses Batch untuk Arsip Besar
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Langkah 8 : Contoh Lengkap

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Menggunakan kasus dan aplikasi

Kontrak dan Perjanjian Digitalisasi

Dengan cepat digitalisasi dokumen hukum atau bisnis untuk pencarian, penyimpanan, dan aliran kerja digital.

Pemrosesan Buku dan Arsip

Konversi halaman buku atau rekaman sejarah ke format yang dapat dicari dan dapat diedit.

Mematuhi dan pengekstrakan data

Memungkinkan pemeriksaan pematuhan otomatis, audit, atau ekstraksi teks dari dokumen warisan.

Tantangan dan Solusi Umum

Tantangan 1: Kualitas rendah scan atau teks yang tergelincir

Solusi: Gunakan pre-processing atau memperbaiki gambar untuk ketepatan OCR yang lebih baik.

Tantangan 2: Multi-Column atau Layout Kompleks

** Solusi:** Mengadaptasi DetectAreasMode dan menguji untuk pengelolaan layout terbaik.

Tantangan 3: Digitalisasi Batch

** Solusi:** Gunakan pemrosesan batch dan manajemen sumber daya untuk pekerjaan berskala besar.

Pertimbangan kinerja

  • Proses batch untuk kecepatan dan scalability
  • Gunakan gambar sumber yang berkualitas
  • Menyediakan objek OCR setelah digunakan

Praktik Terbaik

  • Selalu validasi teks yang dikeluarkan sebelum otomatis atau mengarkibkan
  • Gunakan pengaturan pengenalan yang benar untuk jenis dokumen
  • Backup scan asli untuk referensi
  • Hasil tes OCR pada sampel batch sebelum produksi

Skenario Lanjutan

Skenario 1: Ekstraksi dokumen berbilang bahasa

settings.Language = Language.French;

Skenario 2: Ekspor ke JSON untuk Integrasi

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

Kesimpulan

Aspose.OCR Scan to Text for .NET adalah cara tercepat untuk mengubah gambar dan dokumen kertas yang dipindai menjadi teks yang dapat digunakan dan dapat diedit – ideal untuk proyek hukum, akademis, atau bisnis.

Lihat lebih banyak contoh dan rincian teknis di Aspose.OCR untuk .NET API Referensi .

 Indonesia