Bagaimana untuk mengekstrak teks daripada imej yang disemak dengan Aspose.OCR

Bagaimana untuk mengekstrak teks daripada imej yang disemak dengan Aspose.OCR

Mengimbas kontrak, perjanjian, halaman buku, atau rekod lama biasanya menghasilkan fail imej—tidak boleh diedit teks. Aspose.OCR Scan to Text for .NET membolehkan anda mengautomatikkan pengekstrakan teks yang terstruktur, boleh dicari daripada mana-mana dokumen atau gambar yang dipancarkan, menjimatkan banyak jam input manual.

Masalah dunia sebenar

Dokumen kertas, buku, dan arkib sering disimpan sebagai imej. Mengekstrak kandungan mereka untuk aliran kerja digital, pematuhan, atau penyelidikan boleh menjadi perlahan, mahal dan cenderung untuk kesilapan jika dilakukan secara manual.

Gambaran keseluruhan penyelesaian

Aspose.OCR Scan to Text untuk .NET menukar imej halaman cetak ke teks yang boleh digunakan, mengendalikan satu lajur, pelbagai lapisan, dan tataletak yang kompleks. aliran kerja ini sempurna untuk digitalisasi kontrak, buku, rekod dan dokumen perniagaan untuk kegunaan moden.

Prerequisites

Pastikan anda mempunyai:

  • Visual Studio 2019 atau seterusnya
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET daripada NuGet
  • Pengetahuan asas C#
PM> Install-Package Aspose.OCR

Pelaksanaan langkah demi langkah

Langkah 1: Pemasangan dan Konfigurasi Aspose.OCR

Tambah pakej NuGet dan rujukan Aspose.OCR:

using Aspose.OCR;

Langkah 2: Masukkan imej anda yang disemak

Muat turun fail imej tunggal atau berbilang untuk diproses.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Langkah 3: Mengesetkan tetapan pengenalan

Tune untuk bahasa dokumen dan tataletak seperti yang diperlukan.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Langkah 4: Melaksanakan proses pengiktirafan

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Langkah 5: Simpan atau memproses teks yang dikeluarkan

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Langkah 6: Menambah penyelesaian kesilapan

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Langkah 7: Mengoptimumkan Layout Dokumen

  • Untuk buku-buku atau artikel, gunakan DetectAreasMode.DOCUMENT atau percubaan DetecTrea.AUTO
  • Preprocess imej (crop, deskew) untuk ketepatan terbaik
  • Proses batch untuk arkib besar
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Langkah 8 : Contoh Lengkap

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Penggunaan Kasus dan Permohonan

Kontrak dan Perjanjian Digitalisasi

Dengan cepat digitalisasi dokumen undang-undang atau perniagaan untuk carian, arkib, dan aliran kerja digital.

Pemprosesan buku dan arkib

Menukar halaman buku atau rekod sejarah kepada format yang boleh dicari dan boleh diedit.

Kepatuhan dan pengekstrakan data

Membolehkan pemeriksaan pematuhan automatik, audit, atau pengekstrakan teks daripada dokumen warisan.

Tantangan dan Penyelesaian Bersama

Tantangan 1: Kualiti rendah pemindaian atau teks yang rosak

** Penyelesaian:** Gunakan pemprosesan pra atau meningkatkan imej untuk ketepatan OCR yang lebih baik.

Tantangan 2: Layout Multi-Column atau Kompleks

** Penyelesaian:** Sesuai DetectAreasMode dan ujian untuk pengendalian tataletak yang terbaik.

Tantangan 3 : Digitalisasi Batch

** Penyelesaian:** Gunakan pemprosesan batch dan pengurusan sumber untuk pekerjaan skala besar.

Pertimbangan prestasi

  • Proses batch untuk kelajuan dan scalability
  • Menggunakan imej sumber yang berkualiti
  • Menyediakan objek OCR selepas digunakan

amalan terbaik

  • Sentiasa mengesahkan teks yang dikeluarkan sebelum automatik atau arkib
  • Gunakan tetapan pengenalan yang betul untuk jenis dokumen
  • Backup skrin asal untuk rujukan
  • Ujian OCR hasil pada sampel batch sebelum pengeluaran

Senario lanjutan

Skenario 1: Pengekstrakan dokumen pelbagai bahasa

settings.Language = Language.French;

Senario 2: Eksport ke JSON untuk Integrasi

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR Scan to Text untuk .NET adalah cara yang paling cepat untuk menukar imej dan dokumen kertas yang disemak ke dalam teks yang boleh digunakan, boleh diedit – sesuai untuk projek undang-undang, akademik, atau perniagaan.

Lihat lebih banyak contoh dan butiran teknikal dalam Aspose.OCR untuk .NET API Rujukan .

 Melayu