Bagaimana untuk mengekstrak teks daripada imej yang disemak dengan Aspose.OCR
Mengimbas kontrak, perjanjian, halaman buku, atau rekod lama biasanya menghasilkan fail imej—tidak boleh diedit teks. Aspose.OCR Scan to Text for .NET membolehkan anda mengautomatikkan pengekstrakan teks yang terstruktur, boleh dicari daripada mana-mana dokumen atau gambar yang dipancarkan, menjimatkan banyak jam input manual.
Masalah dunia sebenar
Dokumen kertas, buku, dan arkib sering disimpan sebagai imej. Mengekstrak kandungan mereka untuk aliran kerja digital, pematuhan, atau penyelidikan boleh menjadi perlahan, mahal dan cenderung untuk kesilapan jika dilakukan secara manual.
Gambaran keseluruhan penyelesaian
Aspose.OCR Scan to Text untuk .NET menukar imej halaman cetak ke teks yang boleh digunakan, mengendalikan satu lajur, pelbagai lapisan, dan tataletak yang kompleks. aliran kerja ini sempurna untuk digitalisasi kontrak, buku, rekod dan dokumen perniagaan untuk kegunaan moden.
Prerequisites
Pastikan anda mempunyai:
- Visual Studio 2019 atau seterusnya
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET daripada NuGet
- Pengetahuan asas C#
PM> Install-Package Aspose.OCR
Pelaksanaan langkah demi langkah
Langkah 1: Pemasangan dan Konfigurasi Aspose.OCR
Tambah pakej NuGet dan rujukan Aspose.OCR:
using Aspose.OCR;
Langkah 2: Masukkan imej anda yang disemak
Muat turun fail imej tunggal atau berbilang untuk diproses.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
Langkah 3: Mengesetkan tetapan pengenalan
Tune untuk bahasa dokumen dan tataletak seperti yang diperlukan.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
Langkah 4: Melaksanakan proses pengiktirafan
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Langkah 5: Simpan atau memproses teks yang dikeluarkan
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
// Save to Word or PDF as needed
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
Langkah 6: Menambah penyelesaian kesilapan
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Use results...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Langkah 7: Mengoptimumkan Layout Dokumen
- Untuk buku-buku atau artikel, gunakan DetectAreasMode.DOCUMENT atau percubaan DetecTrea.AUTO
- Preprocess imej (crop, deskew) untuk ketepatan terbaik
- Proses batch untuk arkib besar
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
input.Add(file);
}
Langkah 8 : Contoh Lengkap
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Penggunaan Kasus dan Permohonan
Kontrak dan Perjanjian Digitalisasi
Dengan cepat digitalisasi dokumen undang-undang atau perniagaan untuk carian, arkib, dan aliran kerja digital.
Pemprosesan buku dan arkib
Menukar halaman buku atau rekod sejarah kepada format yang boleh dicari dan boleh diedit.
Kepatuhan dan pengekstrakan data
Membolehkan pemeriksaan pematuhan automatik, audit, atau pengekstrakan teks daripada dokumen warisan.
Tantangan dan Penyelesaian Bersama
Tantangan 1: Kualiti rendah pemindaian atau teks yang rosak
** Penyelesaian:** Gunakan pemprosesan pra atau meningkatkan imej untuk ketepatan OCR yang lebih baik.
Tantangan 2: Layout Multi-Column atau Kompleks
** Penyelesaian:** Sesuai DetectAreasMode dan ujian untuk pengendalian tataletak yang terbaik.
Tantangan 3 : Digitalisasi Batch
** Penyelesaian:** Gunakan pemprosesan batch dan pengurusan sumber untuk pekerjaan skala besar.
Pertimbangan prestasi
- Proses batch untuk kelajuan dan scalability
- Menggunakan imej sumber yang berkualiti
- Menyediakan objek OCR selepas digunakan
amalan terbaik
- Sentiasa mengesahkan teks yang dikeluarkan sebelum automatik atau arkib
- Gunakan tetapan pengenalan yang betul untuk jenis dokumen
- Backup skrin asal untuk rujukan
- Ujian OCR hasil pada sampel batch sebelum pengeluaran
Senario lanjutan
Skenario 1: Pengekstrakan dokumen pelbagai bahasa
settings.Language = Language.French;
Senario 2: Eksport ke JSON untuk Integrasi
foreach (RecognitionResult result in results)
{
result.Save("scanned_text.json", SaveFormat.Json);
}
Conclusion
Aspose.OCR Scan to Text untuk .NET adalah cara yang paling cepat untuk menukar imej dan dokumen kertas yang disemak ke dalam teks yang boleh digunakan, boleh diedit – sesuai untuk projek undang-undang, akademik, atau perniagaan.
Lihat lebih banyak contoh dan butiran teknikal dalam Aspose.OCR untuk .NET API Rujukan .