Cara Mengekstrak Teks dari Gambar yang Dipindai dengan Aspose.OCR
Memindai kontrak, perjanjian, halaman buku, atau rekaman lama biasanya menghasilkan file gambar—tidak dapat diedit teks. Aspose.OCR Scan to Text for .NET memungkinkan Anda untuk mengautomatikkan ekstraksi teks terstruktur, dapat dicari dari dokumen atau foto yang dipindahkan, menghemat jam masuk manual yang tak terhitung jumlahnya.
Masalah dunia nyata
Dokumen kertas, buku, dan arkib sering disimpan sebagai gambar. mengekstrak konten mereka untuk aliran kerja digital, pematuhan, atau penelitian dapat lambat, mahal, and prone to error if done manually.
Penyelesaian Overview
Aspose.OCR Scan to Text for .NET mengubah gambar halaman cetak menjadi teks yang dapat digunakan, mengendalikan satu kolom, multi-kolom dan tata letak yang kompleks. aliran kerja ini sempurna untuk digitalisasi kontrak, buku, rekaman, dan dokumen bisnis untuk penggunaan modern.
Persyaratan
Pastikan Anda memiliki:
- Visual Studio 2019 atau lebih baru
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET dari NuGet
- Pengetahuan dasar C#
PM> Install-Package Aspose.OCR
Implementasi langkah demi langkah
Langkah 1: Menginstal dan mengkonfigurasi Aspose.OCR
Tambahkan paket NuGet dan referensi Aspose.OCR:
using Aspose.OCR;
Langkah 2: Tambahkan gambar yang dipancarkan
Mengisi satu atau lebih file gambar untuk diproses.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
Langkah 3: Mengkonfigurasi Pengenalan
Tune untuk bahasa dokumen dan layout seperti yang diperlukan.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
Langkah 4: Melakukan proses pengakuan
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Langkah 5: Simpan atau memproses teks yang dikeluarkan
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
// Save to Word or PDF as needed
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
Langkah 6: Menambahkan Error Handling
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Use results...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Langkah 7: Mengoptimalkan Layout Dokumen
- Untuk buku-buku atau artikel, gunakan DetectAreasMode.DOCUMENT atau coba DetektAreaModa.AUTO
- Preprocess image (crop, deskew) untuk ketepatan terbaik
- Proses Batch untuk Arsip Besar
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
input.Add(file);
}
Langkah 8 : Contoh Lengkap
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Menggunakan kasus dan aplikasi
Kontrak dan Perjanjian Digitalisasi
Dengan cepat digitalisasi dokumen hukum atau bisnis untuk pencarian, penyimpanan, dan aliran kerja digital.
Pemrosesan Buku dan Arsip
Konversi halaman buku atau rekaman sejarah ke format yang dapat dicari dan dapat diedit.
Mematuhi dan pengekstrakan data
Memungkinkan pemeriksaan pematuhan otomatis, audit, atau ekstraksi teks dari dokumen warisan.
Tantangan dan Solusi Umum
Tantangan 1: Kualitas rendah scan atau teks yang tergelincir
Solusi: Gunakan pre-processing atau memperbaiki gambar untuk ketepatan OCR yang lebih baik.
Tantangan 2: Multi-Column atau Layout Kompleks
** Solusi:** Mengadaptasi DetectAreasMode dan menguji untuk pengelolaan layout terbaik.
Tantangan 3: Digitalisasi Batch
** Solusi:** Gunakan pemrosesan batch dan manajemen sumber daya untuk pekerjaan berskala besar.
Pertimbangan kinerja
- Proses batch untuk kecepatan dan scalability
- Gunakan gambar sumber yang berkualitas
- Menyediakan objek OCR setelah digunakan
Praktik Terbaik
- Selalu validasi teks yang dikeluarkan sebelum otomatis atau mengarkibkan
- Gunakan pengaturan pengenalan yang benar untuk jenis dokumen
- Backup scan asli untuk referensi
- Hasil tes OCR pada sampel batch sebelum produksi
Skenario Lanjutan
Skenario 1: Ekstraksi dokumen berbilang bahasa
settings.Language = Language.French;
Skenario 2: Ekspor ke JSON untuk Integrasi
foreach (RecognitionResult result in results)
{
result.Save("scanned_text.json", SaveFormat.Json);
}
Kesimpulan
Aspose.OCR Scan to Text for .NET adalah cara tercepat untuk mengubah gambar dan dokumen kertas yang dipindai menjadi teks yang dapat digunakan dan dapat diedit – ideal untuk proyek hukum, akademis, atau bisnis.
Lihat lebih banyak contoh dan rincian teknis di Aspose.OCR untuk .NET API Referensi .