Як витягти текст з сканованих зображень за допомогою Aspose.OCR
Сканування контрактів, угод, книжкових сторінок, або старих записів зазвичай виробляє зображення файлів — не редагується текст. Aspose.OCR сканувати до тексту для .NET дозволяє автоматизувати вилучення структурованого, пошукованого тексту з будь-якого сканованого документа або фото, заощаджуючи безліч годин ручного входу.
Реальні проблеми світу
Витяг їх контенту для цифрових робочих потоків, відповідності або досліджень може бути повільним, дорогим і схильним до помилок, якщо це зроблено вручну.
Огляд рішення
Aspose.OCR сканує до тексту для .NET конвертує зображення друкованих сторінок в використаний текст, обробляє односторонні, багатосторінні та складні розташування. робочий потік ідеально підходить для цифровизації контрактів, книг, записів та бізнес-документів для сучасного використання.
Передумови
Переконайтеся, що у вас є:
- Visual Studio 2019 або вище
- .NET 6.0 або вище (або .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET від NuGet
- Основні знання C#
PM> Install-Package Aspose.OCR
Крок за кроком реалізація
Крок 1: Завантажити та встановити Aspose.OCR
Додайте пакет NuGet та посилання Aspose.OCR:
using Aspose.OCR;
Крок 2: Додайте свої скановані зображення
Завантажити один або кілька файлів зображення для обробки.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
Крок 3: Налаштування налаштувань пізнання
Налаштуйте для мови та оформлення документів, як це необхідно.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
Крок 4: Виконайте процес визнання
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Крок 5: Зберегти або обробляти витягнутий текст
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
// Save to Word or PDF as needed
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
Крок 6: Використання помилок
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Use results...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Крок 7: Оптимізація оформлення документів
- Для книг або статей, використовуйте DetectAreasMode.DOCUMENT або спробуйте ДетекАreasМод.АУТО
- Препроцесовані зображення (рослини, сміття) для кращої точності
- Процес обробки для великих архівів
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
input.Add(file);
}
Крок 8: Повний приклад
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Використання випадків та додатків
Контракт і договір цифровизації
Швидко цифрувати юридичні або бізнес-документи для пошуку, архівування та цифрових робочих потоків.
Книга та архіви обробки
Конвертуйте сторінки книг або історичні записи в пошукові, редагувальні формати.
Відповідність та вилучення даних
Забезпечує автоматичні перевірки відповідності, аудит або текстове вилучення з документів спадщини.
Спільні виклики та рішення
Виклик 1: Низька якість сканування або знешкоджений текст
Рішення: Використовуйте попереднє обробку або покращуйте зображення для кращої точності OCR.
Виклик 2: багатоколонні або комплексні розташування
Рішення: Налаштуйте DetectAreasMode і випробуйте для кращого обробки розташування.
Виклик 3: Батч цифровизація
Рішення: Використовуйте обробку пакетів та управління ресурсами для великих робочих місць.
Виконання розглядів
- Бетч-процес для швидкості та скалативності
- Використовуйте якісні джерельні зображення
- Використання об’єктів ОКР після використання
Найкращі практики
- Завжди підтверджуйте витягнутий текст перед автоматизацією або архівуванням
- Використовуйте правильні налаштування розпізнавання для типу документа
- Завантажити оригінальні скани для посилання
- Результати тестування OCR на випробувальній групі перед виробництвом
Розширені сценарії
Сценарій 1: Витяг багатомовних документів
settings.Language = Language.French;
Сценарій 2: Експорт до JSON для інтеграції
foreach (RecognitionResult result in results)
{
result.Save("scanned_text.json", SaveFormat.Json);
}
Заключення
Aspose.OCR Сканування до тексту для .NET є найшвидшим способом перетворення сканованих зображень і паперових документів в корисний, редагувальний текст – ідеально підходить для юридичних, академічних або корпоративних проектів.
Більше прикладів та технічних деталей у Aspose.OCR для .NET API Референт .