Як витягти табличні дані з зображень за допомогою Aspose.OCR
За допомогою Aspose.OCR Table to Text для .NET, ви можете автоматизувати екстракцію структурованих таблиць даних з зображень — заощаджуючи час, зменшуючи помилки, і дозволяючи безперервну інтеграцію з базами даних, Excel або інструментами звітності.
Реальні проблеми світу
Бізнес часто отримує таблиці в рахунках, звітах або формах, таких як зображення або сканування. Ручно перезавантажувати ці дані в шини або аналітичні платформи є неефективним і піддається помилкам, особливо для великих обсягів або складних таблиць.
Огляд рішення
ASPOSE.OCR Table to Text для .NET автоматизує розпізнавання таблиці та вилучення даних з зображень, точно ідентифікуючи структуру клітини та вміст. Це дозволяє перетворювати скановані або фотографійні таблички в структуровані, пошукові та редагувальні формати з мінімальним кодом.
Передумови
Перед початком вам знадобиться:
- Visual Studio 2019 або вище
- .NET 6.0 або вище (або .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET від NuGet
- Основні знання C#
PM> Install-Package Aspose.OCR
Крок за кроком реалізація
Крок 1: Завантажити та встановити Aspose.OCR
Додайте пакет Aspose.OCR і включайте необхідні номінаційні простори:
using Aspose.OCR;
Крок 2: Підготовка таблиць зображення вхід
Додайте один або кілька таблиць зображень до входу. для екстракції комплекту використовуйте кілька файлів.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
Крок 3: Налаштування таблиці розпізнавання
Увімкніть режим виявлення столу, щоб забезпечити точне розпізнавання структури.
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text
Крок 4: Виконайте процес розпізнавання столу
Визначте таблиці з конфігурованими налаштуваннями:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Крок 5: Експорт та використання табличних даних
Зберегти або обробляти визнані дані таблиці. Ви можете експортувати до тексту, Excel, JSON або інших форматів.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Raw table as text
result.Save("table.csv", SaveFormat.Csv); // Save as CSV
result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}
Крок 6: Використання помилок
Додайте виняткову справу для створення міцних рішень.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Крок 7: Оптимізація для складних таблиць
- Використовуйте скани/фото з високою роздільною здатністю для точного виявлення структури
- Тест з різними табличними розташуваннями (зміщені клітини, багатолінійні заголовки, кордони)
- Налаштування розпізнавання, як це необхідно
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
input.Add(file);
}
Крок 8: Повний робочий приклад
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("table.csv", SaveFormat.Csv);
result.Save("table.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Використання випадків та додатків
Фінансові звіти та рахунки
Витяг транзакційних таблиць з зображень в Excel або систем баз даних автоматично.
Дослідження та аналіз
Цифруйте таблиці з сканованих публікацій або анкетних форм для аналізу даних.
Автоматична міграція даних
Миграція документів спадщини або сканованих паперових записів в сучасні структуровані формати.
Спільні виклики та рішення
Виклик 1: Blurry або комплексні табличні зображення
Рішення: Використовуйте більш чіткі зображення або експеримент з попередньою обробкою для поліпшення розпізнавання структури.
Проблема 2: Нестандартні таблиці
Рішення: Тестувати і адаптувати налаштування для складних розташувань або безмежних таблиць.
Виклик 3: Великі смуги або змішані типи зображень
Рішення: Використовуйте обробку пакетів та сканування каталогів для автоматизації вилучення з багатьох файлів.
Виконання розглядів
- Використовуйте добре освітлені, високі зображення
- Батч-процес для ефективності
- Використання об’єктів ОКР після використання
Найкращі практики
- Завжди підтверджуйте експортовані табличні дані перед подальшою обробкою
- Препроцесовані зображення для оптимального виявлення структури
- Забезпечити і завантажити оригінальні скани / зображення
- Використовуйте правильний формат експорту для робочого потоку (CSV, XLSX, JSON)
Розширені сценарії
Сценарій 1: Екстракція таблиці змішаного мови
settings.Language = Language.Chinese;
Сценарій 2: Поєднання таблиці та тексту
settings.DetectAreasMode = DetectAreasMode.COMBINE;
Заключення
ASPOSE.OCR Таблиця до тексту для .NET перетворює таблиці зображень в структуровані, редагувальні дані — немає необхідного ручного входу.
Для отримання додаткових прикладів та технічних деталей, відвідайте Aspose.OCR для .NET API Референт .