Як витягти таблиці та табличні дані з зображень за допомогою Aspose.OCR
Екстракція таблиць з зображень, форм або сканованих звітів є складною – ручний ретипінг повільний і без помилок. ASPOSE.OCR Table to Text for .NET автоматизує витяг та структурує табличні дані з картин і фотографій.
Реальні проблеми світу
Фінансові звіти, форми опитування та наукові результати часто застрягли в сканованих таблицях або зображеннях. Ручно відновлення цих даних витрачає час і ризики введення помилок.
Огляд рішення
ASPOSE.OCR для .NET може точно виявити, витягнути та конвертувати таблиці з зображень або сканованих PDF-файлів у машинно чистий формат – ідеальний для Excel, звітування або автоматизації робочого потоку.
Передумови
- Visual Studio 2019 або вище
- .NET 6.0 або вище (або .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET від NuGet
- Основні знання C#
PM> Install-Package Aspose.OCR
Крок за кроком реалізація
Крок 1: Завантажити та встановити Aspose.OCR
using Aspose.OCR;
Крок 2: сканування або фотографії зображень, що містять таблиці
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Крок 3: Налаштування таблиці розпізнавання
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Крок 4: Виконайте процес екстракції столу
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Крок 5: Експортні таблиці даних
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Крок 6: Додайте справу з помилками та валідацію
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Крок 7: Оптимізація для комплексних, обертаних або багатосторонніх таблиць
- Препроцесувати зображення до декеу або урожаю
- Використовуйте високороздільні скани або фото
- Для багатосторонніх PDF-файлів додайте кожну сторінку як окремий вхід.
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Крок 8: Повний приклад
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Використання випадків та додатків
Фінансові та наукові звіти
Витяг таблиць з фінансових звітів, результатів лабораторії або дослідницьких паперів для негайного аналізу в Excel.
Дослідження та форма обробки
Цифруйте таблиці з сканованих форм, списків перевірки або цензурних записів.
Автоматизація робочого потоку
Введіть структуровані табличні дані безпосередньо в ваші бізнес-приклади, BI-інструменти або бази даних.
Спільні виклики та рішення
Виклик 1: Низька якість або складні таблиці
Рішення: Використовуйте зображення високого рівня і випробуйте на зразках.
Виклик 2: обертані та розкидані таблиці
Рішення: Завантажити зображення перед обробкою; використовуйте DetectAreasMode.TABLE.
Створення Challenge 3: Multi-Page Reports
Рішення: Додайте кожну сторінку як окремий вхід для обробки пакетів.
Виконання розглядів
- Батч-процес для швидкості
- Використовуйте високоякісні скани/фото
- Використання об’єктів ОКР після великих поїздок
Найкращі практики
- Використання продуктів до інтеграції
- Налаштування розпізнавання таблиці, як це необхідно
- Завантажити оригінальні та цифрові дані
- Тест з реальними зразками перед розміщенням
Розширені сценарії
Сценарій 1: Екстракція багатомовного столу
settings.Language = Language.German;
Сценарій 2: Експорт до JSON для трубопроводів даних
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
Заключення
ASPOSE.OCR Table to Text для .NET перетворює зображення і сканування в діючі, структуровані табличні дані – готові для аналізу, звітування та автоматизації.
Переглянути більше зразків коду розпізнавання таблиці в Aspose.OCR для .NET API Референт .