Jak wyciągać tabele i dane tabeli z obrazów za pomocą Aspose.OCR
Ekstrakcja tabel z obrazów, formularzy lub skanowanych raportów jest trudna – ręczne odtwarzanie jest powolne i bez błędów. ASPOSE.OCR Tabela do tekstu dla .NET automatyzuje ekstrakcję i strukturę danych z tabeli z obrazu i zdjęć.
Problem świata rzeczywistego
Raporty finansowe, formularze ankiety i wyniki naukowe są często zamknięte w skanowanych tabelach lub obrazach. ręczne odtwarzanie tych danych traci godziny i ryzyko wprowadzania błędów.
Przegląd rozwiązania
Aspose.OCR dla .NET może dokładnie wykryć, wyciągać i konwertować tabele z obrazów lub skanowanych plików PDF do formatów do czytania przez maszynę – doskonały dla programu Excel, sprawozdawczości lub automatyzacji przepływu pracy.
Warunki
- Visual Studio 2019 lub później
- .NET 6.0 lub nowszy (lub .Net Framework 4.6.2+)
- Aspose.OCR dla .NET od NuGet
- Znajomość C#
PM> Install-Package Aspose.OCR
Wdrażanie krok po kroku
Krok 1: Instalacja i konfiguracja Aspose.OCR
using Aspose.OCR;
Krok 2: Skanowanie lub fotografowanie obrazów zawierających tabele
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Krok 3: Konfiguruj ustawienia rozpoznawania tabeli
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Krok 4: Wykonaj proces ekstrakcji stołu
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Krok 5: Dane tabeli eksportu
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Krok 6: Dodaj rozwiązywanie błędów i weryfikację
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Krok 7: Optymalizacja dla złożonych, obrotowych lub wielokątnych tabel
- Preproces obrazu do deskew lub zbiornika
- Użyj skanowania o wysokiej rozdzielczości lub zdjęć
- W przypadku plików PDF, dodaj każdą stronę jako oddzielny wpis
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Krok 8: Pełny przykład
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Korzystanie z przypadków i aplikacji
Sprawozdanie finansowe i naukowe
Wyciąć tabele z raportów finansowych, wyników laboratoryjnych lub dokumentów badawczych do analizy natychmiastowej w programie Excel.
Przegląd i przetwarzanie form
Digitalizuj tabele z skanowanych formularzy, list kontrolnych lub rejestrów cenzury.
Automatyzacja przepływu pracy
Dostarczanie strukturowanych danych tabeli bezpośrednio do aplikacji biznesowych, narzędzi BI lub baz danych.
Wspólne wyzwania i rozwiązania
Wyzwanie 1: Słaba jakość lub złożone tabele
Rozwiązanie: Użyj zdjęć o wysokiej rozdzielczości i test na zestawach próbek.
Wyzwanie 2: Obrócony lub rozdrobniony tabeli
Rozwiązanie: Wymieszaj obrazy przed przetwarzaniem; użyj DetectAreasMode.TABLE.
Wyzwanie 3: Wiele stron
Rozwiązanie: Dodaj każdą stronę jako oddzielny wpis do przetwarzania pakietów.
uwzględnienie wydajności
- Proces batch dla prędkości
- Wykorzystaj wysokiej jakości skanowanie / zdjęcia
- Dostarczanie obiektów OCR po dużych wyścigach
Najlepsze praktyki
- Potwierdzenie wydajności przed integracją
- Tune tabela rozpoznawania ustawień w razie potrzeby
- Kopiowanie oryginalnych i cyfrowych danych
- Test z prawdziwymi próbkami przed rozmieszczeniem
Zaawansowane scenariusze
Scenariusz 1: Wielojęzyczna ekstrakcja stołu
settings.Language = Language.German;
Scenariusz 2: Eksport do JSON dla rurociągów danych
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
konkluzja
Aspose.OCR Tabela do tekstu dla .NET przekształca obrazy i skanowanie w działalne, zorganizowane dane tabeli – gotowe do analizy, raportowania i automatyzacji.
Zobacz więcej próbek kodu rozpoznawania tabeli w Aspose.OCR dla .NET API Referencje .