Jak wyciągnąć dane z tabeli z obrazów za pomocą Aspose.OCR
Ekstrakcja tabeli z skanowanych lub fotografowanych obrazów jest często procesem ręcznym, prócz błędów. z Aspose.OCR Tabela do tekstu dla .NET, można zautomatyzować ekstrakcję strukturowanych danych tabel z obrazu – oszczędzając czas, zmniejszając błędy i umożliwiając bezprzewodową integrację z bazami danych, Excel lub narzędziami raportu.
Problem świata rzeczywistego
Przedsiębiorstwa często otrzymują tabele w rachunkach, sprawozdań lub formularzach, takich jak obrazy lub skanowania. ręczne ponowne wprowadzanie tych danych do tablic lub platform analitycznych jest nieefektywne i błędne, zwłaszcza w przypadku dużych objętości lub złożonych tabel.
Przegląd rozwiązania
Aspose.OCR Tabela do tekstu dla .NET automatyzuje rozpoznawanie tabeli i ekstrakcję danych z obrazów, dokładnie identyfikując strukturę komórki i zawartość. to pozwala przekształcić skanowane lub fotografowane tabele w strukturowane, wyszukiwalne i edytowane formaty z minimalnym kodem.
Warunki
Zanim zaczniesz, będziesz potrzebował:
- Visual Studio 2019 lub później
- .NET 6.0 lub nowszy (lub .Net Framework 4.6.2+)
- Aspose.OCR dla .NET od NuGet
- Znajomość C#
PM> Install-Package Aspose.OCR
Wdrażanie krok po kroku
Krok 1: Instalacja i konfiguracja Aspose.OCR
Dodaj pakiet Aspose.OCR i obejmuj niezbędne przestrzenia nazwowe:
using Aspose.OCR;
Krok 2: Przygotuj wpisy tabeli
Dodaj jeden lub więcej obrazów tabeli do wejścia. do ekstrakcji zbiornika, użyj wielu plików.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
Krok 3: Konfiguruj ustawienia rozpoznawania tabeli
Umożliwia tryb wykrywania tabeli, aby upewnić się, że struktura jest dokładnie rozpoznawana.
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text
Krok 4: Wykonaj proces rozpoznawania stołu
Rozpoznaj tabele z konfigurowanymi ustawieniami:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Krok 5: Eksportowanie i wykorzystanie danych tabeli
Przechowywać lub przetwarzać rozpoznawane dane tabeli. można eksportować do tekstu, programu Excel, JSON lub innych formatów.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Raw table as text
result.Save("table.csv", SaveFormat.Csv); // Save as CSV
result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}
Krok 6: Dodaj rozwiązywanie błędów
Dodaj obsługę wyjątków, aby zbudować solidne rozwiązania.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Krok 7: Optymalizacja dla złożonych tabel
- Użyj skanowania/fotografii o wysokiej rozdzielczości w celu dokładnego wykrywania struktury
- Test z różnymi aranżacjami stołowymi (kombinowane komórki, wielostronne głowice, granice)
- Ustawienia rozpoznawania tonu w razie potrzeby
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
input.Add(file);
}
Krok 8: Pełny przykład pracy
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("table.csv", SaveFormat.Csv);
result.Save("table.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Korzystanie z przypadków i aplikacji
Sprawozdania finansowe i faktury
Wyciąć tabele transakcyjne z obrazów do systemu Excel lub bazy danych automatycznie.
Badania i analizy
Digitalizuj tabele z skanowanych publikacji lub formularzy ankiety do analizy danych.
Automatyczna migracja danych
Migruj dokumenty dziedzictwa lub skanowane rekordy papierowe do nowoczesnych strukturowanych formatów.
Wspólne wyzwania i rozwiązania
Wyzwanie 1: Blurry lub złożone zdjęcia stołowe
Rozwiązanie: Użyj bardziej jasnych obrazów lub eksperymentu z wstępnym przetwarzaniem w celu poprawy rozpoznawania struktury.
Wyzwanie 2: Niestandardowe aranżacje stołowe
Rozwiązanie: Testowanie i dostosowanie ustawień dla złożonych aranżacji lub tabeli bez granic.
Wyzwanie 3: Wielkie batki lub mieszane rodzaje obrazów
Rozwiązanie: Użyj przetwarzania zestawów i skanowania katalogów do automatycznego ekstrakcji z wielu plików.
uwzględnienie wydajności
- Wykorzystaj dobre, wysokie obrazy
- Proces batch dla efektywności
- Dostarczanie obiektów OCR po użyciu
Najlepsze praktyki
- Zawsze weryfikuj eksportowane dane tabeli przed dalszym przetwarzaniem
- Wstępne obrazy w celu optymalnego wykrycia struktury
- Bezpieczne i kopie zapasowe oryginalne skanowanie / obrazy
- Użyj odpowiedniego formatu eksportu dla przepływu pracy (CSV, XLSX, JSON)
Zaawansowane scenariusze
Scenariusz 1: Ekstrakcja stołu mieszanego języka
settings.Language = Language.Chinese;
Scenariusz 2: Połączenie tabeli i ekstrakcji tekstu
settings.DetectAreasMode = DetectAreasMode.COMBINE;
konkluzja
ASPOSE.OCR Tabela do tekstu dla .NET przekształca tabele obrazu w strukturowane, edytowane dane – nie wymagane jest wprowadzenie ręczne. przyspieszenie sprawozdawczości finansowej, analizy i archiwizacji cyfrowej z dokładną, automatyczną ekstrakcją tabeli.
Więcej informacji i szczegółów technicznych, odwiedź Aspose.OCR dla .NET API Referencje .