Jak wyodrębnić strukturalne dane z tabel i formularzy w obrazach
Ekstrakcja danych z skanowanych tabel lub wypełnionych formularzy jest niezbędna dla automatyzacji biznesowej, sprawozdawczości i zgodności. ASPOSE.OCR Tabela do tekstu dla .NET upraszcza ten proces, dokładnie wykrywa strukturę komórki i pola oraz eksportuje do formatów edytowalnych.
Problem świata rzeczywistego
Firmy często otrzymują faktury, sprawozdania lub formularze jako obrazy lub skanowania. ręczne wejście tabeli danych lub pola formularza jest powolne, błędne i kosztowne w skali.
Przegląd rozwiązania
Za pomocą tabeli do tekstu dla .NET można wyciągać strukturowane dane – w tym rzędy, kolumny i wartości pola – bezpośrednio z obrazów. wyniki można eksportować do programu Excel, JSON lub zintegrowane z bazami danych i platformami automatyzacji.
Warunki
- Visual Studio 2019 lub później
- .NET 6.0 lub nowszy (lub .Net Framework 4.6.2+)
- Aspose.OCR dla .NET od NuGet
- Podstawowe umiejętności C#
PM> Install-Package Aspose.OCR
Wdrażanie krok po kroku
Krok 1: Instalacja i konfiguracja Aspose.OCR
using Aspose.OCR;
Krok 2: Przygotuj tabelę lub formularz obrazów
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Krok 3: Konfiguruj ustawienia rozpoznawania dla tabel / formularzy
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Krok 4: Wyciągnij tabelę lub dane formularza
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Krok 5: Struktura eksportu
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Krok 6: Rozwiązywanie błędów i weryfikacja wyników
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Krok 7: Optymalizacja wariantów tabeli/formy
- Testy na próbkach z różnymi granicami, fontami lub lokalizacjami terenowymi
- Tune ustawienia wstępnego przetwarzania dla najlepszej wykrywania
Krok 8: Automatyczna ekstrakcja batchów
Przetwarzaj wszystkie odpowiednie obrazy w folderze:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Krok 9: Pełny przykład
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Korzystanie z przypadków i aplikacji
Automatyzacja faktury i sprawozdania
Wyciągnięcie danych finansowych do rachunkowości lub analizy.
Formularze dochodzenia i rejestracji
Pull strukturowane odpowiedzi dla systemów CRM, ERP lub BI.
Zgodność i audyt
Automatyczna ekstrakcja i weryfikacja danych z przedstawionych formularzy lub tabel.
Wspólne wyzwania i rozwiązania
Wyzwanie 1: Nieprawidłowe granice stołowe lub rozmiary
Rozwiązanie: Użyj wstępnego przetwarzania i tonowania próbek w celu poprawy wykrycia.
Wyzwanie 2: Zawartość mieszana (tekst i tabele)
Rozwiązanie: Ruch z AUTO lub oddzielony według typu obrazu dla najlepszych wyników.
Wyzwanie 3: Kompleksowe formy z wieloma polami
Rozwiązanie: Testowanie i rozpoznawanie tweak dla form o wysokiej gęstości.
uwzględnienie wydajności
- Rozpoznawanie stołu jest bardziej intensywne w procesorze CPU; monitor pracy batch
- Validuj wyniki dla krytycznych przepływów pracy
- Batch Export dla integracji z innymi narzędziami
Najlepsze praktyki
- Validuj strukturalne dane na próbkach przed skalowaniem
- Bezpieczne i archiwizowane zarówno obrazy źródłowe, jak i wyciągnięte wyniki
- Aktualizuj Aspose.OCR regularnie, aby uzyskać poprawę dokładności
- Tune ustawienia dla nowych układów dokumentów
Zaawansowane scenariusze
Scenariusz 1: Eksport do bazy danych lub narzędzi BI
// Use JSON or Excel export for integration with data pipelines
Scenariusz 2: Ekstrakcja w czasie rzeczywistym w aplikacjach internetowych
// Integrate extraction logic into ASP.NET or workflow API
konkluzja
Aspose.OCR Tabela do tekstu dla .NET umożliwia automatyzację strukturowanej ekstrakcji danych z obrazów i formularzy, wspierając wszystko od automatyki biznesowej po zgodność i analizę.
Aby uzyskać zaawansowane funkcje ekstrakcji stołu, odwiedź Aspose.OCR dla .NET API Referencje .