Jak wyodrębnić strukturalne dane z tabel i formularzy w obrazach

Jak wyodrębnić strukturalne dane z tabel i formularzy w obrazach

Ekstrakcja danych z skanowanych tabel lub wypełnionych formularzy jest niezbędna dla automatyzacji biznesowej, sprawozdawczości i zgodności. ASPOSE.OCR Tabela do tekstu dla .NET upraszcza ten proces, dokładnie wykrywa strukturę komórki i pola oraz eksportuje do formatów edytowalnych.

Problem świata rzeczywistego

Firmy często otrzymują faktury, sprawozdania lub formularze jako obrazy lub skanowania. ręczne wejście tabeli danych lub pola formularza jest powolne, błędne i kosztowne w skali.

Przegląd rozwiązania

Za pomocą tabeli do tekstu dla .NET można wyciągać strukturowane dane – w tym rzędy, kolumny i wartości pola – bezpośrednio z obrazów. wyniki można eksportować do programu Excel, JSON lub zintegrowane z bazami danych i platformami automatyzacji.

Warunki

  • Visual Studio 2019 lub później
  • .NET 6.0 lub nowszy (lub .Net Framework 4.6.2+)
  • Aspose.OCR dla .NET od NuGet
  • Podstawowe umiejętności C#
PM> Install-Package Aspose.OCR

Wdrażanie krok po kroku

Krok 1: Instalacja i konfiguracja Aspose.OCR

using Aspose.OCR;

Krok 2: Przygotuj tabelę lub formularz obrazów

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Krok 3: Konfiguruj ustawienia rozpoznawania dla tabel / formularzy

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Krok 4: Wyciągnij tabelę lub dane formularza

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Krok 5: Struktura eksportu

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Krok 6: Rozwiązywanie błędów i weryfikacja wyników

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Krok 7: Optymalizacja wariantów tabeli/formy

  • Testy na próbkach z różnymi granicami, fontami lub lokalizacjami terenowymi
  • Tune ustawienia wstępnego przetwarzania dla najlepszej wykrywania

Krok 8: Automatyczna ekstrakcja batchów

Przetwarzaj wszystkie odpowiednie obrazy w folderze:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Krok 9: Pełny przykład

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Korzystanie z przypadków i aplikacji

Automatyzacja faktury i sprawozdania

Wyciągnięcie danych finansowych do rachunkowości lub analizy.

Formularze dochodzenia i rejestracji

Pull strukturowane odpowiedzi dla systemów CRM, ERP lub BI.

Zgodność i audyt

Automatyczna ekstrakcja i weryfikacja danych z przedstawionych formularzy lub tabel.

Wspólne wyzwania i rozwiązania

Wyzwanie 1: Nieprawidłowe granice stołowe lub rozmiary

Rozwiązanie: Użyj wstępnego przetwarzania i tonowania próbek w celu poprawy wykrycia.

Wyzwanie 2: Zawartość mieszana (tekst i tabele)

Rozwiązanie: Ruch z AUTO lub oddzielony według typu obrazu dla najlepszych wyników.

Wyzwanie 3: Kompleksowe formy z wieloma polami

Rozwiązanie: Testowanie i rozpoznawanie tweak dla form o wysokiej gęstości.

uwzględnienie wydajności

  • Rozpoznawanie stołu jest bardziej intensywne w procesorze CPU; monitor pracy batch
  • Validuj wyniki dla krytycznych przepływów pracy
  • Batch Export dla integracji z innymi narzędziami

Najlepsze praktyki

  • Validuj strukturalne dane na próbkach przed skalowaniem
  • Bezpieczne i archiwizowane zarówno obrazy źródłowe, jak i wyciągnięte wyniki
  • Aktualizuj Aspose.OCR regularnie, aby uzyskać poprawę dokładności
  • Tune ustawienia dla nowych układów dokumentów

Zaawansowane scenariusze

Scenariusz 1: Eksport do bazy danych lub narzędzi BI

// Use JSON or Excel export for integration with data pipelines

Scenariusz 2: Ekstrakcja w czasie rzeczywistym w aplikacjach internetowych

// Integrate extraction logic into ASP.NET or workflow API

konkluzja

Aspose.OCR Tabela do tekstu dla .NET umożliwia automatyzację strukturowanej ekstrakcji danych z obrazów i formularzy, wspierając wszystko od automatyki biznesowej po zgodność i analizę.

Aby uzyskać zaawansowane funkcje ekstrakcji stołu, odwiedź Aspose.OCR dla .NET API Referencje .

 Polski