Jak wyciągać tabele i dane tabeli z obrazów za pomocą Aspose.OCR

Jak wyciągać tabele i dane tabeli z obrazów za pomocą Aspose.OCR

Ekstrakcja tabel z obrazów, formularzy lub skanowanych raportów jest trudna – ręczne odtwarzanie jest powolne i bez błędów. ASPOSE.OCR Tabela do tekstu dla .NET automatyzuje ekstrakcję i strukturę danych z tabeli z obrazu i zdjęć.

Problem świata rzeczywistego

Raporty finansowe, formularze ankiety i wyniki naukowe są często zamknięte w skanowanych tabelach lub obrazach. ręczne odtwarzanie tych danych traci godziny i ryzyko wprowadzania błędów.

Przegląd rozwiązania

Aspose.OCR dla .NET może dokładnie wykryć, wyciągać i konwertować tabele z obrazów lub skanowanych plików PDF do formatów do czytania przez maszynę – doskonały dla programu Excel, sprawozdawczości lub automatyzacji przepływu pracy.

Warunki

  • Visual Studio 2019 lub później
  • .NET 6.0 lub nowszy (lub .Net Framework 4.6.2+)
  • Aspose.OCR dla .NET od NuGet
  • Znajomość C#
PM> Install-Package Aspose.OCR

Wdrażanie krok po kroku

Krok 1: Instalacja i konfiguracja Aspose.OCR

using Aspose.OCR;

Krok 2: Skanowanie lub fotografowanie obrazów zawierających tabele

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Krok 3: Konfiguruj ustawienia rozpoznawania tabeli

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Krok 4: Wykonaj proces ekstrakcji stołu

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Krok 5: Dane tabeli eksportu

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Krok 6: Dodaj rozwiązywanie błędów i weryfikację

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Krok 7: Optymalizacja dla złożonych, obrotowych lub wielokątnych tabel

  • Preproces obrazu do deskew lub zbiornika
  • Użyj skanowania o wysokiej rozdzielczości lub zdjęć
  • W przypadku plików PDF, dodaj każdą stronę jako oddzielny wpis
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Krok 8: Pełny przykład

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Korzystanie z przypadków i aplikacji

Sprawozdanie finansowe i naukowe

Wyciąć tabele z raportów finansowych, wyników laboratoryjnych lub dokumentów badawczych do analizy natychmiastowej w programie Excel.

Przegląd i przetwarzanie form

Digitalizuj tabele z skanowanych formularzy, list kontrolnych lub rejestrów cenzury.

Automatyzacja przepływu pracy

Dostarczanie strukturowanych danych tabeli bezpośrednio do aplikacji biznesowych, narzędzi BI lub baz danych.

Wspólne wyzwania i rozwiązania

Wyzwanie 1: Słaba jakość lub złożone tabele

Rozwiązanie: Użyj zdjęć o wysokiej rozdzielczości i test na zestawach próbek.

Wyzwanie 2: Obrócony lub rozdrobniony tabeli

Rozwiązanie: Wymieszaj obrazy przed przetwarzaniem; użyj DetectAreasMode.TABLE.

Wyzwanie 3: Wiele stron

Rozwiązanie: Dodaj każdą stronę jako oddzielny wpis do przetwarzania pakietów.

uwzględnienie wydajności

  • Proces batch dla prędkości
  • Wykorzystaj wysokiej jakości skanowanie / zdjęcia
  • Dostarczanie obiektów OCR po dużych wyścigach

Najlepsze praktyki

  • Potwierdzenie wydajności przed integracją
  • Tune tabela rozpoznawania ustawień w razie potrzeby
  • Kopiowanie oryginalnych i cyfrowych danych
  • Test z prawdziwymi próbkami przed rozmieszczeniem

Zaawansowane scenariusze

Scenariusz 1: Wielojęzyczna ekstrakcja stołu

settings.Language = Language.German;

Scenariusz 2: Eksport do JSON dla rurociągów danych

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

konkluzja

Aspose.OCR Tabela do tekstu dla .NET przekształca obrazy i skanowanie w działalne, zorganizowane dane tabeli – gotowe do analizy, raportowania i automatyzacji.

Zobacz więcej próbek kodu rozpoznawania tabeli w Aspose.OCR dla .NET API Referencje .

 Polski