Comment extraire les tables et les données tabulaires des images avec Aspose.OCR

Comment extraire les tables et les données tabulaires des images avec Aspose.OCR

L’extraction de tables à partir d’images, de formulaires ou de rapports scannés est difficile – le retyping manuel est lent et sans erreur. Aspose.OCR Table to Text for .NET automatisera l’extrusion et la structuration des données de table des images et des photos.

Problème du monde réel

Les déclarations financières, les formulaires d’enquête et les résultats scientifiques sont souvent coincés dans des tables ou des images scannées. recréer manuellement ces données perdent des heures et des risques d’introduire des erreurs.

Vue de la solution

Aspose.OCR pour .NET peut détecter avec précision, extraire et convertir des tables d’images ou de PDF scannés en formats machine-readable – parfait pour Excel, le rapport ou l’automatisation du flux de travail.

Principaux

  • Visual Studio 2019 ou ultérieur
  • .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
  • Aspose.OCR pour .NET de NuGet
  • Les connaissances C#
PM> Install-Package Aspose.OCR

La mise en œuvre étape par étape

Étape 1 : Installer et configurer Aspose.OCR

using Aspose.OCR;

Étape 2 : Scanner ou photographier des images contenant des tables

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Étape 3 : Configurer les paramètres de reconnaissance de table

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Étape 4: Exécuter le processus d’extraction de table

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Étape 5 : Données de table d’exportation

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Étape 6: Ajoutez le traitement et la validation des erreurs

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Étape 7 : Optimiser pour les tables complexes, rotées ou multi-page

  • Pré-procession des images à déchirer ou à cultiver
  • Utilisez des scans à haute résolution ou des photos
  • Pour les PDF de plusieurs pages, ajoutez chaque page comme une entrée distincte
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Étape 8 : Exemple complet

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utiliser les cas et les applications

Rapports financiers et scientifiques

Extrait des tables des rapports financiers, des résultats de laboratoire ou des documents de recherche pour l’analyse instantanée dans Excel.

Surveillance et forme de traitement

Digitalisez les tables des formulaires scannés, des listes de vérification ou des enregistrements de censure.

Automatisation du flux de travail

Fournir des données de table structurée directement dans vos applications d’affaires, outils BI ou bases de données.

Défis communs et solutions

Défi 1 : Des tables de mauvaise qualité ou complexes

Solution: Utilisez des images à haute résistance et testez sur des ensembles.

Défi 2 : Des tables rotées ou écrasées

Solution: Descouvrez les images avant le traitement; utilisez DetectAreasMode.TABLE.

Défi 3 : Reports multi-page

Solution: Ajoutez chaque page comme une entrée distincte pour le traitement des lots.

Considérations de performance

  • Le processus Batch pour la vitesse
  • Utilisez des scans / photos de haute qualité
  • Disponibilité d’objets OCR après de grandes courses

Migliori pratiche

  • Valider la production avant l’intégration
  • Tune des paramètres de reconnaissance de table en cas de besoin
  • Créer des données originales et numérisées
  • Test avec des échantillons réels avant le déploiement

Scénarios avancés

Scénario 1 : Extraction de table multilingue

settings.Language = Language.German;

Scénario 2: Exportation à JSON pour les pipelines de données

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR Table to Text pour .NET transforme les images et les scans en données de table structurées et opérationnelles, prêtes à l’analyse, au rapport et à la automatisation.

Voir plus d’échantillons de code de reconnaissance de table dans le Aspose.OCR pour la référence API .NET .

 Français