Comment extraire les données de table des images avec Aspose.OCR

Comment extraire les données de table des images avec Aspose.OCR

Avec Aspose.OCR Table to Text pour .NET, vous pouvez automatiser l’extraction des données de table structurée des images - économiser du temps, réduire les erreurs, et permettre une intégration sans fil avec les bases de données, Excel, ou les outils de rapport.

Problème du monde réel

Les entreprises reçoivent souvent des tables dans les factures, les rapports ou les formulaires tels que des images ou des scans. La réinsertion manuelle de ces données dans des panneaux de diffusion ou plateformes d’analyse est inefficace et prête à l’erreur, en particulier pour les gros volumes ou tableaux complexes.

Vue de la solution

Aspose.OCR Table to Text pour .NET automatisera la reconnaissance de table et l’extraction de données des images, en identifiant avec précision la structure cellulaire et le contenu. Cela vous permet de transformer les tables scannées ou photographiées en formats structurés, recherchables et modifiables avec un code minimum.

Principaux

Avant de commencer, vous aurez besoin de :

  • Visual Studio 2019 ou ultérieur
  • .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
  • Aspose.OCR pour .NET de NuGet
  • Les connaissances C#
PM> Install-Package Aspose.OCR

La mise en œuvre étape par étape

Étape 1 : Installer et configurer Aspose.OCR

Ajouter le paquet Aspose.OCR et inclure les espaces de nom nécessaires:

using Aspose.OCR;

Étape 2 : Préparer les images de table

Ajoutez une ou plusieurs images de table à votre entrée. Pour l’extraction de batch, utilisez plusieurs fichiers.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Étape 3 : Configurer les paramètres de reconnaissance de table

Permet le mode de détection de table pour s’assurer que la structure est reconnue avec précision.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Étape 4 : Démarrer le processus de reconnaissance de table

Reconnaître les tables avec les paramètres configurés :

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Étape 5 : Exporter et utiliser les données de table

Enregistrer ou traiter les données de table reconnues. Vous pouvez exporter à texte, Excel, JSON, ou d’autres formats.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Étape 6 : Ajoutez le traitement des erreurs

Ajoutez la gestion des exceptions pour construire des solutions robustes.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Étape 7 : Optimiser les tables complexes

  • Utilisez des scans/photos à haute résolution pour la détection de la structure précise
  • Test avec divers layouts de table (celles mélangées, têtes de plusieurs lignes, frontières)
  • Tune les paramètres de reconnaissance selon les besoins
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Étape 8: Exemple de travail complet

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utiliser les cas et les applications

Rapports financiers et factures

Extrait des tables de transaction des images dans Excel ou les systèmes de base de données automatiquement.

Recherche et analyse

Digitalisez les tables des publications scanées ou des formulaires d’enquête pour l’analyse des données.

Migration automatique des données

Mettre des documents d’héritage ou des dossiers de papier scannés dans des formats structurés modernes.

Défis communs et solutions

Défi 1 : Blurry ou des tableaux complexes

Solution: Utilisez des images plus claires ou des expériences avec pré-processage pour améliorer la reconnaissance structurelle.

Défi 2 : Layouts de table non standard

Solution: Teste et ajuste les paramètres pour les layouts complexes ou les tables sans frontières.

Défi 3 : Big Batches ou types d’images mixtes

Résolution: Utilisez le traitement de pièces et le scan des dossiers pour automatiser l’extraction de nombreux fichiers.

Considérations de performance

  • Utilisez des images hautes et lumineuses
  • Le processus Batch pour l’efficacité
  • Déposer des objets OCR après utilisation

Migliori pratiche

  • Valider toujours les données de table exportées avant le traitement ultérieur
  • Images préprocessifs pour la détection optimale de la structure
  • Sécuriser et sauvegarder les scans/images originaux
  • Utilisez le bon format d’exportation pour votre flux de travail (CSV, XLSX, JSON)

Scénarios avancés

Scénario 1: Extraction de table mixte-langue

settings.Language = Language.Chinese;

Scénario 2 : combinaison de table et d’extraction de texte

settings.DetectAreasMode = DetectAreasMode.COMBINE;

Conclusion

Aspose.OCR Table to Text pour .NET transforme les tables d’image en données structurées et édifiables - aucune entrée manuelle n’est requise. accélérer les rapports financiers, les analyses et l’archivage numérique avec une extraction de table automatisée exacte.

Pour plus d’exemples et de détails techniques, visitez le Aspose.OCR pour la référence API .NET .

 Français