Comment extraire les données de table des images avec Aspose.OCR
Avec Aspose.OCR Table to Text pour .NET, vous pouvez automatiser l’extraction des données de table structurée des images - économiser du temps, réduire les erreurs, et permettre une intégration sans fil avec les bases de données, Excel, ou les outils de rapport.
Problème du monde réel
Les entreprises reçoivent souvent des tables dans les factures, les rapports ou les formulaires tels que des images ou des scans. La réinsertion manuelle de ces données dans des panneaux de diffusion ou plateformes d’analyse est inefficace et prête à l’erreur, en particulier pour les gros volumes ou tableaux complexes.
Vue de la solution
Aspose.OCR Table to Text pour .NET automatisera la reconnaissance de table et l’extraction de données des images, en identifiant avec précision la structure cellulaire et le contenu. Cela vous permet de transformer les tables scannées ou photographiées en formats structurés, recherchables et modifiables avec un code minimum.
Principaux
Avant de commencer, vous aurez besoin de :
- Visual Studio 2019 ou ultérieur
- .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
- Aspose.OCR pour .NET de NuGet
- Les connaissances C#
PM> Install-Package Aspose.OCR
La mise en œuvre étape par étape
Étape 1 : Installer et configurer Aspose.OCR
Ajouter le paquet Aspose.OCR et inclure les espaces de nom nécessaires:
using Aspose.OCR;
Étape 2 : Préparer les images de table
Ajoutez une ou plusieurs images de table à votre entrée. Pour l’extraction de batch, utilisez plusieurs fichiers.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
Étape 3 : Configurer les paramètres de reconnaissance de table
Permet le mode de détection de table pour s’assurer que la structure est reconnue avec précision.
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text
Étape 4 : Démarrer le processus de reconnaissance de table
Reconnaître les tables avec les paramètres configurés :
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Étape 5 : Exporter et utiliser les données de table
Enregistrer ou traiter les données de table reconnues. Vous pouvez exporter à texte, Excel, JSON, ou d’autres formats.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Raw table as text
result.Save("table.csv", SaveFormat.Csv); // Save as CSV
result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}
Étape 6 : Ajoutez le traitement des erreurs
Ajoutez la gestion des exceptions pour construire des solutions robustes.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Étape 7 : Optimiser les tables complexes
- Utilisez des scans/photos à haute résolution pour la détection de la structure précise
- Test avec divers layouts de table (celles mélangées, têtes de plusieurs lignes, frontières)
- Tune les paramètres de reconnaissance selon les besoins
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
input.Add(file);
}
Étape 8: Exemple de travail complet
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("table.csv", SaveFormat.Csv);
result.Save("table.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Utiliser les cas et les applications
Rapports financiers et factures
Extrait des tables de transaction des images dans Excel ou les systèmes de base de données automatiquement.
Recherche et analyse
Digitalisez les tables des publications scanées ou des formulaires d’enquête pour l’analyse des données.
Migration automatique des données
Mettre des documents d’héritage ou des dossiers de papier scannés dans des formats structurés modernes.
Défis communs et solutions
Défi 1 : Blurry ou des tableaux complexes
Solution: Utilisez des images plus claires ou des expériences avec pré-processage pour améliorer la reconnaissance structurelle.
Défi 2 : Layouts de table non standard
Solution: Teste et ajuste les paramètres pour les layouts complexes ou les tables sans frontières.
Défi 3 : Big Batches ou types d’images mixtes
Résolution: Utilisez le traitement de pièces et le scan des dossiers pour automatiser l’extraction de nombreux fichiers.
Considérations de performance
- Utilisez des images hautes et lumineuses
- Le processus Batch pour l’efficacité
- Déposer des objets OCR après utilisation
Migliori pratiche
- Valider toujours les données de table exportées avant le traitement ultérieur
- Images préprocessifs pour la détection optimale de la structure
- Sécuriser et sauvegarder les scans/images originaux
- Utilisez le bon format d’exportation pour votre flux de travail (CSV, XLSX, JSON)
Scénarios avancés
Scénario 1: Extraction de table mixte-langue
settings.Language = Language.Chinese;
Scénario 2 : combinaison de table et d’extraction de texte
settings.DetectAreasMode = DetectAreasMode.COMBINE;
Conclusion
Aspose.OCR Table to Text pour .NET transforme les tables d’image en données structurées et édifiables - aucune entrée manuelle n’est requise. accélérer les rapports financiers, les analyses et l’archivage numérique avec une extraction de table automatisée exacte.
Pour plus d’exemples et de détails techniques, visitez le Aspose.OCR pour la référence API .NET .