Comment extraire les tables et les données tabulaires des images avec Aspose.OCR
L’extraction de tables à partir d’images, de formulaires ou de rapports scannés est difficile – le retyping manuel est lent et sans erreur. Aspose.OCR Table to Text for .NET automatisera l’extrusion et la structuration des données de table des images et des photos.
Problème du monde réel
Les déclarations financières, les formulaires d’enquête et les résultats scientifiques sont souvent coincés dans des tables ou des images scannées. recréer manuellement ces données perdent des heures et des risques d’introduire des erreurs.
Vue de la solution
Aspose.OCR pour .NET peut détecter avec précision, extraire et convertir des tables d’images ou de PDF scannés en formats machine-readable – parfait pour Excel, le rapport ou l’automatisation du flux de travail.
Principaux
- Visual Studio 2019 ou ultérieur
- .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
- Aspose.OCR pour .NET de NuGet
- Les connaissances C#
PM> Install-Package Aspose.OCR
La mise en œuvre étape par étape
Étape 1 : Installer et configurer Aspose.OCR
using Aspose.OCR;
Étape 2 : Scanner ou photographier des images contenant des tables
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Étape 3 : Configurer les paramètres de reconnaissance de table
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Étape 4: Exécuter le processus d’extraction de table
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Étape 5 : Données de table d’exportation
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Étape 6: Ajoutez le traitement et la validation des erreurs
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Étape 7 : Optimiser pour les tables complexes, rotées ou multi-page
- Pré-procession des images à déchirer ou à cultiver
- Utilisez des scans à haute résolution ou des photos
- Pour les PDF de plusieurs pages, ajoutez chaque page comme une entrée distincte
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Étape 8 : Exemple complet
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Utiliser les cas et les applications
Rapports financiers et scientifiques
Extrait des tables des rapports financiers, des résultats de laboratoire ou des documents de recherche pour l’analyse instantanée dans Excel.
Surveillance et forme de traitement
Digitalisez les tables des formulaires scannés, des listes de vérification ou des enregistrements de censure.
Automatisation du flux de travail
Fournir des données de table structurée directement dans vos applications d’affaires, outils BI ou bases de données.
Défis communs et solutions
Défi 1 : Des tables de mauvaise qualité ou complexes
Solution: Utilisez des images à haute résistance et testez sur des ensembles.
Défi 2 : Des tables rotées ou écrasées
Solution: Descouvrez les images avant le traitement; utilisez DetectAreasMode.TABLE.
Défi 3 : Reports multi-page
Solution: Ajoutez chaque page comme une entrée distincte pour le traitement des lots.
Considérations de performance
- Le processus Batch pour la vitesse
- Utilisez des scans / photos de haute qualité
- Disponibilité d’objets OCR après de grandes courses
Migliori pratiche
- Valider la production avant l’intégration
- Tune des paramètres de reconnaissance de table en cas de besoin
- Créer des données originales et numérisées
- Test avec des échantillons réels avant le déploiement
Scénarios avancés
Scénario 1 : Extraction de table multilingue
settings.Language = Language.German;
Scénario 2: Exportation à JSON pour les pipelines de données
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
Conclusion
Aspose.OCR Table to Text pour .NET transforme les images et les scans en données de table structurées et opérationnelles, prêtes à l’analyse, au rapport et à la automatisation.
Voir plus d’échantillons de code de reconnaissance de table dans le Aspose.OCR pour la référence API .NET .