Πώς να εξαγάγετε δομημένα δεδομένα από πίνακες και σχήματα σε εικόνες
Η εξόρυξη δεδομένων από σαρωμένους πίνακες ή συμπληρωμένες φόρμες είναι απαραίτητη για την επιχειρηματική αυτοματοποίηση, την αναφορά και τη συμμόρφωση. το Aspose.OCR Table to Text for .NET απλοποιεί αυτή τη διαδικασία, ανιχνεύοντας με ακρίβεια τη δομή κυττάρων και πεδίων και εξάγοντας σε επεξεργαζόμενες μορφές.
Το πρόβλημα του πραγματικού κόσμου
Οι επιχειρήσεις συχνά λαμβάνουν τιμολόγια, εκθέσεις ή φόρμες ως εικόνες ή σαρώσεις. Η χειροκίνητη εισαγωγή των δεδομένων πίνακα ή πεδίων μορφής είναι αργή, ελαττωματική και δαπανηρή σε κλίμακα.
Συνοπτική λύση
Με τον πίνακα σε κείμενο για .NET, μπορείτε να εξάγετε δομημένα δεδομένα - συμπεριλαμβανομένων γραμμών, στήλες και τιμές πεδίου - απευθείας από τις εικόνες. Τα αποτελέσματα μπορούν να εκτεθούν στο Excel, JSON ή να ενσωματωθούν με βάσεις δεδομένων και πλατφόρμες αυτοματισμού.
Προϋποθέσεις
- Visual Studio 2019 ή αργότερα
- .NET 6.0 ή μεταγενέστερος (ή .Net Framework 4.6.2+)
- Aspose.OCR για .NET από το NuGet
- Βασικές δεξιότητες C#
PM> Install-Package Aspose.OCR
Βήμα προς βήμα εφαρμογή
Βήμα 1: Εγκατάσταση και διαμόρφωση Aspose.OCR
using Aspose.OCR;
Βήμα 2: Ετοιμάστε πίνακες ή εικόνες φόρμας
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Βήμα 3: Ρυθμίστε τις ρυθμίσεις αναγνώρισης για πίνακες / φόρμες
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Βήμα 4: Αποκτήστε τα δεδομένα πίνακα ή φόρμας
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Βήμα 5: Εξαγωγή διαρθρωμένων εξαγωγών
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Βήμα 6: Αντιμετώπιση σφαλμάτων και επικυρώσεις αποτελεσμάτων
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Βήμα 7: Βελτιστοποίηση των διακυμάνσεων πίνακα / φόρμας
- Δοκιμή σε δείγματα με διαφορετικά όρια, γραμματοσειρά ή τοποθεσίες πεδίου
- Προκαταρκτικές ρυθμίσεις για την καλύτερη ανίχνευση
Βήμα 8: Αυτόματη εκχύλιση Batch
Επεξεργασία όλων των σχετικών εικόνων σε ένα φάκελο:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Βήμα 9: Συμπληρωματικό παράδειγμα
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Χρήση περιπτώσεων και εφαρμογών
Φορολογία και αυτοματισμός αναφορών
Εξαγωγή χρηματοοικονομικών δεδομένων για λογιστική ή ανάλυση.
Φόρμες έρευνας και καταχώρισης
Παίξτε δομημένες απαντήσεις για συστήματα CRM, ERP ή BI.
Συμμόρφωση και έλεγχος
Αυτόματη εξόρυξη και επικύρωση δεδομένων από υποβληθείσες φόρμες ή πίνακες.
Κοινές προκλήσεις και λύσεις
Πρόκληση 1: Ανεπαρκείς οριακές γραμμές πίνακα ή διατάξεις
Λύση: Χρησιμοποιήστε προκαταρκτική επεξεργασία και δείγμα για να βελτιώσετε την ανίχνευση.
Προκλήσεις 2: Μεικτό περιεχόμενο (έγγραφο και πίνακες)
Λύση: Δουλεύει με το AUTO ή ξεχωρίζει ανά τύπο εικόνας για τα καλύτερα αποτελέσματα.
Πρόκληση 3: Σύνθετες μορφές με πολλά πεδία
Λύση: Δοκιμή και αναγνώριση tweak για μορφές υψηλής πυκνότητας.
Αξιολόγηση των επιδόσεων
- Η αναγνώριση του τραπέζι είναι πιο CPU-intensive. παρακολούθηση των εργασιών συλλογής
- Επιβεβαιώστε τα αποτελέσματα για κρίσιμες ροές εργασίας
- Batch εξαγωγή για ενσωμάτωση με άλλα εργαλεία
שיטות עבודה מומלצות
- Εξυγίανση δομημένων δεδομένων σε δείγματα πριν από την κλίμακα
- Αποθήκευση και αρχειοθέτηση τόσο των εικόνων πηγής όσο και των εξαγόμενων αποτελεσμάτων
- Ενημέρωση Aspose.OCR τακτικά για βελτιώσεις ακρίβειας
- Οι ρυθμίσεις Tune για νέες διατάξεις εγγράφων
Προχωρημένα σενάρια
Σενάριο 1: Εξαγωγή σε βάσεις δεδομένων ή εργαλεία BI
// Use JSON or Excel export for integration with data pipelines
Σενάριο 2: Εξαγωγή σε πραγματικό χρόνο σε εφαρμογές Web
// Integrate extraction logic into ASP.NET or workflow API
Συμπεράσματα
Το ASPOSE.OCR Table to Text για το .NET σας επιτρέπει να αυτοματοποιήσετε τη δομημένη εξόρυξη δεδομένων από εικόνες και φόρμες, υποστηρίζοντας τα πάντα από την αυτοματοποίηση των επιχειρήσεων μέχρι τη συμμόρφωση και την ανάλυση.
Για προηγμένες λειτουργίες εξόρυξης τραπεζιού, επισκεφθείτε το Aspose.OCR για την αναφορά .NET API .