Hogyan lehet kivonni a szöveget a szkennelt PDF-kból az Aspose.OCR segítségével
A szkennelt vagy képalapú PDF-fájlokból származó szöveg kivonása összetett munkafolyamatokat vagy drága kézi munkát igényel. Az Aspose.OCR Scanned PDF for Text for .NET segítségével automatizálhatja ezt a folyamatot, a PDFeket kereshető és szerkeszthető szövegké alakítva csak néhány kódvonalon.
Valódi problémák
A szervezetek gyakran szerződéseket, jelentéseket vagy archívumokat kapnak, mint a szkennelt PDF-k. A szöveg kézi másolása vagy a dokumentumok belsejében való keresés unalmas és hibás, ami lassítja a megfelelést, az archiválást és a digitális átalakítási projekteket.
megoldás áttekintése
Az ASPOSE.OCR for .NET lehetővé teszi, hogy a szkennelt PDF-k feldolgozását – szöveges vagy kereshető pdf-ekké alakítva, az információk hozzáférhetővé, indexálhatók és készek a digitális munkafolyamatokhoz.
előfeltételek
Mielőtt elkezdené, győződjön meg róla, hogy:
- Visual Studio 2019 vagy újabb
- .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET a NuGet-ről
- Alapvető C# tudás
PM> Install-Package Aspose.OCR
lépésről lépésre megvalósítás
1. lépés: Az Aspose.OCR telepítése és konfigurálása
Adja meg a NuGet csomagot és az Aspose.OCR referenciát:
using Aspose.OCR;
2. lépés: Adja meg a szkennelt PDF fájlokat
Hozzon létre egy OcrInput objektumot a PDF-bejegyzéshez, és adja hozzá a szkennelt PDF fájlokat.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
3. lépés: A felismerési beállítások beállítása
Állítsa be a nyelvet és más felismerési beállításokat, hogy megfeleljen a dokumentumoknak.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
4. lépés: Végezze el a felismerési folyamatot
A szöveg felismerése a szkennelt PDF-kból:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5. lépés: Az elismert szöveg mentése vagy exportálása
Az elismert szöveget fájlokba exportálja, vagy az eredményeket kereshető PDF-kba konvertálja.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
6. lépés: Hibaelhárítás hozzáadása
Helyezze fel a felismerést egy próbaverzióban/kapcsolóblokkban a robustosság érdekében.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
7. lépés: Nagy vagy többoldalú PDF-k optimalizálása
- PDF-k feldolgozása oldalról oldalra nagy fájlokhoz
- Kiváló minőségű szkennelés a legjobb eredményekért
- Batch folyamat párhuzamosan nagy gyűjtemények
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
8. lépés: A teljes munka példája
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Esetek és alkalmazások használata
Digitális archívum
Átalakítsa a szkennelt dokumentumok egész könyvtárát kereshető, indexálható fájlokra a megfelelés és a tudás menedzsment érdekében.
Jogi és szerződéses menedzsment
A szerződési feltételek vagy feltételek kivonása PDF-kból a felülvizsgálat, az automatizálás vagy a digitális aláírás céljából.
Streamlined dokumentum keresés
Lehetővé teszi a gyors teljes szöveges keresést archívumokban, ismeretbázisokban vagy eseti fájlokban.
Közös kihívások és megoldások
1. kihívás: alacsony minőségű vagy meghibásodott szkennelés
** Megoldás:** A lehető legjobban használja a feldolgozás előtti szűrőket és a kiváló minőségű szkennelést.
2. kihívás: többnyelvű PDF-k
** Megoldás:** A nyelvet a felismerési beállításokban vagy folyamatokban több nyelvi opcióval állítsa be.
3. kihívás: Nagyon nagy PDF fájlok
Teljesítmény: A feldolgozás csomagokban vagy oldalonként történik, és figyelemmel kíséri a memória használatát.
A teljesítmény megfontolása
- Optimális DPI (300+) használata a szkennelt PDF-khoz
- Batch-folyamat a legjobb átjutáshoz
- Az OCR objektumok és a záró fájlkezelők elhelyezése
Legjobb gyakorlatok
- Validálja az OCR kimenetelét a további automatizálás előtt
- Az eredeti PDF fájlok szervezése és biztonsági mentése
- Használja a helyes SaveFormatot a munkafolyamathoz
- Rendszeresen frissíti az ASPOSE.OCR-t az új PDF funkciókhoz
fejlett forgatókönyvek
1. forgatókönyv: Csak specifikus oldalak kivonása PDF-ből
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
2. forgatókönyv: Több formátumra exportálva
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
következtetések
Az Aspose.OCR for .NET lehetővé teszi, hogy a szkennelt PDF-eket művelhető szöveges és kereshető fájlokká alakítsa át – eltávolítva a kézi bejegyzéseket és hozzáférhetővé tegye az információkat az egész szervezet számára.
További részletekért és példákért lásd a Az ASPOSE.OCR a .NET API referenciájához .