Hogyan lehet átalakítani a szkennelt PDF-ket kereshető dokumentumokba
Sok értékes dokumentum a szkennelt PDF-kban van elkapva, így nem kereshető és nem hozzáférhető a keresőmotorokhoz vagy a termelékenységi eszközökhöz. Aspose.OCR Scanned PDF to Text for .NET lehetővé teszi, hogy ezeket a statikus fájlokat teljes körűen megkereshető, szerkeszthető dokumentumba alakítsa, minimális kódgal.
Valódi problémák
A szkennelt PDF-szerződéseket, könyveket vagy archívumokat nem lehet keresni, indexelni vagy másolni, kivéve, ha a szöveget kivonják. kézi retyping lassú, drága, és a hibák bevezetésének kockázata - különösen a nagy vagy többoldalú fájlok esetében.
megoldás áttekintése
Az ASPOSE.OCR for .NET képes összeállítani a szkennelt PDF-k feldolgozását, kivonja és exportálja a szöveget a különböző formátumokban, így a dokumentumok kereshetők, indexálhatók és készen állnak a digitális munkafolyamatokhoz vagy a megfeleléshez.
előfeltételek
- Visual Studio 2019 vagy újabb
- .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET a NuGet-ről
- Alapvető C# programozási tapasztalat
PM> Install-Package Aspose.OCR
lépésről lépésre megvalósítás
1. lépés: Az Aspose.OCR telepítése és konfigurálása
using Aspose.OCR;
2. lépés: Add scaned PDF fájlok
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");
3. lépés: A PDF-ek felismerési beállításai beállítása
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts
4. lépés: futtatja az OCR-t a szkennelt PDF-eken
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5. lépés: A kereshető formátumok exportálása
foreach (RecognitionResult result in results)
{
result.Save("archive_searchable.pdf", SaveFormat.Pdf); // Searchable PDF
result.Save("archive_text.txt", SaveFormat.Text); // Plain text
result.Save("archive_word.docx", SaveFormat.Docx); // Word document
}
6. lépés: Hibaelhárítás és validáció hozzáadása
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
7. lépés: Többoldalú és nagy PDF-k optimalizálása
- A több oldalt tartalmazó PDF-k esetében adja meg a fájlt és állítsa be az oldal tartományokat, amennyiben szükséges
- Tune beállítások dokumentum elrendezés és nyelv
- Batch feldolgozza az összes fájlt egy katalógusban
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
8. lépés: Teljes példa
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("archive_searchable.pdf", SaveFormat.Pdf);
result.Save("archive_text.txt", SaveFormat.Text);
result.Save("archive_word.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Esetek és alkalmazások használata
Digitális archív keresés
Statikus, szkennelt archívumok átalakítása kereshető, indexelt erőforrások könyvtárak, jogi cégek, vagy társaságok.
Szabályozási és megfelelőségi digitalizáció
Szöveg kivonása a szkennelt megfelelőségi dokumentumokból a jóváhagyás és az ellenőrzés céljából.
Akadémiai és könyvkiadvány
Digitalizálja a könyveket és a kutatási papírokat a digitális hozzáférés, az e-learning vagy a forgalmazás céljából.
Közös kihívások és megoldások
1. kihívás: alacsony minőségű vagy meghibásodott szkennelés
** Megoldás:** A tisztaság előkészítése; az AUTO üzemmód használata a tiszta elrendezés kezeléséhez.
2. kihívás: többnyelvű PDF-k
** Megoldás:** A nyelvi beállítások beállítása és tesztelése a mintafájlokon.
3. kihívás: Nagyon nagy vagy nagy fájlok
** Megoldás:** A folyamat kezelhető csomagokban és a memória használatának nyomon követésében történik.
A teljesítmény megfontolása
- Batch folyamat a maximális hatékonyság érdekében
- Kiváló minőségű szkennelt PDF-k használata
- Az OCR tárgyak használatát követően
Legjobb gyakorlatok
- Validálja a kimenetet a forráskódú PDF-k ellen az integráció előtt
- PDF-k szervezése témakörben vagy részlegben a könnyebb kezelés érdekében
- Biztosítsa az összes szkennelt és feldolgozott fájlt
- Használja az Aspose.OCR legújabb verzióját a legjobb pontosság érdekében
fejlett forgatókönyvek
1. forgatókönyv: Export JSON adatcsövekhez
foreach (RecognitionResult result in results)
{
result.Save("archive_data.json", SaveFormat.Json);
}
2. forgatókönyv: Selective Page OCR
input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only
következtetések
Az Aspose.OCR Scanned PDF to Text for .NET lehetővé teszi, hogy gyorsan átalakítsa a szkennelt PDF-ket kereshető, szerkeszthető dokumentumokba a modern munkafolyamatokhoz.
Találjon továbbfejlesztett kódot és tippeket a Az ASPOSE.OCR a .NET API referenciájához .