Ako extrahovať text z skenovaných PDF s Aspose.OCR
Odstránenie textu z skenovaných alebo obrazových PDF súborov, ktoré sa používajú na vyžadovanie zložitých pracovných tokov alebo drahých manuálnych prác. S Aspose.OCR Scanned PDF na Text pre .NET, môžete automatizovať tento proces, konvertovať PDF do vyhľadávateľného a editovateľného texta len s niekoľkými riadkami kódu.
Reálny svetový problém
Organizácie často dostávajú zmluvy, správy alebo archívy ako skenované PDF. Manuálne kopírovanie textu alebo vyhľadávanie vnútri týchto dokumentov je úzkostné a chybové, spomalenie dodržiavania, archivovanie a digitálne transformácie projektov.
Prehľad riešenia
Aspose.OCR pre .NET vám umožňuje spárovať proces skenovaných PDF-ov – obrátiť ich do textových alebo vyhľadávateľných PDF, aby informácie boli prístupné, indexovateľné a pripravené na digitálne pracovné toky.
Predpoklady
Predtým ako začnete, uistite sa, že máte:
- Visual Studio 2019 alebo neskôr
- .NET 6.0 alebo novší (alebo .Net Framework 4.6.2+)
- Aspose.OCR pre .NET od NuGet
- Základné C# vedomosti
PM> Install-Package Aspose.OCR
krok za krokom implementácia
Krok 1: Inštalácia a konfigurácia Aspose.OCR
Pridajte balík NuGet a odkaz Aspose.OCR:
using Aspose.OCR;
Krok 2: Pridať skenované PDF súbory
Vytvorte objekt OcrInput pre PDF vstup a pridajte skenované PDF súbory.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Krok 3: Nastavenie rozpoznávania
Nastaviť jazyk a iné nastavenia rozpoznávania, aby vyhovovali vašim dokumentom.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Krok 4: Spustiť proces uznávania
Rozpoznávanie textu z skenovaných PDF:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Krok 5: Uložiť alebo exportovať uznávaný text
Export rozpoznaného textu do súborov, alebo konverziu výsledkov do vyhľadávateľných PDF.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Krok 6: Pridať chybové riešenie
Vráťte rozpoznávanie v try/catch bloku pre robustnosť.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Krok 7: Optimalizácia veľkých alebo viacstránkových PDF
- Prepracovať PDF stránky podľa stránky pre veľké súbory
- Použite vysoko kvalitné skenovanie pre najlepšie výsledky
- Batch proces v paralele pre veľké zbierky
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Krok 8: Kompletný pracovný príklad
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Použitie prípadov a aplikácií
Digitálne archívy
Konvertovať celé knižnice skenovaných dokumentov do vyhľadávateľných, indexovateľných súborov pre dodržiavanie a riadenie vedomostí.
Právne a zmluvné riadenie
Odstráňte zmluvné podmienky alebo podmienky z PDF pre preskúmanie, automatizáciu alebo digitálne podpísanie.
Streamlined dokument vyhľadávanie
Umožňuje rýchle vyhľadávanie plného textu v archívoch, znalostných základoch alebo súboroch prípadov.
Spoločné výzvy a riešenia
Výzva 1: Nízka kvalita alebo skreslené skenovanie
Riešenie: Ak je to možné, použite predbežné filtre a vysoko kvalitné skenovanie.
Výzva 2: Viacjazyčné PDF
Riešenie: Nastavenie jazyka v rozpoznávacích nastaveniach alebo procesoch s viacerými jazykovými možnosťami.
Výzva 3: Veľké PDF súbory
Riešenie: Proces v balíkoch alebo na stránke a monitorovanie používania pamäte.
Preskúmanie výkonnosti
- Optimálny DPI (300+) pre skenované PDF
- Batch proces pre najlepší priechod
- Umiestnite objekty OCR a uzavreté súbory
Najlepšie postupy
- Validácia výstupu OCR pred ďalšou automatizáciou
- Zorganizovať a zálohovať originálne PDF súbory
- Použite správny SaveFormat pre váš pracovný tok
- Pravidelne aktualizovať Aspose.OCR pre nové funkcie PDF
Pokročilé scenáre
Scénár 1: Odstráňte iba špecifické stránky z PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Scenár 2: Vývoz do viacerých formátov
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Záver
Aspose.OCR pre .NET vám umožňuje premeniť skenované PDF do aktívneho textu a vyhľadávateľných súborov – odstránenie manuálneho vstupu a prístupné informácie pre celú vašu organizáciu.
Pre ďalšie podrobnosti a príklady, pozri Aspose.OCR pre .NET API referencie .