Kaip ištrinti tekstą iš skanintų PDF su Aspose.OCR
Tekstą iš skanintų ar vaizdo PDF failų, kurie naudojami reikalauti sudėtingų darbo srautų ar brangių rankinių darbų. su Aspose.OCR Scanned PDF į tekstą .NET, galite automatizuoti šį procesą, konvertuojant PDF paieškos ir redagavimo tekstas su tik keliomis kodo eilutėmis.
Realaus pasaulio problemos
Organizacijos dažnai gauna sutartis, ataskaitas ar archyvus kaip skenuojami PDF dokumentai. rankiniu būdu kopijuoti tekstą ar ieškoti šių dokumentų yra nuobodus ir klaidinga, sulėtinti atitikties, archyvinimo ir skaitmeninės transformacijos projektus.
Sprendimo apžvalga
ASPOSE.OCR .NET leidžia jums apibendrinti skanytus PDF failus – paverčiant juos teksto ar paieškos PDF, kad informacija būtų prieinama, indeksuojama ir paruošta skaitmeniniams darbo srautams.
Prerequisites
Prieš pradėdami, įsitikinkite, kad turite:
- „Visual Studio 2019“ arba vėliau
- .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
- ASPOSE.OCR už .NET iš NuGet
- Pagrindinės C# žinios
PM> Install-Package Aspose.OCR
Žingsnis po žingsnio įgyvendinimas
1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR
Pridėti NuGet paketą ir nuorodą Aspose.OCR:
using Aspose.OCR;
2 žingsnis: Įdėkite savo skanytus PDF failus
Sukurkite „OcrInput“ objektą PDF įvedimui ir pridėkite skanytus PDF failus.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
3 žingsnis: nustatyti atpažinimo nustatymus
Konfigūruokite kalbą ir kitas atpažinimo nustatymus, kad atitiktų jūsų dokumentus.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
4 žingsnis: vykdykite pripažinimo procesą
Atpažinkite tekstą iš skanintų PDF failų:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5 žingsnis: išsaugoti arba eksportuoti pripažintą tekstą
Eksportuoti pripažintą tekstą į failus arba paversti rezultatus paieškos PDF.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
6 žingsnis: pridėti klaidų tvarkymą
Įdėti pripažinimą į bandymo / paieškos bloką tvirtumui.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
7 žingsnis: optimizuokite didelius arba daugiašalius PDF failus
- PDF puslapio per puslapį tvarkymas dideliems failams
- Naudokite aukštos kokybės skenavimus geriausiems rezultatams
- Batch procesas lygiagrečiai didelėms kolekcijoms
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
8 žingsnis: pilnas darbo pavyzdys
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Naudokite atvejus ir paraiškas
Skaitmeninis archyvas
Konvertuokite visą skenuojamų dokumentų biblioteką į paieškos, indeksavimo failus, kad būtų užtikrintas atitikties ir žinių valdymas.
Teisinis ir sutarčių valdymas
Sutarties nuostatos arba sąlygos iš PDF pateikiamos peržiūros, automatizavimo ar skaitmeninio parašo tikslais.
Streamlined dokumentų paieška
Galite greitai ieškoti viso teksto archyvuose, žinių bazėse ar atvejų failuose.
Bendrieji iššūkiai ir sprendimai
1 iššūkis: žemos kokybės arba sutrumpintas skenavimas
Išsprendimas: Jei įmanoma, naudokite iš anksto apdorojamus filtrus ir aukštos kokybės skenus.
Iššūkis 2: Daugiakalbės PDF
Išsprendimas: Įveskite kalbos atpažinimo nustatymus arba procesą su keliomis kalbų parinktimis.
Iššūkis 3: Labai dideli PDF failai
Išsprendimas: Procesas pakuotėse arba per puslapį, ir stebėti atminties naudojimą.
Veiksmingumo apžvalgos
- Naudokite optimalią DPI (300+) skanintiems PDF failams
- Batch procesas geriausiam perdavimui
- Įdiegti OCR objektus ir uždarus failus
Geriausios praktikos
- OCR išleidimo patvirtinimas prieš tolesnį automatizavimą
- Organizuokite ir atsargiai kopijuoti originalius PDF failus
- Naudokite teisingą SaveFormat savo darbo srautui
- Reguliariai atnaujinamas Aspose.OCR naujoms PDF funkcijoms
Išplėstiniai scenarijai
1 scenarijus: iš PDF pašalinti tik specifinius puslapius
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
2 scenarijus: eksportuoti į daugybę formatų
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Conclusion
ASPOSE.OCR for .NET leidžia konvertuoti skanytus PDF failus į aktyvius tekstus ir paieškos failius – pašalinti rankinius įrašus, kad informacija būtų prieinama visai jūsų organizacijai.
Daugiau detalių ir pavyzdžių žr. ASPOSE.OCR už .NET API nuorodą .