Kā izrakstīt tekstu no skenētiem PDF ar Aspose.OCR
Izņemot tekstu no skenētiem vai attēla balstītajiem PDF failiem, kas tiek izmantoti, lai pieprasītu sarežģītus darba plūsmas vai dārgu manuālo darbu. ar Aspose.OCR Scanned PDF to Text for .NET, jūs varat automātiski šo procesu, pārvēršot PDF uz meklējamu un rediģējošu tekstu ar tikai dažām koda līnijām.
Reālā pasaules problēma
Organizācijas bieži saņem līgumus, ziņojumus vai arhīvus kā skenētas PDF. Manuāli kopējot tekstu vai meklējot šos dokumentus ir nogurums un kļūdas, palēninot atbilstību, arhivēšanas un digitālās transformācijas projektus.
Risinājumu pārskats
Aspose.OCR for .NET ļauj apstrādāt skenētus PDF failus – pārvēršot tos teksta vai meklējamā PDF, padarot informāciju pieejamu, indeksējamu un gatavu digitālajiem darba plūsmiem.
Prerequisites
Pirms sākat, pārliecinieties, ka jums ir:
- Visual Studio 2019 vai vēlāk
- .NET 6.0 vai jaunāks (vai .Net Framework 4.6.2+)
- Aspose.OCR par .NET no NuGet
- C# zināšanas
PM> Install-Package Aspose.OCR
Step-by-step īstenošana
1. solis: Uzstādīt un konfigurēt Aspose.OCR
Pievienojiet NuGet paketi un atsauci uz Aspose.OCR:
using Aspose.OCR;
2. solis: Pievienojiet skanētos PDF failus
Izveidojiet OcrInput objektu PDF ievadīšanai un pievienojiet skanētos PDF failus.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
3. solis: Iestatīt atpazīšanas iestatījumus
Konfigurējiet valodu un citus atpazīšanas iestatījumus, lai atbilstu jūsu dokumentiem.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
4. solis: Veicināt atpazīšanas procesu
Atzīt tekstu no jūsu skenētiem PDF:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5. solis: saglabāt vai eksportēt atpazīstamo tekstu
Eksportēt atpazīto tekstu failos vai konvertēt rezultātus meklējamiem PDF.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
6. solis: pievienojiet kļūdu apstrādi
Wrap atpazīšanu mēģiniet / nokļūst bloks, lai nodrošinātu izturību.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
7. solis: Optimizējiet lielas vai vairāku lapu PDF
- Pārstrādā PDF lapu pēc lapas milzīgiem failiem
- Izmanto augstas kvalitātes skenēšanu, lai iegūtu labākus rezultātus
- Batch process paralēli lielām kolekcijām
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
8. solis: pilns darba piemērs
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Izmantojiet gadījumus un pieteikumus
Digitālā arhīva
Konvertēt visas skanēto dokumentu bibliotēkas meklējamiem, indeksojošiem failiem atbilstības un zināšanu pārvaldības nolūkā.
Juridiskā un līguma pārvaldība
Izvadīt līguma noteikumus vai nosacījumus no PDF, lai pārskatītu, automātu vai digitālo parakstu.
Streamlined dokumentu meklēšana
Ieteicams ātri meklēt pilnīgu tekstu arhīvos, zināšanu bāzēs vai gadījumu failos.
Kopīgi izaicinājumi un risinājumi
1. izaicinājums: zemas kvalitātes vai izslēgta skenēšana
Rīze: Ja iespējams, izmantojiet iepriekš apstrādātus filtrus un augstas kvalitātes skenēšanu.
2. izaicinājums: daudzu valodu PDF
Rīze: Iestatīt valodu atpazīšanas iestatījumos vai procesā ar vairākiem valodas opcijām.
3. problēma: ļoti lieli PDF faili
Rīze: Procesi tiek veikti vienā vai pa lapai un tiek uzraudzīta atmiņas izmantošana.
Darbības apsvērumi
- Izmantojiet optimālu DPI (300+) skenētiem PDF failiem
- Batch process par labāko caurlaidību
- Ievietojiet OCR priekšmetus un slēgtus failus
Labākās prakses
- Validējiet OCR iznākumu pirms turpmākas automatizācijas
- Organizēt un kopēt oriģinālus PDF failus
- Izmantojiet pareizo SaveFormat jūsu darba plūsmai
- Regulāri atjaunina Aspose.OCR jaunām PDF funkcijām
Augstākie scenāriji
1. scenārijs: no PDF izņemt tikai konkrētus lapas
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
2. scenārijs: eksportēšana vairākos formātos
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Conclusion
Aspose.OCR for .NET ļauj pārvērst skenētos PDF failus darbojamā teksta un meklējamā failiem – noņemot manuālo ievadījumu un padarot informāciju pieejamu visai jūsu organizācijai.
Plašāka informācija un piemēri, skatiet Aspose.OCR par .NET API atsauci .