Kuinka poistaa tekstiä skannattujen PDF-tiedostojen kanssa Aspose.OCR
tekstiä skannattuun tai kuvanpohjaiseen PDF Tiedostot, joita käytetään vaativan monimutkaisia työnkulkuja tai kalliita manuaalisia töitä. Aspose.OCR Scanned PDF to Text for .NET, voit automatisoida tämän prosessin, muuntaa PDF-tiedostoja etsimättömään ja muokattavaan tekstiin vain muutamalla koodin rivillä.
Reaalimaailman ongelma
Organisaatiot saavat usein sopimuksia, raportteja tai arkistoja skannattujen PDF-tiedostojen tavoin. tekstin manuaalisesti kopioiminen tai näiden asiakirjojen sisällä etsiminen on tylsää ja virheellistä, mikä hidastaa noudattamista, arkistamista ja digitaalisen muuntamisen hankkeita.
Ratkaisun yleiskatsaus
Aspose.OCR for .NET mahdollistaa skannattujen PDF-tiedostojen käsittelyn – kääntämällä ne tekstiin tai hakukoneisiin, jolloin tiedot ovat saatavilla, indeksoittavia ja valmiita digitaalisille työvirtoille.
edellytykset
Ennen kuin aloitat, varmista että sinulla on:
- Visual Studio 2019 tai uudempi
- .NET 6.0 tai uudempi (tai .NET Framework 4.6.2+)
- ASPOSE.OCR for .NET alkaen NuGet
- Perustiedot C
PM> Install-Package Aspose.OCR
Vaiheittainen toteutus
Vaihe 1: Asenna ja asenna Aspose.OCR
Lisää NuGet-paketti ja viittaus Aspose.OCR:
using Aspose.OCR;
Vaihe 2: Lisää skannattuja PDF-tiedostoja
Luo OcrInput-objekti PDF-tuloksiin ja lisää skannattuja PDF -tiedostoja.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Vaihe 3: Määritä tunnistusasetukset
Aseta kieli ja muut tunnistusasetukset asiakirjoihisi.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Vaihe 4: Käynnistä tunnistamisprosessia
Tunnista teksti skannatuista PDF-tiedostoistasi:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Vaihe 5: Tallenna tai viedä tunnistettu teksti
Tutustu tunnistettuun tekstiin tiedostoihin tai muuntaa tulokset hakuvaan PDF-tiedostoon.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Vaihe 6: Lisää virheiden käsittely
Wrap tunnistaminen try/catch -blokkissa kestävyydelle.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Vaihe 7: Optimoi suuria tai monivuotisia PDF-tiedostoja
- Käsittele PDF-tiedostoja sivua kohden suurille tiedostoille
- Käytä laadukkaita skannauksia parhaan tuloksen saavuttamiseksi
- Batch prosessi rinnakkain suurille kokoelmille
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Vaihe 8: Täydellinen työ esimerkki
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Käytä tapauksia ja sovelluksia
Digitaalinen arkistointi
Muunna skannattujen asiakirjojen koko kirjasto hakukelpoisiksi, indeksoitaviksi tiedostoiksi vaatimustenmukaisuuden ja tietämyksen hallinnan kannalta.
Oikeudellinen ja sopimuksen hallinta
Poista sopimuslausekkeet tai ehdot PDF-tiedostosta tarkistusta, automaatiota tai digitaalista allekirjoitusta varten.
Streamlined dokumentin etsiminen
Mahdollistaa nopean täyden tekstin hakemisen arkistoissa, tietopohjaisissa tai tapaustiedostoissa.
Yhteiset haasteet ja ratkaisut
Haaste 1: Huonolaatuiset tai heikentyneet skannat
Ratkaisu: Käytä ennalta käsiteltyjä suodattimia ja laadukkaita skannauksia, jos mahdollista.
Haaste 2: Monikieliset PDF-tiedostot
Ratkaisu: Aseta kieli tunnistamisasetuksissa tai prosessissa useilla kielivaihtoehdoilla.
Haaste 3: Suuri PDF-tiedostoja
Ratkaisu: Käsittelemme paketteja tai sivua kohden ja valvomme muistin käyttöä.
suorituskyvyn huomioon ottaminen
- Käytä optimaalista DPIä (300+) skannatuille PDF-tiedostoille
- Batch prosessi parhaan läpäisevän
- OCR-objekteja ja suljettuja tiedostoja
Parhaat käytännöt
- Validoi OCR-tuotanto ennen automaatiota
- Järjestä ja varmuuskopioi alkuperäiset PDF-tiedostot
- Käytä oikeaa SaveFormattia työnkulkuun
- Aspose.OCR päivitetään säännöllisesti uusille PDF-ominaisuuksille
Edistyneet skenaariot
Käsikirjoitus 1: Poista vain tiettyjä sivuja PDF-tiedostosta
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Käsikirja 2: Moniin muotoihin vienti
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
johtopäätöksiä
Aspose.OCR for .NET mahdollistaa skannattujen PDF-tiedostojen muuntamisen toimitettavaksi tekstiksi ja hakuviksi tiedostoiksi – poistamalla manuaalinen sisäänpääsy ja tekemällä tiedot käytettävissä koko organisaatiossasi.
Lisätietoja ja esimerkkejä, katso ASPOSE.OCR .NET API-referenssille .