Kuinka poistaa tekstiä skannattujen PDF-tiedostojen kanssa Aspose.OCR
Tekstin poistaminen skannatuista tai kuvapohjaisista PDF-tiedostoista vaatii monimutkaisia työnkulkuja tai kalliita manuaalisia työtä. Aspose.OCR Scanned PDF to Text for .NET -tekstillä voit automatisoida tämän prosessin, muuntaa PDF:t hakuvaan ja muokkaavaan tekstiin vain muutamalla koodin rivillä.
Reaalimaailman ongelma
Organisaatiot saavat usein sopimuksia, raportteja tai arkistoja skannattujen PDF-tiedostojen tavoin. tekstin manuaalisesti kopioiminen tai näiden asiakirjojen sisällä etsiminen on tylsää ja virheellistä, mikä hidastaa noudattamista, arkistamista ja digitaalisen muuntamisen hankkeita.
Ratkaisun yleiskatsaus
Aspose.OCR for .NET mahdollistaa skannattujen PDF-tiedostojen käsittelyn – kääntämällä ne tekstiin tai hakukoneisiin, jolloin tiedot ovat saatavilla, indeksoittavia ja valmiita digitaalisille työvirtoille.
edellytykset
Ennen kuin aloitat, varmista että sinulla on:
- Visual Studio 2019 tai uudempi
- .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET alkaen NuGet
- Perustiedot C#
PM> Install-Package Aspose.OCR
Vaiheittainen toteutus
Vaihe 1: Asenna ja asenna Aspose.OCR
Lisää NuGet-paketti ja viittaus Aspose.OCR:
using Aspose.OCR;
Vaihe 2: Lisää skannattuja PDF-tiedostoja
Luo OcrInput-objekti PDF-tuloksiin ja lisää skannattuja PDF -tiedostoja.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Vaihe 3: Määritä tunnistusasetukset
Aseta kieli ja muut tunnistusasetukset asiakirjoihisi.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Vaihe 4: Käynnistä tunnistamisprosessia
Tunnista teksti skannatuista PDF-tiedostoistasi:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Vaihe 5: Tallenna tai viedä tunnistettu teksti
Tutustu tunnistettuun tekstiin tiedostoihin tai muuntaa tulokset hakuvaan PDF-tiedostoon.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Vaihe 6: Lisää virheiden käsittely
Wrap tunnistaminen try/catch -blokkissa kestävyydelle.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Vaihe 7: Optimoi suuria tai monivuotisia PDF-tiedostoja
- Käsittele PDF-tiedostoja sivua kohden suurille tiedostoille
- Käytä laadukkaita skannauksia parhaan tuloksen saavuttamiseksi
- Batch prosessi rinnakkain suurille kokoelmille
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Vaihe 8: Täydellinen työ esimerkki
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Käytä tapauksia ja sovelluksia
Digitaalinen arkistointi
Muunna skannattujen asiakirjojen koko kirjasto hakukelpoisiksi, indeksoitaviksi tiedostoiksi vaatimustenmukaisuuden ja tietämyksen hallinnan kannalta.
Oikeudellinen ja sopimuksen hallinta
Poista sopimuslausekkeet tai ehdot PDF-tiedostosta tarkistusta, automaatiota tai digitaalista allekirjoitusta varten.
Streamlined dokumentin etsiminen
Mahdollistaa nopean täyden tekstin hakemisen arkistoissa, tietopohjaisissa tai tapaustiedostoissa.
Yhteiset haasteet ja ratkaisut
Haaste 1: Huonolaatuiset tai heikentyneet skannat
** Ratkaisu:** Käytä ennalta käsiteltyjä suodattimia ja laadukkaita skannauksia, jos mahdollista.
Haaste 2: Monikieliset PDF-tiedostot
** Ratkaisu:** Aseta kieli tunnistamisasetuksissa tai prosessissa useilla kielivaihtoehdoilla.
Haaste 3: Suuri PDF-tiedostoja
** Ratkaisu:** Käsittelemme paketteja tai sivua kohden ja valvomme muistin käyttöä.
suorituskyvyn huomioon ottaminen
- Käytä optimaalista DPIä (300+) skannatuille PDF-tiedostoille
- Batch prosessi parhaan läpäisevän
- OCR-objekteja ja suljettuja tiedostoja
Parhaat käytännöt
- Validoi OCR-tuotanto ennen automaatiota
- Järjestä ja varmuuskopioi alkuperäiset PDF-tiedostot
- Käytä oikeaa SaveFormattia työnkulkuun
- Aspose.OCR päivitetään säännöllisesti uusille PDF-ominaisuuksille
Edistyneet skenaariot
Käsikirjoitus 1: Poista vain tiettyjä sivuja PDF-tiedostosta
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Käsikirja 2: Moniin muotoihin vienti
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
johtopäätöksiä
Aspose.OCR for .NET mahdollistaa skannattujen PDF-tiedostojen muuntamisen toimitettavaksi tekstiksi ja hakuviksi tiedostoiksi – poistamalla manuaalinen sisäänpääsy ja tekemällä tiedot käytettävissä koko organisaatiossasi.
Lisätietoja ja esimerkkejä, katso ASPOSE.OCR .NET API-referenssille .