Kuinka poistaa teksti PDF-tiedostoista .NET: ssä
Tässä artikkelissa näytetään, miten tuoda tekstiä PDF-tiedostoista käyttämällä Aspose.PDF Text Extractor for .NET. Opit käyttämään kaikkia tuettuja tuontimuotoja - Pure, Raw ja Plain - ja automaattisesti työnkulkuja yksittäisille tai useille PDF:ille.
Reaalimaailman ongelma
Manuaalisesti kopioida tekstiä PDF-tiedostot on tehottomia ja virheellisiä. Sovellusten tietojen analysointi, asiakirjojen muuttaminen, tai arkistoinnin, automaattinen teksti kaappaaminen takaa johdonmukaisuuden, nopeuden ja tarkkuuden.
Ratkaisun yleiskatsaus
Aspose.PDF Text Extractor for .NET tarjoaa puhdasta, ohjelmoitavaa käyttöliittymää tekstin erottamiseen eri muodoissa.Valitse Pure, Raw ja Plain -muodot, jotka sopivat tapauksesi - tarvitsetko muotoiltua tulosta, raakaa tietoa tai tasaista sisältöä.
edellytykset
- Visual Studio 2019 tai uudempi
- .NET 6.0 tai uudempi
- Aspose.PDF for .NET asennettuna NuGetin kautta
PM> Install-Package Aspose.PDF
Vaiheittainen toteutus
Vaihe 1: Asenna ja asenna Aspose.PDF
using Aspose.Pdf.Plugins;
using System.IO;
Vaihe 2: Poista teksti oletusarvoisella (Raw) tilalla
using (var extractor = new TextExtractor())
{
var options = new TextExtractorOptions(); // Raw mode by default
options.AddInput(new FileDataSource("input.pdf"));
var resultContainer = extractor.Process(options);
string textExtracted = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(textExtracted);
}
Vaihe 3: Poista teksti puhtaalla tai tasaisella tavalla
- Pure Mode: Säilyttää suhteelliset asennot ja lisää tilaa yhdenmukaistamiseen.
- Plain-tilassa: Strips muotoilu, teksti ulottuu minimi tilaa.
using (var extractor = new TextExtractor())
{
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure); // Or .Plain
options.AddInput(new FileDataSource("input.pdf"));
var resultContainer = extractor.Process(options);
string textExtracted = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(textExtracted);
}
Käytä tapauksia ja sovelluksia (koodimuutoksilla)
1. Batch Extract tekstiä useista PDF-tiedostoista
string[] files = Directory.GetFiles(@"C:\PDFs", "*.pdf");
using (var extractor = new TextExtractor())
{
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
foreach (var file in files)
options.AddInput(new FileDataSource(file));
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string extracted = resultContainer.ResultCollection[i].ToString();
// Save to disk, process, or analyze as needed
File.WriteAllText($@"C:\PDFs\out\{Path.GetFileNameWithoutExtension(files[i])}.txt", extracted);
}
}
2. Valitse kierrätysmuoto käyttötapauksen perusteella
- Käytä Pure taulukon kaltaisia asetuksia tai tilaa muotoilua varten.
- Käytä Plain puhtaan tiedonlähtöön tai analysointiin.
- Käytä Raw käsittelemättömälle tekstille.
3. Post-prosessin tuottama teksti
Poiston jälkeen soveltaa regex, tekstipuhdistus tai lähettää tuloksia muille palveluille (katselu, ML: n putket jne.).
4. Integrate Extraction with Data Pipelines Tietokoneiden yhdistäminen*
Automaattinen kaivaminen osana laajempaa ETL:ää, raportointia tai asiakirjojen hallintaa käyttämällä .NET-käytäntöjä.
Yhteiset haasteet ja ratkaisut
Haaste: Epäselvä tulos monimutkaisen PDF-rakenteen vuoksiRatkaisu: Kokeile erilaisia poistoja (Pure, Plain, Raw) ja vertaile tuloksia.
Haaste: Batch-rakennusnopeusRatkaisu: Käytä yksittäistä TextExtractor
Esimerkki ja käsittely useita tiedostoja yhdessä kierroksessa parhaan suorituskyvyn.
Haaste: Erityisiä hahmoja tai koodausongelmiaRatkaisu: Käytä tasaista tilaa minimaaliselle muotoilulle ja soveltaa sitten tarvittaessa räätälöityä sarjan käsittelyä.
Suorituskyky ja parhaat käytännöt
- Testaa kaikki kolme ulostusmuotoa optimaalisen tuloksen määrittämiseksi asiakirjan tyypin
- Tallenna alkuperäiset PDF-tiedostot ennen batch-operaatioita
- Hanki tuotannon nimikkeitä ja organisaatiota batch-työpaikoissa
- Integroitu virheiden käsittely ja kirjautuminen kestävyydelle
Täydellinen esimerkki toteutuksesta
using Aspose.Pdf.Plugins;
using System;
using System.IO;
class Program
{
static void Main()
{
using (var extractor = new TextExtractor())
{
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Plain);
options.AddInput(new FileDataSource(@"C:\PDFs\input.pdf"));
var resultContainer = extractor.Process(options);
string textExtracted = resultContainer.ResultCollection[0].ToString();
File.WriteAllText(@"C:\PDFs\output.txt", textExtracted);
}
}
}
johtopäätöksiä
Aspose.PDF Text Extractor for .NET tarjoaa sinulle tehokkaita ja joustavia työkaluja tekstien poistoon useissa muodoissa – sopii tietojenkäsittelyyn, arkistointiin tai analyysiin. Valitse poiston tilanne parhaiten tarpeisiisi ja automaattinen kaivostoiminta korkean tehokkuuden saavuttamiseksi .Net-sovelluksissa.