Kako ukloniti bijelu stranicu u tekstu pomoću C#

Kako ukloniti bijelu stranicu u tekstu pomoću C#

Ovaj brz tutorial objašnjava kako ukloniti prazne stranice iz Word dokumenata (DOCX, DOC, itd.) pomoću C#. Proces uključuje preuzimanje Word datoteke, analiziranje pojedinačnih stranica, identifikaciju praznih stranica i konačno stvaranje novog dokumenta bez praznih stranica.

Prednosti uklanjanja bijelih stranica u Word dokumentima

  • Proizvodi za čišćenje:- Povećava čitljivost i profesionalnost.

  • Smanjena veličina datoteke:- Učinkovito skladištenje uklanjanjem nepotrebnih stranica.

  • Automatizacijska sposobnost:- Idealno za automatsko čišćenje velikih dokumenata.

Predviđanja: Priprema za okoliš

  • Visual Studio ili drugi .NET IDE.
  • Aspose.Words je dodan putem NuGet Package Manager.

Korak po korak vodič za uklanjanje bijelih stranica u tekstu pomoću C#

Korak 1: Uklanjanje okruženja

Instalirajte knjižnicu Aspose.Words putem upravitelja paketa NuGet.

Install-Package Aspose.Words

Korak 2: Preuzmite Word dokument

Preuzmite izvorni Word datoteku pomoću objekta razreda dokumenta.

Document originalDoc = new Document("WordFileWithBlankPages.docx");

Korak 3: Izvadite svaku stranicu odvojeno

Prolazite kroz svaku stranicu i izvadite svaku stranicu u odvojen dokument za analizu.

int totalPages = originalDoc.PageCount;

for (int i = 0; i < totalPages; i++)
{
    Document singlePageDoc = originalDoc.ExtractPages(i, 1);
    // Analyze singlePageDoc in next steps
}

Korak 4: Analiza pojedinačnih stranica dokumenata

Provjerite da li dokument na jednoj stranici sadrži tekst ili oblike.

int shapesCounter = 0;
string pageText = "";

foreach (Section docSection in singlePageDoc.Sections)
{
    pageText += docSection.Body.ToString(SaveFormat.Text);
    shapesCounter += docSection.Body.GetChildNodes(NodeType.Shape, true).Count;
}

Korak 5: Održavanje popisa praznih stranica

Slijedite brojeve stranica koje sadrže sadržaj.

ArrayList blankPages = new ArrayList();
blankPages.Add(-1);

if (string.IsNullOrEmpty(pageText.Trim()) && shapesCounter == 0)
    blankPages.Add(i); // i is page index in loop

Korak 6: Priključite prazne stranice novom dokumentu

Stvorite novi dokument i dodajte samo ne-prazne stranice pomoću praćenog popisa.

Document finalDoc = (Document)originalDoc.Clone(false);
finalDoc.RemoveAllChildren();

blankPages.Add(totalPages);

for (int i = 1; i < blankPages.Count; i++)
{
    int index = (int)blankPages[i - 1] + 1;
    int count = (int)blankPages[i] - index;

    if (count > 0)
        finalDoc.AppendDocument(originalDoc.ExtractPages(index, count), ImportFormatMode.KeepSourceFormatting);
}

Korak 7: Sačuvajte izmijenjeni dokument

Sačuvajte novi dokument s bijelim stranicama uklonjenim.

finalDoc.Save(@"cleaned.docx");

Kompletni primjer koda za uklanjanje bijelih stranica u riječi pomoću C#

Ispod je potpuni primjer izvršljivog koda koji pokazuje gore navedene korake:

Document originalDoc = new Document("WordFileWithBlankPages.docx");

ArrayList blankPages = new ArrayList();
blankPages.Add(-1);

int totalPages = originalDoc.PageCount;

for (int i = 0; i < totalPages; i++)
{
    Document singlePageDoc = originalDoc.ExtractPages(i, 1);
    int shapesCounter = 0;
    string pageText = "";

    foreach (Section docSection in singlePageDoc.Sections)
    {
        pageText += docSection.Body.ToString(SaveFormat.Text);
        shapesCounter += docSection.Body.GetChildNodes(NodeType.Shape, true).Count;
    }

    if (string.IsNullOrEmpty(pageText.Trim()) && shapesCounter == 0)
        blankPages.Add(i);
}

blankPages.Add(totalPages);

Document finalDoc = (Document)originalDoc.Clone(false);
finalDoc.RemoveAllChildren();

for (int i = 1; i < blankPages.Count; i++)
{
    int index = (int)blankPages[i - 1] + 1;
    int count = (int)blankPages[i] - index;

    if (count > 0)
        finalDoc.AppendDocument(originalDoc.ExtractPages(index, count), ImportFormatMode.KeepSourceFormatting);
}

finalDoc.Save(@"NonEmptyPages.docx");
System.Console.WriteLine("Blank pages removed successfully.");

zaključak

Ovaj članak objašnjava kako ukloniti prazne stranice u Word datoteke pomoću C#. Slijedom predviđenih koraka, možete programski otkriti prazne stranice i ukloniti ih, što rezultira čistim dokumentom.

 Hrvatski