Com eliminar la pàgina blanca en la paraula amb C#

Com eliminar la pàgina blanca en la paraula amb C#

Aquest tutorial ràpid explica com eliminar pàgines blanques dels documents de Word (DOCX, DOC, etc.) utilitzant C#. El procés implica carregar un fitxer de Word, analitzar pàgines individuals, identificar pàgines buides, i finalment crear un nou document sense les pàgines blanques.

Beneficis de l’eliminació de pàgines blanques en els documents de Word

  • Documents de neteja:- Millora la lectura i el professionalisme.

  • Dimensió de fitxer reduïda:- Estalvi eficaç eliminant pàgines innecessàries.

  • Capacitat d’automatitzaci:- Ideal per netejar documents grans automàticament.

Previsió: Preparar el medi ambient

  • Visual Studio o un altre .NET IDE.
  • Aspose.Words s’ha afegit a través de NuGet Package Manager.

Guia de pas a pas per eliminar pàgines blanques en Word utilitzant C#

Pas 1: Configurar el medi ambient

Instal·la la biblioteca Aspose.Words a través de NuGet Package Manager.

Install-Package Aspose.Words

Pas 2: Carregar el document de paraula

Carregar el seu arxiu original Word utilitzant l’objecte de classe Document.

Document originalDoc = new Document("WordFileWithBlankPages.docx");

Pas 3: Extreure cada pàgina de forma separada

Passar a través de cada pàgina i extreure cada pàgina en un Document separat per a l’anàlisi.

int totalPages = originalDoc.PageCount;

for (int i = 0; i < totalPages; i++)
{
    Document singlePageDoc = originalDoc.ExtractPages(i, 1);
    // Analyze singlePageDoc in next steps
}

Pas 4: Anàlisi de documents d’una pàgina

Veure si el document d’una pàgina conté text o formes.

int shapesCounter = 0;
string pageText = "";

foreach (Section docSection in singlePageDoc.Sections)
{
    pageText += docSection.Body.ToString(SaveFormat.Text);
    shapesCounter += docSection.Body.GetChildNodes(NodeType.Shape, true).Count;
}

Pas 5: Mantenir la llista de pàgines no buides

Mantenir el seguiment dels números de pàgines que contenen contingut.

ArrayList blankPages = new ArrayList();
blankPages.Add(-1);

if (string.IsNullOrEmpty(pageText.Trim()) && shapesCounter == 0)
    blankPages.Add(i); // i is page index in loop

Pas 6: Afegir pàgines no buides a un nou document

Crear un nou document i afegir només pàgines no vacants utilitzant la llista rastrejada.

Document finalDoc = (Document)originalDoc.Clone(false);
finalDoc.RemoveAllChildren();

blankPages.Add(totalPages);

for (int i = 1; i < blankPages.Count; i++)
{
    int index = (int)blankPages[i - 1] + 1;
    int count = (int)blankPages[i] - index;

    if (count > 0)
        finalDoc.AppendDocument(originalDoc.ExtractPages(index, count), ImportFormatMode.KeepSourceFormatting);
}

Pas 7: Salvar el document modificat

Salva el nou document amb pàgines blanques eliminades.

finalDoc.Save(@"cleaned.docx");

Exemple de codi complet per eliminar pàgines blanques en Word utilitzant C#

A continuació hi ha l’exemple complet de codi executable que demostra els passos anteriors:

Document originalDoc = new Document("WordFileWithBlankPages.docx");

ArrayList blankPages = new ArrayList();
blankPages.Add(-1);

int totalPages = originalDoc.PageCount;

for (int i = 0; i < totalPages; i++)
{
    Document singlePageDoc = originalDoc.ExtractPages(i, 1);
    int shapesCounter = 0;
    string pageText = "";

    foreach (Section docSection in singlePageDoc.Sections)
    {
        pageText += docSection.Body.ToString(SaveFormat.Text);
        shapesCounter += docSection.Body.GetChildNodes(NodeType.Shape, true).Count;
    }

    if (string.IsNullOrEmpty(pageText.Trim()) && shapesCounter == 0)
        blankPages.Add(i);
}

blankPages.Add(totalPages);

Document finalDoc = (Document)originalDoc.Clone(false);
finalDoc.RemoveAllChildren();

for (int i = 1; i < blankPages.Count; i++)
{
    int index = (int)blankPages[i - 1] + 1;
    int count = (int)blankPages[i] - index;

    if (count > 0)
        finalDoc.AppendDocument(originalDoc.ExtractPages(index, count), ImportFormatMode.KeepSourceFormatting);
}

finalDoc.Save(@"NonEmptyPages.docx");
System.Console.WriteLine("Blank pages removed successfully.");

Conclusió

Aquest article va explicar com eliminar pàgines blanques en els fitxers de Word utilitzant C#. En seguir els passos proporcionats, podeu detectar programàticament pàgines buides i eliminar-les, resultant en un document més net.

 Català