如何使用 C# 在 Word 中删除空白页

如何使用 C# 在 Word 中删除空白页

这个快速教程解释了如何使用 C# 从 Word 文档(DOCX、DOC 等)中删除空白页面。这个过程涉及加载 Word 文件,分析单个页面,识别空白页面,最后创建一个不包含空白页面的新文档。

删除 Word 文档中空白页面的好处

  1. 更清晰的文档
    • 提高可读性和专业性。
  2. 减小文件大小
    • 通过消除不必要的页面来高效存储。
  3. 自动化能力
    • 适合自动清理大型文档。

前提条件:准备环境

  1. Visual Studio 或其他 .NET IDE。
  2. 通过 NuGet 包管理器添加 Aspose.Words。

使用 C# 删除 Word 中空白页面的逐步指南

步骤 1:配置环境

通过 NuGet 包管理器安装 Aspose.Words 库。

Install-Package Aspose.Words

步骤 2:加载 Word 文档

使用 Document 类对象加载原始 Word 文件。

Document originalDoc = new Document("WordFileWithBlankPages.docx");

步骤 3:单独提取每个页面

循环遍历每个页面,并将每个页面提取到一个单独的 Document 进行分析。

int totalPages = originalDoc.PageCount;

for (int i = 0; i < totalPages; i++)
{
    Document singlePageDoc = originalDoc.ExtractPages(i, 1);
    // 在下一步中分析 singlePageDoc
}

步骤 4:分析单页文档

检查单页文档是否包含文本或形状。

int shapesCounter = 0;
string pageText = "";

foreach (Section docSection in singlePageDoc.Sections)
{
    pageText += docSection.Body.ToString(SaveFormat.Text);
    shapesCounter += docSection.Body.GetChildNodes(NodeType.Shape, true).Count;
}

步骤 5:维护非空页面列表

跟踪包含内容的页面编号。

ArrayList blankPages = new ArrayList();
blankPages.Add(-1);

if (string.IsNullOrEmpty(pageText.Trim()) && shapesCounter == 0)
    blankPages.Add(i); // i 是循环中的页面索引

步骤 6:将非空页面附加到新文档

创建一个新文档,并仅使用跟踪的列表附加非空页面。

Document finalDoc = (Document)originalDoc.Clone(false);
finalDoc.RemoveAllChildren();

blankPages.Add(totalPages);

for (int i = 1; i < blankPages.Count; i++)
{
    int index = (int)blankPages[i - 1] + 1;
    int count = (int)blankPages[i] - index;

    if (count > 0)
        finalDoc.AppendDocument(originalDoc.ExtractPages(index, count), ImportFormatMode.KeepSourceFormatting);
}

步骤 7:保存修改后的文档

保存去除空白页面的新文档。

finalDoc.Save(@"cleaned.docx");

使用 C# 删除 Word 中空白页面的完整代码示例

以下是演示上述步骤的完整可执行代码示例:

Document originalDoc = new Document("WordFileWithBlankPages.docx");

ArrayList blankPages = new ArrayList();
blankPages.Add(-1);

int totalPages = originalDoc.PageCount;

for (int i = 0; i < totalPages; i++)
{
    Document singlePageDoc = originalDoc.ExtractPages(i, 1);
    int shapesCounter = 0;
    string pageText = "";

    foreach (Section docSection in singlePageDoc.Sections)
    {
        pageText += docSection.Body.ToString(SaveFormat.Text);
        shapesCounter += docSection.Body.GetChildNodes(NodeType.Shape, true).Count;
    }

    if (string.IsNullOrEmpty(pageText.Trim()) && shapesCounter == 0)
        blankPages.Add(i);
}

blankPages.Add(totalPages);

Document finalDoc = (Document)originalDoc.Clone(false);
finalDoc.RemoveAllChildren();

for (int i = 1; i < blankPages.Count; i++)
{
    int index = (int)blankPages[i - 1] + 1;
    int count = (int)blankPages[i] - index;

    if (count > 0)
        finalDoc.AppendDocument(originalDoc.ExtractPages(index, count), ImportFormatMode.KeepSourceFormatting);
}

finalDoc.Save(@"NonEmptyPages.docx");
System.Console.WriteLine("空白页面已成功删除。");

结论

本文解释了如何使用 C# 删除 Word 文件中的空白页面。通过遵循提供的步骤,您可以以编程方式检测空白页面并将其删除,从而生成更清晰的文档。您可以进一步探索 Aspose.Words 以进行更多 Word 文档操作任务。

 中文