python
主页 > 脚本 > python >

Python实现将PDF文件拆分任意页数介绍

2025-02-13 | 佚名 | 点击:

PyMuPDF,简称fitz,是一个轻量级的Python库,它基于MuPDF的C++库,提供了丰富的功能,包括但不限于PDF的读取、编辑、转换和渲染。Fitz作为PyMuPDF的子模块,简化和封装了PyMuPDF的功能,使得在Python中处理PDF文件更加简单。

二、安装

PyMuPDF(包含fitz模块)可以通过Python的包管理器pip来安装。

在命令行工具中输入以下命令:

1

pip install PyMuPDF

这将从Python包索引下载并安装PyMuPDF及其依赖项。

或者

三、基本功能

1、打开PDF文件:

使用fitz.open()函数可以打开一个PDF文件,并返回一个表示该文件的对象。例如:

1

2

import fitz

doc = fitz.open("example.pdf")

2、获取页面数量:

通过page_count属性可以获取PDF文件的总页数。例如:

1

2

page_count = doc.page_count 

print("Number of pages:", page_count)

3、提取文本:

使用get_text()方法可以提取当前页面的所有文本。例如:

1

2

text = page.get_text() 

print("Extracted text:", text)

此外,还可以遍历文档中的每一页,提取每一页的文本。

4、保存修改后的PDF:

使用save()方法可以保存对PDF文件所做的更改。例如:

1

doc.save("modified_example.pdf")

其他功能:

四、应用场景

PyMuPDF(fitz)适用于需要处理PDF文件的各种场景,如文本提取、页面操作、PDF合并与分割等。它以其快速、高效和易于使用而著称,是处理PDF文件的理想选择。

例如:PDF文件拆分任意页数.py

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

import fitz

import os

  

  

def split_pdf(pdf_path):

    # 检查输入的PDF文件是否存在

    if not os.path.exists(pdf_path):

        print("您输入的路径无pdf文件!")

        return

  

        # 打开pdf文件

    doc = fitz.open(pdf_path)

    page_count = len(doc)

    print(f"该pdf文件页数为:{page_count}")

  

    while True:

        # 获取起始页码(0基索引)

        page_num1 = None

        while True:

            try:

                user_input = input("请输入您拆分的起始页码(输入q/Q退出):")

                if user_input.lower() == 'q':

                    doc.close()

                    return

                page_num1 = int(user_input) - 1

                if page_num1 < 0 or page_num1 >= page_count:

                    print("起始页码无效,请重新输入。")

                else:

                    break

            except ValueError:

                print("请输入有效的起始页码或q/Q退出。")

  

        # 获取结束页码(0基索引)

        page_num2 = None

        while True:

            try:

                user_input = input("请输入您拆分的截止页码(输入q/Q退出):")

                if user_input.lower() == 'q':

                    doc.close()

                    return

                page_num2 = int(user_input) - 1

                if page_num2 < 0 or page_num2 >= page_count:

                    print("截止页码无效,请重新输入。")

                else:

                    break

            except ValueError:

                print("请输入有效的截止页码或q/Q退出。")

  

        # 创建一个新的PDF文档并插入指定的页面范围

        new_doc = fitz.open()

        new_doc.insert_pdf(doc, from_page=page_num1, to_page=page_num2)

  

        # 获取用户输入的PDF基础名字和保存目录

        pdf_base_name = input("请输入您的PDF基础名字:")

        if not pdf_base_name.lower().endswith('.pdf'):

            pdf_name = f"{pdf_base_name}_{page_num1 + 1}-{page_num2 + 1}.pdf"

        else:

            pdf_name = f"{pdf_base_name[:-4]}_{page_num1 + 1}-{page_num2 + 1}.pdf"

  

        save_dir = input("请输入您想要保存PDF的目录(例如:C:/Users/YourName/Documents/):")

        # 确保目录末尾有斜杠,并检查目录是否存在

        if not save_dir.endswith(os.sep) and save_dir != "":

            save_dir += os.sep

        os.makedirs(save_dir, exist_ok=True)

  

        output_path = os.path.join(save_dir, pdf_name)

        new_doc.save(output_path)

        new_doc.close()

        print(f"Saved: {output_path}")

  

        # 检查是否继续拆分或退出

        is_continue = input("是否继续拆分其他页面范围(q/Q退出)?").strip().lower()

        if is_continue == 'q':

            doc.close()

            break

  

  

# 调用函数进行PDF拆分

  

pdf_path = input("请输入您需要拆分的PDF路径:")

split_pdf(pdf_path)

原文链接:
相关文章
最新更新