帮助中心
快速寻找答案
首页>帮助手册>

xbot.pdf

描述:用于处理pdf文件,如对pdf的文本提取、pdf中图片提取、pdf页导出

方法

extract_text()

提取pdf文件文本

extract_text(path, from_page, to_page, password = None)

输入参数

path:pdf文件路径,如 "C:\影刀.pdf"

from_page:起始页码。

to_page:终止页码。

password:pdf的文件密码。该参数属关键字参数。如不传入,默认为pdf文件无密码

返回值

str:字符串类型返回值,返回从pdf文件中提取的文本

示例1

import xbot
def main(args):
text = xbot.pdf.extract_text('D:\\123.pdf',1,2,password="abc123")
print(text)

该示例执行逻辑: 获取D盘中名为 "123.pdf" 的pdf文件第一页和第二页的文本内容(文件密码为abc123) --> 打印提取结果

extract_images()

提取pdf文件多张图片

extract_images(path, from_page, to_page, save_to_dir,password = None, name_prefix = 'pdf_image')

输入参数

path:pdf文件路径

from_page:起始页码

to_page:终止页码

save_to_dir:图片保存的文件夹路径

password:pdf的文件密码。此参数为关键字参数,不传入默认为无密码

name_prefix:导出的图片名称前缀。此参数为关键字参数,不传入则图片默认前缀为“pdf_image”

返回值

List:列表类型返回值,返回提取到本地的图片路径列表。如['C:/work/pdf_image_0501101010_1.png', 'C:/work/pdf_image_0501101010_2.png']

示例1

import xbot
def main(args):
file_paths = xbot.pdf.extract_images('D:\\123.pdf', 1, 2, 'D:\\image',password='abc12', name_prefix='hello')
print(file_paths)

该示例执行逻辑: 提取D盘中名为“123.pdf”中的所有图片--> 打印图片的保存路径

extract_pages()

导出pdf文件中的页

extract_pages( path, from_page, to_page, save_to,password = None )

输入参数

path:pdf文件路径

from_page:起始页码

to_page:终止页码

save_to:保存的文件路径。路径输入时,一定要有文件名称,如:"C:\影刀文件.pdf"

password:pdf的文件密码。此参数为关键字参数,不传入默认为无密码

返回值

  • str:字符串返回值,返回保存到本地的新文件路径

示例1

import xbot
def main(args):
path = xbot.pdf.extract_pages('D:\\123.pdf', 1, 2, 'D:\\abc.pdf', password='abc12')
print(path)

该示例执行逻辑: 提取D盘中 "123.pdf" 文件第1、2页的内容--> 打印提取后的pdf文件保存路径

merge_pdfs()

合并多个pdf文件

merge_pdfs(paths, save_to , passwords = None)

传入参数

paths:pdf文件路径列表。如['D:\123.pdf', 'D:\abc.pdf']

save_to:保存的文件路径。路径输入时,一定要有文件名称,如:"C:\影刀文件.pdf"

passwords:pdf文件各自的密码,参数类型为列表类型,传入时需注意(如['xxxxxx', 'yyyy',...])。密码列表中的元素需要和文件路径列表一一对应。此参数为关键字参数,不传入默认为所有pdf文件无密码

返回值

str:字符串返回值,返回保存到本地的新文件路径

示例1

import xbot
def main(args):
path = xbot.pdf.merge_pdfs(['D:\\123.pdf', 'D:\\abc.pdf'], 'D:\\hello.pdf',
password=['xxxxxx', 'yyy'])
print(path)

该示例执行逻辑: 合并D盘中 "123.pdf" 文件和 "abc.pdf" 文件 --> 打印合并后的pdf文件保存路径

问题没有解决?去社区提问