xbot.pdf
概述
pdf接口主要是用来处理pdf文件的,如pdf文本提取、pdf图片提取、pdf页导出等
详情
extract_text
提取pdf文件文本
extract_text(path, from_page, to_page, * , password = None)
参数
path:pdf文件路径
from_page:起始页码
to_page:终止页码
password:密码
返回值
- str:返回从pdf文件中提取的文本
示例1
获取 D:\123.pdf 第 1 页到第 2 页的文本内容
import xbot
def main(args):
text = xbot.pdf.extract_text('D:\\123.pdf', 1, 2, password='xxxxxx')
extract_images
提取pdf文件图片
extract_images(path, from_page, to_page, save_to_dir, * , password = None, name_prefix = 'pdf_image')
参数
path:pdf文件路径
from_page:起始页码
to_page:终止页码
save_to_dir:保存的文件夹路径
password:密码
name_prefix:导出的图片名称前缀
返回值
- List[str]:返回提取到本地的图片路径列表, 如['c:/work/image_0501101010_1.png', 'c:/work/image_0501101010_2.png']
示例1
获取 D:\123.pdf 第 1 页到第 2 页中的图片文件并以 hello 作为前缀保存到 D:\image 路径下
import xbot
def main(args):
file_paths = xbot.pdf.extract_images('D:\\123.pdf', 1, 2, 'D:\\image',
password='xxxxxx', name_prefix='hello')
extract_pages
导出pdf文件中的页
extract_pages(path, from_page, to_page, save_to, * , password = None)
参数
path:pdf文件路径
from_page:起始页码
to_page:终止页码
save_to:保存的文件路径
password:密码
返回值
- str:返回保存到本地的新文件路径
示例1
导出 D:\123.pdf 第 1 页到第 2 页的内容并到村到 D:\abc.pdf 中
import xbot
def main(args):
path = xbot.pdf.extract_pages('D:\\123.pdf', 1, 2, 'D:\\abc.pdf', password='xxxxxx')
merge_pdfs
合并多个pdf文件
merge_pdfs(paths, save_to, * , passwords = None)
参数
paths:pdf文件路径列表,如['D:\123.pdf', 'D:\abc.pdf']
save_to:保存的文件路径
passwords:密码列表,如['xxxxxx', '......'],需要和文件路径列表一一对应
返回值
- str:返回保存到本地的新文件路径
示例1
将 ['D:\123.pdf', 'D:\abc.pdf'] 合并,合并之后的内容保存到 D:\hello.pdf 中
import xbot
def main(args):
path = xbot.pdf.merge_pdfs(['D:\\123.pdf', 'D:\\abc.pdf'], 'D:\\hello.pdf',
password=['xxxxxx', '......'])