xbot.pdf

概述

pdf接口主要是用来处理pdf文件的，如pdf文本提取、pdf图片提取、pdf页导出等

详情

extract_text

提取pdf文件文本

extract_text(path, from_page, to_page, * , password = None)

参数

path：pdf文件路径
from_page：起始页码
to_page：终止页码
password：密码

返回值

str：返回从pdf文件中提取的文本

示例1

获取 D:\123.pdf 第 1 页到第 2 页的文本内容

import xbot

def main(args):
    text = xbot.pdf.extract_text('D:\\123.pdf', 1, 2, password='xxxxxx')

extract_images

提取pdf文件图片

extract_images(path, from_page, to_page, save_to_dir, * , password = None, name_prefix = 'pdf_image')

参数

path：pdf文件路径
from_page：起始页码
to_page：终止页码
save_to_dir：保存的文件夹路径
password：密码
name_prefix：导出的图片名称前缀

返回值

List[str]：返回提取到本地的图片路径列表, 如['c:/work/image_0501101010_1.png', 'c:/work/image_0501101010_2.png']

示例1

获取 D:\123.pdf 第 1 页到第 2 页中的图片文件并以 hello 作为前缀保存到 D:\image 路径下

import xbot

def main(args):
    file_paths = xbot.pdf.extract_images('D:\\123.pdf', 1, 2, 'D:\\image', 
                                         password='xxxxxx',  name_prefix='hello')

extract_pages

导出pdf文件中的页

extract_pages(path, from_page, to_page, save_to, * , password = None)

参数

path：pdf文件路径
from_page：起始页码
to_page：终止页码
save_to：保存的文件路径
password：密码

返回值

str：返回保存到本地的新文件路径

示例1

导出 D:\123.pdf 第 1 页到第 2 页的内容并到村到 D:\abc.pdf 中

import xbot

def main(args):
    path = xbot.pdf.extract_pages('D:\\123.pdf', 1, 2, 'D:\\abc.pdf', password='xxxxxx')

merge_pdfs

合并多个pdf文件

merge_pdfs(paths, save_to, * , passwords = None)

参数

paths：pdf文件路径列表，如['D:\123.pdf', 'D:\abc.pdf']
save_to：保存的文件路径
passwords：密码列表，如['xxxxxx', '......']，需要和文件路径列表一一对应

返回值

str：返回保存到本地的新文件路径

示例1

将 ['D:\123.pdf', 'D:\abc.pdf'] 合并，合并之后的内容保存到 D:\hello.pdf 中

import xbot 

def main(args):
    path = xbot.pdf.merge_pdfs(['D:\\123.pdf', 'D:\\abc.pdf'], 'D:\\hello.pdf', 
                              password=['xxxxxx', '......'])

xbot.pdf

xbot.pdf

概述

详情

extract_text

extract_images

extract_pages

merge_pdfs

results matching ""

No results matching ""