xbot.pdf

概述

pdf接口主要是用来处理pdf文件的,如pdf文本提取、pdf图片提取、pdf页导出等

详情

extract_text

提取pdf文件文本

extract_text(path, from_page, to_page, * , password = None)

参数

  • path:pdf文件路径

  • from_page:起始页码

  • to_page:终止页码

  • password:密码

返回值

  • str:返回从pdf文件中提取的文本

示例1

获取 D:\123.pdf 第 1 页到第 2 页的文本内容

import xbot

def main(args):
    text = xbot.pdf.extract_text('D:\\123.pdf', 1, 2, password='xxxxxx')

extract_images

提取pdf文件图片

extract_images(path, from_page, to_page, save_to_dir, * , password = None, name_prefix = 'pdf_image')

参数

  • path:pdf文件路径

  • from_page:起始页码

  • to_page:终止页码

  • save_to_dir:保存的文件夹路径

  • password:密码

  • name_prefix:导出的图片名称前缀

返回值

  • List[str]:返回提取到本地的图片路径列表, 如['c:/work/image_0501101010_1.png', 'c:/work/image_0501101010_2.png']

示例1

获取 D:\123.pdf 第 1 页到第 2 页中的图片文件并以 hello 作为前缀保存到 D:\image 路径下

import xbot

def main(args):
    file_paths = xbot.pdf.extract_images('D:\\123.pdf', 1, 2, 'D:\\image', 
                                         password='xxxxxx',  name_prefix='hello')

extract_pages

导出pdf文件中的页

extract_pages(path, from_page, to_page, save_to, * , password = None)

参数

  • path:pdf文件路径

  • from_page:起始页码

  • to_page:终止页码

  • save_to:保存的文件路径

  • password:密码

返回值

  • str:返回保存到本地的新文件路径

示例1

导出 D:\123.pdf 第 1 页到第 2 页的内容并到村到 D:\abc.pdf 中

import xbot

def main(args):
    path = xbot.pdf.extract_pages('D:\\123.pdf', 1, 2, 'D:\\abc.pdf', password='xxxxxx')

merge_pdfs

合并多个pdf文件

merge_pdfs(paths, save_to, * , passwords = None)

参数

  • paths:pdf文件路径列表,如['D:\123.pdf', 'D:\abc.pdf']

  • save_to:保存的文件路径

  • passwords:密码列表,如['xxxxxx', '......'],需要和文件路径列表一一对应

返回值

  • str:返回保存到本地的新文件路径

示例1

将 ['D:\123.pdf', 'D:\abc.pdf'] 合并,合并之后的内容保存到 D:\hello.pdf 中

import xbot 

def main(args):
    path = xbot.pdf.merge_pdfs(['D:\\123.pdf', 'D:\\abc.pdf'], 'D:\\hello.pdf', 
                              password=['xxxxxx', '......'])
问题没有解决?去社区提问 all right reserved,powered by Gitbook

results matching ""

    No results matching ""