xbot.ai.BaiduAI

概述

百度OCR模块，主要是利用百度OCR引擎对文件、窗口、图片等元素进行内容识别，返回识别结果

详情

ocr_from_file

识别文件内容

ocr_from_file(self, image_path)

参数

image_path：需要被识别的文件路径

返回值

typing.List[str]：返回文件识别内容的列表

示例1

识别文件 D:\123.png 的内容

from xbot import ai

def main(args):
    ocr = ai.baidu.BaiduAI(api_key='xxx', secret_key='xxx')
    value = ocr.ocr_from_file('D:\\123.png')

ocr_from_window

识别窗口内容

ocr_from_window(self, hwnd, region=None)

参数

hwnd：窗口句柄, 等于0时则识别当前选中(激活)的窗口
region：需要识别的窗口区域列表, 默认为None识别整个窗口
'region[0]'：选中区域的左侧横坐标
'region[1]'：选中区域的左侧纵坐标
'region[2]'：选中区域的右侧横坐标
'region[3]'：选中区域的右侧纵坐标

返回值

typing.List[str]：返回窗口识别内容的列表

示例1

识别句柄为 0x10412c 窗口的内容

from xbot import ai

def main(args):
    ocr = ai.baidu.BaiduAI(api_key='xxx', secret_key='xxx')
    value = ocr.ocr_from_window(0x10412c, None)

示例2

识别句柄为 0x10412c 窗口指定区域的内容

from xbot import ai

def main(args):
    ocr = ai.baidu.BaiduAI(api_key='xxx', secret_key='xxx')
    value = ocr.ocr_from_window(0x10412c, [100, 100, 200, 200])

ocr_from_screen

识别屏幕内容

ocr_from_screen(self, region=None)

参数

region：需要识别的屏幕区域列表，默认为None识别整个屏幕
'region[0]'：选中区域的左侧横坐标
'region[1]'：选中区域的左侧纵坐标
'region[2]'：选中区域的右侧横坐标
'region[3]'：选中区域的右侧纵坐标

返回值

typing.List[str]：返回屏幕识别内容的列表

示例1

对屏幕指定区域进行截图并识别

from xbot import ai

def main(args):
    ocr = ai.baidu.BaiduAI(api_key='xxx', secret_key='xxx')
    value = ocr.ocr_from_screen([100, 100, 200, 200])

ocr_from_clipboard_image

识别指定区域内容, 并将识别结果添加到剪切板中

ocr_from_clipboard_image(self)

参数

无

返回值

typing.List[str]：返回剪切板中图片识别内容的列表

示例1

对指定区域进行识别，并将识别结果添加剪切板中

from xbot import ai

def main(args):
    ocr = ai.baidu.BaiduAI(api_key='xxx', secret_key='xxx')
    ocr.ocr_from_clipboard_image()

general_basic

通用文字识别（标准版）

general_basic(self, xbot_image, detect_direction = False, detect_language = False, paragraph = False, probability = False)

参数

xbot_image：OCR图像对象
detect_direction：是否检测图像朝向，默认不检测，即：false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: true：检测朝向；false：不检测朝向
detect_language：是否检测语言，默认不检测。当前支持（中文、英语、日语、韩语）
paragraph：是否输出段落信息
probability：是否返回识别结果中每一行的置信度

返回值

dict：识别结果

示例1

识别屏幕中的文字

import xbot
from xbot import print, sleep
from .import package

def main(args):
    ocr_engine = xbot.ai.BaiduAI()
    ocr_image = xbot.ai.XbotImage.from_screen()
    ocr_result = ocr_engine.general_basic(ocr_image)
    for word in ocr_result['words']:
        print(word['text'])

accurate_basic

通用文字识别（高精度版）

accurate_basic(self, xbot_image, detect_direction = False, paragraph = False, probability = False)

参数

xbot_image：OCR图像对象
detect_direction：是否检测图像朝向，默认不检测，即：false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: true：检测朝向；false：不检测朝向
paragraph：是否输出段落信息
probability：是否返回识别结果中每一行的置信度

返回值

dict：识别结果

示例1

识别屏幕中的文字

import xbot
from xbot import print, sleep
from .import package

def main(args):
    ocr_engine = xbot.ai.BaiduAI()
    ocr_image = xbot.ai.XbotImage.from_screen()
    ocr_result = ocr_engine.accurate_basic(ocr_image)
    for word in ocr_result['words']:
        print(word['text'])

general

通用文字识别（标准含位置版）

general(self, xbot_image, recognize_granularity = "big", detect_direction = False, detect_language = False, paragraph = False, vertexes_location = False, probability = False)

参数

xbot_image：OCR图像对象
recognize_granularity：是否定位单字符位置，big：不定位单字符位置，默认值；small：定位单字符位置
detect_direction：是否检测图像朝向，默认不检测，即：false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: true：检测朝向；false：不检测朝向
detect_language：是否检测语言，默认不检测。当前支持（中文、英语、日语、韩语）
paragraph：是否输出段落信息
vertexes_location: 是否返回文字外接多边形顶点位置，不支持单字位置。默认为false
probability：是否返回识别结果中每一行的置信度

返回值

dict：识别结果

示例1

识别屏幕中的文字

import xbot
from xbot import print, sleep
from .import package

def main(args):
    ocr_engine = xbot.ai.BaiduAI()
    ocr_image = xbot.ai.XbotImage.from_screen()
    ocr_result = ocr_engine.general(ocr_image)
    for word in ocr_result['words']:
        print(word)

accurate

通用文字识别（高精度含位置版）

accurate(self, xbot_image, recognize_granularity = "big", detect_direction = False, vertexes_location = False, paragraph = False, probability = False)

参数

xbot_image：OCR图像对象
recognize_granularity：是否定位单字符位置，big：不定位单字符位置，默认值；small：定位单字符位置
detect_direction：是否检测图像朝向，默认不检测，即：false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: true：检测朝向；false：不检测朝向
paragraph：是否输出段落信息
vertexes_location: 是否返回文字外接多边形顶点位置，不支持单字位置。默认为false
probability：是否返回识别结果中每一行的置信度

返回值

dict：识别结果

示例1

识别屏幕中的文字

import xbot
from xbot import print, sleep
from .import package

def main(args):
    ocr_engine = xbot.ai.BaiduAI()
    ocr_image = xbot.ai.XbotImage.from_screen()
    ocr_result = ocr_engine.accurate(ocr_image)
    for word in ocr_result['words']:
        print(word)

vat_invoice

增值税发票识别

vat_invoice(self, xbot_image)

参数

xbot_image：OCR图像对象

返回值

dict：识别结果

示例1

识别本地发票文件，提取发票号码

import xbot
from xbot import print, sleep
from .import package

def main(args):
    ocr_engine = xbot.ai.BaiduAI()
    ocr_image = xbot.ai.XbotImage.from_disk('D:\\ocr\\invoice.png')
    ocr_result = ocr_engine.vat_invoice(ocr_image)
    print(ocr_result['invoice_num'])

id_card

身份证识别

id_card(self, xbot_image, id_card_side = 'front', detect_risk = False, detect_photo = False)

参数

xbot_image：OCR图像对象

返回值

dict：识别结果

示例1

识别本地身份证文件，提取身份证号

import xbot
from xbot import print, sleep
from .import package

def main(args):
    ocr_engine = xbot.ai.BaiduAI()
    ocr_image = xbot.ai.XbotImage.from_disk('D:\\ocr\\id_card.png')
    ocr_result = ocr_engine.id_card(ocr_image)
    print(ocr_result['id_num'])

license_plate

车牌识别

license_plate(self, xbot_image, multi_detect = False)

参数

xbot_image：OCR图像对象
multi_detect：是否检测多张车牌，默认为false，当置为true的时候可以对一张图片内的多张车牌进行识别

返回值

dict：识别结果

示例1

识别本地车牌文件，提取车牌号

import xbot
from xbot import print, sleep
from .import package

def main(args):
    ocr_engine = xbot.ai.BaiduAI()
    ocr_image = xbot.ai.XbotImage.from_disk('D:\\ocr\\license_plate.png')
    ocr_result = ocr_engine.license_plate(ocr_image)
    print(ocr_result['number'])

bank_card

银行卡识别

bank_card(self, xbot_image, detect_direction = True)

参数

xbot_image：OCR图像对象
detect_direction：是否检测图像朝向，默认检测，即：true。可选值包括true - 检测朝向；false - 不检测朝向。朝向是指输入图像是正常方向、逆时针旋转90/180/270度

返回值

dict：识别结果

示例1

识别本地银行卡文件，提取银行卡号

import xbot
from xbot import print, sleep
from .import package

def main(args):
    ocr_engine = xbot.ai.BaiduAI()
    ocr_image = xbot.ai.XbotImage.from_disk('D:\\ocr\\bank_card.png')
    ocr_result = ocr_engine.bank_card(ocr_image)
    print(ocr_result['card_number'])

train_ticket

火车票识别

train_ticket(self, xbot_image)

参数

xbot_image：OCR图像对象

返回值

dict：识别结果

示例1

识别本地火车票文件，提取车次号

import xbot
from xbot import print, sleep
from .import package

def main(args):
    ocr_engine = xbot.ai.BaiduAI()
    ocr_image = xbot.ai.XbotImage.from_disk('D:\\ocr\\train_ticket.png')
    ocr_result = ocr_engine.train_ticket(ocr_image)
    print(ocr_result['train_num'])

taxi_invoice

出租车票识别

taxi_invoice(self, xbot_image)

参数

xbot_image：OCR图像对象

返回值

dict：识别结果

示例1

识别本地出租车票文件，提取发票号码

import xbot
from xbot import print, sleep
from .import package

def main(args):
    ocr_engine = xbot.ai.BaiduAI()
    ocr_image = xbot.ai.XbotImage.from_disk('D:\\ocr\\taxi_invoice.png')
    ocr_result = ocr_engine.taxi_invoice(ocr_image)
    print(ocr_result['invoice_num'])

table

表格识别

table(self, xbot_image)

参数

xbot_image：OCR图像对象

返回值

dict：识别结果

示例1

识别本地含有表格的图片，提取表格信息

import xbot
from xbot import print, sleep
from xbot.ai.xbotimage import XbotImage
from .import package

def main(args):
    engine = xbot.ai.BaiduAI()
    img = XbotImage.from_disk(r'D:\\ocr\\table.jpg')
    table_result = engine.table(img)
    for form in table_result['forms']:
        for form_cell in form['form_cells']:
            print(form_cell)

xbot.ai.BaiduAI

xbot.ai.BaiduAI

概述

详情

ocr_from_file

ocr_from_window

ocr_from_screen

ocr_from_clipboard_image

general_basic

accurate_basic

general

accurate

vat_invoice

id_card

license_plate

bank_card

train_ticket

taxi_invoice

table

results matching ""

No results matching ""