帮助中心
快速寻找答案
首页>帮助手册>

xbot.ai.AliyunAI

描述:阿里云OCR模块,主要是利用阿里云OCR引擎对文件、窗口、图片等元素进行内容识别,返回识别结

ocr_from_file()

识别文件内容

ocr_from_file(self, image_path)

输入参数

image_path:识别文件的路径

返回值

List[str]:返回文件识别内容的列表

示例1

from xbot import ai
def main(args):
ocr = ai.aliyun.AliyunAI(app_code='xxx')
value = ocr.ocr_from_file('D:\\123.png')
print(value)

该示例执行逻辑: 识别文件 "123.png" 的内容 --> 打印识别内容

ocr_from_window()

识别窗口内容

ocr_from_window(self, hwnd, region=None)*

输入参数

hwnd:窗口句柄,等于0时则识别当前选中(激活)的窗口

region:需要识别的屏幕区域列表,默认为None识别整个屏幕。也可以传入列表,确定上下左右位置。如:[100, 100, 200, 200] 分别对应 选中区域的左侧横坐标、左侧纵坐标、右侧横坐标和右侧纵坐标

返回值

List[str]:返回窗口识别内容的列表

示例1

from xbot import ai
def main(args):
ocr = ai.aliyun.AliyunAI(app_code='xxx')
value = ocr.ocr_from_window(0x10412c, None)
print(value)

该示例执行逻辑: 识别句柄为 0x10412c 窗口的内容 --> 打印输出识别结果

示例2

from xbot import ai
def main(args):
ocr = ai.aliyun.AliyunAI(app_code='xxx')
value = ocr.ocr_from_window(0x10412c, [100, 100, 200, 200])
print(value)

该示例执行逻辑: 识别句柄为 0x10412c 窗口的内容,坐标为 (100, 100, 200, 200) --> 打印输出识别结果

ocr_from_screen()

识别屏幕内容

ocr_from_screen(self, region=None)

输入参数

region:需要识别的屏幕区域列表,默认为None识别整个屏幕。也可以传入列表,确定上下左右位置。如:[100, 100, 200, 200] 分别对应 选中区域的左侧横坐标、左侧纵坐标、右侧横坐标、右侧纵坐标

返回值

List[str]:返回屏幕识别内容的列表

示例1

from xbot import ai
def main(args):
ocr = ai.aliyun.AliyunAI(app_code='xxx')
value = ocr.ocr_from_screen([100, 100, 200, 200])
print(value)

该示例执行逻辑: 识别屏幕指定区域的内容,坐标为 (100, 100, 200, 200) 四点所连成的区域 --> 打印输出识别结果

ocr_from_clipboard_image()

识别剪切板中的图片内容

ocr_from_clipboard_image(self)

参数

返回值

List[str]:返回剪切板中图片识别内容的列表

示例1

from xbot import ai
def main(args):
ocr = ai.aliyun.AliyunAI(app_code='xxx')
data_list=ocr.ocr_from_clipboard_image()
print(data_list)

该示例执行逻辑: 识别剪切板中的图片 --> 打印输出识别结果列表

general()

印刷文字识别-通用文字识别/OCR文字识别

general(self, xbot_image, min_size = 16, output_prob = True, output_keypoints = False, skip_detection = False, without_predicting_direction = False)

输入参数

xbot_image:OCR图像对象

min_size:图片中文字的最小高度,单位像素。默认值为16

output_prob:是否输出文字框的概率。默认值为False

output_keypoints:是否输出文字框角点。默认值为False

skip_detection:是否跳过文字检测步骤直接进行文字识别。默认值为False

without_predicting_direction: 是否关闭文字行方向预测。默认值为False

返回值

dict:返回字典类型的识别结果

示例1

import xbot
from xbot import print, sleep
from . import package
def main(args):
ocr_engine = xbot.ai.AliyunAI(app_code="xxxx")
ocr_image = xbot.ai.XbotImage.from_screen()
ocr_result = ocr_engine.general(ocr_image)
for word in ocr_result['words']:
print(word)

该示例执行逻辑: 创建屏幕图片对象 --> 调用通用接口识别图片对象文字结果 --> 打印识别结果

advanced()

通用文字识别-高精版OCR文字识别

advanced(self, xbot_image, prob = False, char_info = False, rotate = False, table = False, sort_page = False)

输入参数

xbot_image:OCR图像对象

prob:是否需要识别结果中每一行的置信度。默认为False

char_info:是否需要单字识别功能。默认为False

rotate:是否需要自动旋转功能。默认为False

table:是否需要表格识别功能。默认为False

sort_page: 字块返回顺序,默认为False。False表示从左往右,从上到下的顺序;True表示从上到下,从左往右的顺序

返回值

dict:返回字典类型的识别结果

示例1

import xbot
from xbot import print, sleep
from .import package
def main(args):
ocr_engine = xbot.ai.AliyunAI(app_code="xxxx")
ocr_image = xbot.ai.XbotImage.from_screen()
ocr_result = ocr_engine.advanced(ocr_image)
for word in ocr_result['words']:
print(word)

该示例执行逻辑: 创建屏幕图片对象 --> 调用高精版OCR接口识别图片对象文字结果 --> 打印识别结果

vat_invoice()

增值税发票识别/OCR文字识别

vat_invoice(self, xbot_image)

输入参数

xbot_image:OCR图像对象

返回值

dict:返回字典类型的识别结果

示例1

import xbot
from xbot import print, sleep
from . import package
def main(args):
ocr_engine = xbot.ai.AliyunAI(app_code="xxxx")
ocr_image = xbot.ai.XbotImage.from_disk('D:\\invoice.png')
ocr_result = ocr_engine.vat_invoice(ocr_image)
print(ocr_result['invoice_num'])

该示例执行逻辑: 创建发票图片对象,来源为 "D:\invoice.png" --> 调用发票接口识别 --> 打印发票号码

id_card()

识别身份证文字

id_card(self, xbot_image, side = 'face')

输入参数

xbot_image:OCR图像对象

side:身份证正反面类型。"face"表示正面,"back"表示反面。默认为正面

返回值

dict:返回字典类型的识别结果

示例1

import xbot
from xbot import print, sleep
from .import package
def main(args):
ocr_engine = xbot.ai.AliyunAI(app_code="xxxx")
ocr_image = xbot.ai.XbotImage.from_disk('D:\\id_card.png')
ocr_result = ocr_engine.id_card(ocr_image)
print(ocr_result['id_num'])

该示例执行逻辑: 创建身份证图片对象,来源为 "D:\id_card.png" --> 调用身份证识别接口 --> 打印身份证号码识别结果

license_plate()

车牌识别接口

license_plate(self, xbot_image, multi_crop = False)

输入参数

xbot_image:OCR图像对象

multi_detect:是否检测多张车牌,默认为False

返回值

dict:返回字典类型的识别结果

示例1

import xbot
from xbot import print, sleep
from . import package
def main(args):
ocr_engine = xbot.ai.AliyunAI(app_code="xxxx")
ocr_image = xbot.ai.XbotImage.from_disk('D:\\license_plate.png')
ocr_result = ocr_engine.license_plate(ocr_image)
print(ocr_result['number'])

该示例执行逻辑: 创建本地图片对象,来源为 "D:\license_plate.png" --> 调用车牌号识别接口识别图片 --> 打印车牌号

bank_card()

印刷文字识别-银行卡识别/OCR文字识别

bank_card(self, xbot_image)

参数

xbot_image:OCR图像对象

返回值

dict:返回字典类型的识别结果

示例1

import xbot
from xbot import print, sleep
from . import package
def main(args):
ocr_engine = xbot.ai.AliyunAI(app_code="xxxx")
ocr_image = xbot.ai.XbotImage.from_disk('D:\\bank_card.png')
ocr_result = ocr_engine.bank_card(ocr_image)
print(ocr_result['card_number'])

该示例执行逻辑: 创建本地银行卡图片对象,来源为 "D:\bank_card.png" --> 调用银行卡识别接口识别图片 --> 打印卡号

train_ticket()

火车票识别接口,用于识别火车票上的文字

train_ticket(self, xbot_image)

输入参数

xbot_image:OCR图像对象

返回值

dict:返回字典类型的识别结果

示例1

import xbot
from xbot import print, sleep
from . import package
def main(args):
ocr_engine = xbot.ai.AliyunAI(app_code="xxxx")
ocr_image = xbot.ai.XbotImage.from_disk('D:\\train_ticket.png')
ocr_result = ocr_engine.train_ticket(ocr_image)
print(ocr_result['train_num'])

该示例执行逻辑: 创建本地火车票图片对象,来源为 "D:\train_ticket.png" --> 调用火车票接口识别图片 --> 打印火车票车次号

taxi_invoice()

出租车发票识别接口,用于识别出租车机打发票文字内容

taxi_invoice(self, xbot_image)

输入参数

xbot_image:OCR图像对象

返回值

dict:返回字典类型的识别结果

示例1

import xbot
from xbot import print, sleep
from .import package
def main(args):
ocr_engine = xbot.ai.AliyunAI(app_code="xxxx")
ocr_image = xbot.ai.XbotImage.from_disk('D:\\taxi_invoice.png')
ocr_result = ocr_engine.taxi_invoice(ocr_image)
print(ocr_result['invoice_num'])

该示例执行逻辑: 创建本地出租车机打发票图片对象,来源为 "D:\taxi_invoice.png" --> 调用出租车发票接口识别图片 --> 打印发票号码

table()

表格识别,用于识别表格当中的文字内容

table(self, xbot_image, dir_assure = False, line_less = False)

参数

xbot_image:OCR图像对象

dir_assure:图片方向是否确定是正向的,默认为False(不确定)

line_less:是否无线条,默认为False(有线条)

返回值

dict:返回字典类型的识别结果

示例1

import xbot
from xbot import print, sleep
from xbot.ai.xbotimage import XbotImage
from . import package
def main(args):
engine = xbot.ai.AliyunAI(app_code="xxxx")
img = XbotImage.from_disk(r'D:\\table.jpg')
table_result = engine.table(img)
for form in table_result['forms']:
for form_cell in form['form_cells']:
print(form_cell)

该示例执行逻辑: 创建本地表格图片对象,来源为 "D:\table.jpg" --> 调用表格接口识别图片 --> 打印单元格内容

问题没有解决?去社区提问