为啥不支持多语言同时识别？ #14347

wqw547243068 · 2024-12-07T15:00:36Z

wqw547243068
Dec 7, 2024

每次初始化模型时，只能指定一种语言

ocr = PaddleOCR(use_angle_cls=True, lang='ch')
ocr = PaddleOCR(use_angle_cls=True, lang='japan') # 不支持一次指定多种语言

当文档多语种、语种未知时，就麻烦了，要一个个试试？

建议增加一次指定多语种的功能，像 tesseract 一样

ocr = PaddleOCR(use_angle_cls=True, lang='ch+japan') # 一次指定多种语言

GreatV · 2024-12-07T15:10:28Z

GreatV
Dec 7, 2024
Maintainer

有道理

0 replies

GreatV · 2024-12-08T03:07:46Z

GreatV
Dec 8, 2024
Maintainer

PaddleOCR 当前不支持同时指定多种语言进行识别，这是因为每次初始化模型时，系统会加载特定语言的预训练模型，而这些模型是为单一语言或语言组（如中文和英文）优化的，无法同时支持多语言的混合识别。

原因分析

模型结构限制：
PaddleOCR 的设计是基于单语言或语言组的特定特征进行训练的，使用了对应的字符字典（如 character_dict_path），这些字典包含了模型支持的字符集。如果同时指定多种语言，字符集的复杂性会显著增加，导致模型的识别性能降低。
字典冲突：
多语言支持需要合并多种语言的字符字典，但不同语言可能存在字符集重叠或冲突（例如中文和日文共享部分汉字），这对模型的训练和推理提出了更高的要求。
内存和性能开销：
同时加载多种语言的模型会显著增加内存占用和推理时间，尤其是在资源受限的设备（如手机或嵌入式系统）上，这种做法并不现实。

现状

根据文档，PaddleOCR 支持 80 多种语言，但目前的实现方式是通过 lang 参数手动切换语言模型。例如：

ocr = PaddleOCR(use_angle_cls=True, lang='ch')  # 中文
ocr = PaddleOCR(use_angle_cls=True, lang='japan')  # 日文

但无法直接实现类似以下功能：

ocr = PaddleOCR(use_angle_cls=True, lang='ch+japan')  # 不支持多语言同时指定

解决办法

手动切换语言模型：
如果文档包含多种语言且语种未知，可以逐步尝试不同的语言模型，结合检测结果的置信度来判断最佳语言。例如：

from paddleocr import PaddleOCR

languages = ['ch', 'japan', 'en']  # 需要支持的语言列表
results = []
for lang in languages:
    ocr = PaddleOCR(use_angle_cls=True, lang=lang)
    result = ocr.ocr('your_image.jpg')
    results.append((lang, result))

# 根据置信度选择最佳结果
best_result = max(results, key=lambda x: max([line[1][1] for line in x[1]]))
print(f"最佳语言: {best_result[0]}, 结果: {best_result[1]}")

自定义多语言模型：
如果需要同时支持多种语言，可通过自定义训练的方式，合并多种语言的字符字典并进行重新训练。这需要以下步骤：
- 合并所需语言的字符字典文件（character_dict_path）。
- 修改 PaddleOCR 的配置文件，指向新的字符字典。
- 使用合并后的数据集进行模型重新训练。
采用其他工具：
如果需要现成的多语言支持，可以考虑其他支持多语言的 OCR 工具，例如 Tesseract，它允许通过 -l 参数同时指定多种语言：
```
tesseract image.jpg output -l eng+chi_sim+jpn
```

建议

PaddleOCR 未来可以考虑引入多语言联合识别功能，例如：

在 lang 参数中支持多语言组合（如 lang="ch+japan+en"）。
动态加载多语言的子模型，根据检测的语言类型自动切换识别模型。

这种功能目前可能需要社区贡献或官方的后续开发支持。如果您有相关需求，也可以参与相关开发。

Response generated by 🤖 feifei-bot | chatgpt-4o-latest

4 replies

wqw547243068 Dec 9, 2024
Author

分析

方法1: 笨重，语种数目越多，请求耗时线性增长, 改成并发后缓解些
方法2: 用户使用成本增加
方法3: tesseract虽能支持多语种，但是效果不如paddleocr

【方法1】：代码有bug，修复版本

功能：逐个识别，计算识别内容平均分，超过一定阈值就直接返回，不再继续
待优化：并发请求，合并

# coding:utf-8

import json
from paddleocr import PaddleOCR

file_name = r"E:\ocr\data\hand\1.jpg"

languages = ['ch', 'japan', 'en']  # 需要支持的语言列表

result_info = {}
max_lang = ['-', 0]

for lang in languages:
    ocr = PaddleOCR(use_angle_cls=True, lang=lang)
    result = ocr.ocr(file_name)
    # 多种返回结果: 空、一个识别结果、多个识别结果
    # [null]
    #  [[
    #     [[[1931.0, 1453.0], [1990.0, 1453.0], [1990.0, 1487.0], [1931.0, 1487.0]], ["191t", 0.7493318915367126]]
    #  ]]
    # [[
    #     [[[297.0, 157.0], [1755.0, 124.0], [1760.0, 337.0], [301.0, 370.0]], ["很多人不需要再见!", 0.9498765468597412]], 
    #     [[[351.0, 493.0], [1773.0, 468.0], [1776.0, 657.0], [354.0, 683.0]], ["因为只是路过而已.", 0.8729634881019592]], 
    #     [[[334.0, 833.0], [1755.0, 842.0], [1753.0, 1049.0], [333.0, 1039.0]], ["遗忘就是我给你", 0.9973150491714478]], 
    #     [[[404.0, 1153.0], [1457.0, 1182.0], [1450.0, 1434.0], [397.0, 1404.0]], ["最好的纪念。", 0.951411783695221]], 
    #     [[[1935.0, 1460.0], [1988.0, 1460.0], [1988.0, 1485.0], [1935.0, 1485.0]], ["19楼", 0.9435752034187317]]
    # ]]
    
    if not result[0]:
        continue
    score_list = [i[1][1] for i in result[0]]
    score_avg = sum(score_list)/len(score_list)
    print(f'[Note] {lang=}: \t{score_avg}\t{json.dumps(result, ensure_ascii=False)}')
    if score_avg > max_lang[1]:
        max_lang = [lang, score_avg]
    result_info[lang] = result[0]
    if score_avg > 0.85:
        # 置信度较高, 终止检测
        break


text = '\n'.join([i[1][0] for i in result_info[max_lang[0]]])
print(f'Best Result: {max_lang[0]}\t{max_lang[1]}\t{result_info[max_lang[0]]}')
print('Result: ', json.dumps(text, ensure_ascii=False))
# # 根据置信度选择最佳结果
# best_result = max(results, key=lambda x: max([line[1] for line in x[1][0][0]]))
# # print(f"最佳语言: {best_result[0]}, 结果: {best_result[1]}")
# print(f"Max Language: {best_result[0]}, Result: {best_result[1]}")

其实还有方法4: 提供语种检测接口

语种自动检测

import paddleclas

file_name = r"E:\ocr\data\hand\3.jpg"

lang_model = paddleclas.PaddleClas(model_name="language_classification")
result = lang_model.predict(input_data=file_name)
result = list(result)
lang_type = result[0][0]['label_names'][0]
print('语言类型为：',lang_type)

只是调试报错，未解决

issue

wqw547243068 Dec 9, 2024
Author

追加：多种语种一起识别，选取分数较高者，多线程版本实现

# -*- coding: utf-8 -*-

import logging
from queue import Queue
import os
import sys
import threading
import json
from paddleocr import PaddleOCR

file_name = r"E:\ocr\data\hand\1.jpg"
# file_name = r"E:\ocr\data\hand\3.jpg"
# file_name = r"E:\ocr\data\OCR_e2e_img\general_ocr_001.png"
# file_name = r"E:\ocr\data\多国语言-1205\日文\1.jpeg"

languages = ['ch', 'en', 'japan', 'fr', 'de']  # 需要支持的语言列表

# 模型初始化
api_info = {}
for lang in languages:
    api_info[lang] = PaddleOCR(use_angle_cls=True, lang=lang, show_log=False)


def log(msg):
    pid = os.getpid()
    tid = threading.current_thread().ident
    logging.info(f"进程[{pid}]-线程[{tid}]: {msg}")

# 多种返回结果: 空、一个识别结果、多个识别结果
# [null]
#  [[
#     [[[1931.0, 1453.0], [1990.0, 1453.0], [1990.0, 1487.0], [1931.0, 1487.0]], ["191t", 0.7493318915367126]]
#  ]]
# [[
#     [[[297.0, 157.0], [1755.0, 124.0], [1760.0, 337.0], [301.0, 370.0]], ["很多人不需要再见!", 0.9498765468597412]], 
#     [[[351.0, 493.0], [1773.0, 468.0], [1776.0, 657.0], [354.0, 683.0]], ["因为只是路过而已.", 0.8729634881019592]], 
#     [[[334.0, 833.0], [1755.0, 842.0], [1753.0, 1049.0], [333.0, 1039.0]], ["遗忘就是我给你", 0.9973150491714478]], 
#     [[[404.0, 1153.0], [1457.0, 1182.0], [1450.0, 1434.0], [397.0, 1404.0]], ["最好的纪念。", 0.951411783695221]], 
#     [[[1935.0, 1460.0], [1988.0, 1460.0], [1988.0, 1485.0], [1935.0, 1485.0]], ["19楼", 0.9435752034187317]]
# ]]

def getResult(lock, lang, q):
    """
        单次 OCR 请求
    """
    log('开始请求OCR服务')
    # 开始请求OCR服务
    result = api_info[lang].ocr(file_name)
    lock.acquire()
    score_avg = 0
    if not result[0]:
        pass
    else:
        # 计算平均得分
        score_list = [i[1][1] for i in result[0]]
        score_avg = sum(score_list)/len(score_list)
        print(f'[Note] {lang=}: \t{score_avg}\t{json.dumps([i[1][0] for i in result[0]], ensure_ascii=False)}')
    lock.release()
    q.put([lang, score_avg, result[0]])
    log('请求完毕')


if __name__ == '__main__':

    thread_lock = threading.Lock()
    
    job_list = []
    q = Queue() # 存储结果

    for lang in languages:
        job = threading.Thread(target=getResult, args=(thread_lock, lang, q), name=f'job_{lang}')
        job.start()
        job_list.append(job)
    
    # 阻塞在主进程前面
    for thread in job_list:
        thread.join()
    
    results = []
    for _ in languages:
        # [lang, score_avg, result[0]]
        results.append(q.get())

    # # 根据置信度选择最佳结果
    best_result = max(results, key=lambda x: x[1])
    print(f"最佳语言: {best_result[0]}, 得分: {best_result[1]}, 结果: {best_result[2]}")

    text = '\n'.join([i[1][0] for i in best_result[2]])
    print('Result: ', json.dumps(text, ensure_ascii=False))

返回:

# python .\paddleocr_multi.py
[Note] lang='japan':    0.7367656826972961      ["看全世的美景", "又似最妹子"]
[Note] lang='fr':       0.6428748369216919      ["BO", "XXT"]
[Note] lang='de':       0.6428748369216919      ["BO", "XXT"]
[Note] lang='ch':       0.9849963188171387      ["看过全世界的美景，", "然后写给你看。", "汉仪晨妹子"]
最佳语言: ch, 得分: 0.9849963188171387, 结果: [[[[94.0, 100.0], [530.0, 103.0], [530.0, 153.0], [94.0, 150.0]], ('看过全世界的美景，', 0.9754508137702942)], [[[89.0, 183.0], [432.0, 186.0], [431.0, 233.0], [89.0, 230.0]], ('然后写给你看。', 0.9876102209091187)], [[[97.0, 336.0], [197.0, 336.0], [197.0, 356.0], [97.0, 356.0]], ('汉仪晨妹子', 0.9919279217720032)]]
Result:  "看过全世界的美景，\n然后写给你看。\n汉仪晨妹子"

问题：

代价是请求时间变长
发现中日、拉丁语系（英法德易混淆）

SWHL Dec 10, 2024
Maintainer

整体看下来，方法4比较具有可行性。待我有空整理语种分类模型。

wqw547243068 Dec 11, 2024
Author

整体看下来，方法4比较具有可行性。待我有空整理语种分类模型。

paddleclas 工具包有bug，找官方修复后，实测检测效果很差，详见 issue

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

为啥不支持多语言同时识别？ #14347

{{title}}

Replies: 2 comments 4 replies

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

Select a reply

为啥不支持多语言同时识别？ #14347

wqw547243068 Dec 7, 2024

Replies: 2 comments · 4 replies

GreatV Dec 7, 2024 Maintainer

GreatV Dec 8, 2024 Maintainer

原因分析

现状

解决办法

建议

wqw547243068 Dec 9, 2024 Author

wqw547243068 Dec 9, 2024 Author

SWHL Dec 10, 2024 Maintainer

wqw547243068 Dec 11, 2024 Author

wqw547243068
Dec 7, 2024

Replies: 2 comments 4 replies

GreatV
Dec 7, 2024
Maintainer

GreatV
Dec 8, 2024
Maintainer

wqw547243068 Dec 9, 2024
Author

wqw547243068 Dec 9, 2024
Author

SWHL Dec 10, 2024
Maintainer

wqw547243068 Dec 11, 2024
Author