Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

异步、批量解析对象存储文件 #1342

Open
yyxg opened this issue Dec 20, 2024 · 1 comment
Open

异步、批量解析对象存储文件 #1342

yyxg opened this issue Dec 20, 2024 · 1 comment
Labels
enhancement New feature or request

Comments

@yyxg
Copy link

yyxg commented Dec 20, 2024

根据对象存储:https://mineru.readthedocs.io/zh-cn/latest/user_guide/quick_start/to_markdown.html
1、我的需求是 把对象存储文件部分封装成一个接口A,由于我只有cpu资源,这个解析文件并上传大部分时间会很慢
所以我想提供一个异步接口,在调用之后立马 返回一个文件对应的uuid,等文件解析完成后、记录解析的结果
2、再提供一个接口B 根据uuid查询解析结果
3、第一次调用接口A很快返回uuid,后台在执行文件解析
4、再次调用接口A或者与文件解析无关接口B 就会被阻塞
5、当前使用BackgroundTasks,当我尝试使用celery[redis],它一直报错TypeError('Object of type coroutine is not JSON serializable'),即便它可能跟minerU没有关系,我依然没有找到原因
6、我想知道正确解决批量解析pdf文件的方式是什么

@yyxg yyxg added the enhancement New feature or request label Dec 20, 2024
@DAAworld
Copy link

根据对象存储:https://mineru.readthedocs.io/zh-cn/latest/user_guide/quick_start/to_markdown.html 1、我的需求是 把对象存储文件部分封装成一个接口A,由于我只有cpu资源,这个解析文件并上传大部分时间会很慢 所以我想提供一个异步接口,在调用之后立马 返回一个文件对应的uuid,等文件解析完成后、记录解析的结果 2、再提供一个接口B 根据uuid查询解析结果 3、第一次调用接口A很快返回uuid,后台在执行文件解析 4、再次调用接口A或者与文件解析无关接口B 就会被阻塞 5、当前使用BackgroundTasks,当我尝试使用celery[redis],它一直报错TypeError('Object of type coroutine is not JSON serializable'),即便它可能跟minerU没有关系,我依然没有找到原因 6、我想知道正确解决批量解析pdf文件的方式是什么

TypeError('Object of type coroutine is not JSON serializable')
虽然没看到你的代码,报这个错误是因为你调用了一个异步函数,没有await它,就直接当成结果return出去了。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

2 participants