Replies: 5 comments
-
我这边比较缺乏手写体和扫描体样式的数据,不过我没有在您的主页找到联系方式,这是我的邮箱:[email protected] |
Beta Was this translation helpful? Give feedback.
-
谷歌mathwriting-2024 上个月开源的手写数据集 附inkml转图片示例脚本,希望有帮助。 |
Beta Was this translation helpful? Give feedback.
-
import os def get_traces_data(inkml_file_abs_path, xmlns='{http://www.w3.org/2003/InkML}'):
def inkml2img(input_path, output_path, color_ratio=0.5, thickness_ratio=0.5):
def batch_process_inkml(input_dir, output_dir, color_ratio=0.3, thickness_ratio=0.5):
if name == "main": |
Beta Was this translation helpful? Give feedback.
-
@OleehyO 首先感谢您的回复,我们课题组的部分相关工作(构造数据集)即将进入尾声,完成后我将第一时间与您取得联系。 |
Beta Was this translation helpful? Give feedback.
-
你好,首先非常感谢你在Latex OCR方面所做的贡献,我下载过您提供的550K数据集,经过数据清洗,大概有1000个token,其中绝大多数我感觉已经造成数据集的冗余,也许剔除掉更好,然而这并不简单,我想经过mathpix api数据进行清洗或许是个可行的方案,对您提供的550K数据集我正在做这方面的工作,从结果上来看,600个token就可以完全覆盖,但我仍然缺乏最够的向550K这样高质量多行复杂印刷体数据(同时我正在构造手写体和扫描体),或许我们可以合作,我可以提供mathpix清洗后的数据(mathpix大概可以有600万的额度)如果对此感兴趣,欢迎联系
Beta Was this translation helpful? Give feedback.
All reactions