Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

多级标题 #148

Closed
jefferyvvv opened this issue Jul 15, 2024 · 10 comments
Closed

多级标题 #148

jefferyvvv opened this issue Jul 15, 2024 · 10 comments
Labels
enhancement New feature or request

Comments

@jefferyvvv
Copy link

  1. 目前导出的 md 仅支持一级标题,是否考虑支持多级标题。
  2. 实现多级标题是否有什么方案。
@jefferyvvv jefferyvvv added the enhancement New feature or request label Jul 15, 2024
@drunkpig
Copy link
Collaborator

@jefferyvvv 目前由于人力有限,一级标题并没有实现。实现方法如下:
由于标题识别之后可以知道标题的bbox的高度,根据高度进行聚合,排序即可。

@ffaffAHA
Copy link

多级标题如果能支持会更好。

@shibainu-gbq
Copy link

后续是否会有对多级标题的支持的计划?

@ChaoyuZhang1
Copy link

@drunkpig 标题的层级非常重要,请问能安排人优先解决吗?

@JustDoIt166
Copy link

@jefferyvvv 目前由于人力有限,一级标题并没有实现。实现方法如下:
由于标题识别之后可以知道标题的bbox的高度,根据高度进行聚合,排序即可。

对于文字型pdf, 直接获取字体大小,通过比较不同标题和正文的,似乎更加精确

@xsank
Copy link

xsank commented Aug 6, 2024

@jefferyvvv 目前由于人力有限,一级标题并没有实现。实现方法如下:
由于标题识别之后可以知道标题的bbox的高度,根据高度进行聚合,排序即可。

对于文字型pdf, 直接获取字体大小,通过比较不同标题和正文的,似乎更加精确

没那么简单,一篇文档的字体大小完全是不受限制的,文中出现的字体大小可能有非常多,且正文页完全有可能比标题还大或者相同

@shibainu-gbq
Copy link

目前我基于本地进行的一些开发中,针对标题层级的提取,只能根据特定的文档格式按照规则进行提取,不太能有普世的提取方式。
例如:针对国内的一些金融行业的投研文档可以按照特定的标题格式提取,按照规则设定标题等级,
对于字体大小这种方式,我本地也测试过,一是文档的字体大小不受限制,对于页眉页脚这种瞎搞的,在统计当页的字体大小的时候,你就需要去除不符合要求的异常数据,确实是比较难搞,而且在转成pdf后,很多文本型pdf是丢失了层级信息

@drunkpig
Copy link
Collaborator

drunkpig commented Aug 8, 2024

@shibainu-gbq 标题的形式太多了,段落间距,字体,颜色,粗细,背景都能决定是不是标题。很难有普世的方法。

@CocoaML
Copy link

CocoaML commented Sep 11, 2024

持续关注

@myhloli
Copy link
Collaborator

myhloli commented Jan 22, 2025

在huggingface和modelscope的在线demo上,上线了供预览测试的标题分级功能,可以自行测试。

@myhloli myhloli closed this as completed Jan 22, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

9 participants