多个子标题处理问题 #1

zhongmiyu99 · 2023-11-15T07:16:59Z

问下，遇到PDF里面一级标题，二级标题，三级标题，好像就不行了，大神这个应该怎么改？

ck-unifr · 2023-12-16T02:29:41Z

问下，遇到PDF里面一级标题，二级标题，三级标题，好像就不行了，大神这个应该怎么改？

请问是怎样的PDF？如果PDF没有outline(table of contents)的话目前这个方法是获取不了标题了
但是如果PDF有outline的话，该方法应该是可以获取一级标题，二级标题，三级标题
https://github.com/ck-unifr/pdf_parsing/blob/main/src/parser.py
parser.py里面的class PDFOutliner的下面的函数get_tree_pages(self, root, info, depth=0, titles=[])中的参数depth是标题的层级，depth=0就是第一级标题，depth=1是第二级，以此类推。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

多个子标题处理问题 #1

多个子标题处理问题 #1

zhongmiyu99 commented Nov 15, 2023

ck-unifr commented Dec 16, 2023

多个子标题处理问题 #1

多个子标题处理问题 #1

Comments

zhongmiyu99 commented Nov 15, 2023

ck-unifr commented Dec 16, 2023