Skip to content

Commit

Permalink
修改Extracting Text from a Document 翻译错误
Browse files Browse the repository at this point in the history
  • Loading branch information
zxyle committed Aug 5, 2024
1 parent 3891fb8 commit a4713d8
Showing 1 changed file with 3 additions and 3 deletions.
6 changes: 3 additions & 3 deletions chapter6.md
Original file line number Diff line number Diff line change
Expand Up @@ -367,9 +367,9 @@ endobj
```
这里不讨论实际字体格式(Type1,TrueType等)的细节 - 实际上,它们也没有在PDF标准中讨论,而是由来自这些字体格式的提供者的外部文档讨论。

## Extracting Text from a Document
习惯上在文件的字体词典中包含足够的信息,以允许检索实际的字符标识(而不仅仅是字形)。
这对于允许用户从PDF查看应用程序(如Adobe Reader)中搜索和复制文本非常重要。In还可以以更有限的容量使用,以允许对文档的文本内容进行编辑
## 提取文档中的文本
通常会在文件的字体字典中包含足够的信息,以便可以检索实际的字符标识(而不仅仅是字形)。
这对于允许用户在像Adobe Reader这样的PDF查看应用程序中搜索和复制文本非常重要。它还可以在更有限的范围内用于对文档的文本内容进行编辑

有两种机制:字体中的/Encoding条目(将字符代码映射到Adobe Glyph List条目,如/bullet),以及更现代的机制,/ToUnicode条目提供由定义的语言的程序 Adobe将字符代码直接映射到Unicode实体。以下是/ToUnicode程序的示例:
```
Expand Down

0 comments on commit a4713d8

Please sign in to comment.