科学 PDF 文档翻译及双语对照工具
欢迎在 GitHub Issues、Telegram 用户群 或 QQ 用户群 中提供反馈
有关如何贡献的详细信息,请查阅 贡献指南
- [Dec. 24 2024] 翻译功能支持接入 Xinference 运行的本地 LLM (by @imClumsyPanda)
- [Nov. 26 2024] CLI 现在已支持(多个)在线 PDF 文件 (by @reycn)
- [Nov. 24 2024] 为降低依赖大小,提供 ONNX 支持 (by @Wybxc)
- [Nov. 23 2024] 🌟 免费公共服务 上线! (by @Byaidu)
- [Nov. 23 2024] 防止网页爬虫的防火墙 (by @Byaidu)
- [Nov. 22 2024] 图形用户界面现已支持意大利语,并获得了一些更新 (by @Byaidu, @reycn)
- [Nov. 22 2024] 现在你可以将自己部署的服务分享给朋友了 (by @Zxis233)
- [Nov. 22 2024] 支持腾讯翻译 (by @hellofinch)
- [Nov. 21 2024] 图形用户界面现在支持下载双语文档 (by @reycn)
- [Nov. 20 2024] 🌟 提供了 在线演示! (by @reycn)
免费服务 (https://pdf2zh.com/)
你可以立即尝试 免费公共服务 而无需安装
你可以立即尝试 在 HuggingFace 上的在线演示和魔搭的在线演示而无需安装 请注意,演示的计算资源有限,因此请避免滥用
我们提供了四种使用该项目的方法:命令行工具、便携式安装、图形交互界面 和 容器化部署.
pdf2zh的运行依赖于额外模型(wybxc/DocLayout-YOLO-DocStructBench-onnx
),该模型在魔搭上也可以找到。如果你在启动时下载该模型遇到问题,请使用如下环境变量:
set HF_ENDPOINT=https://hf-mirror.com
如使用 PowerShell,请使用如下方法设置环境变量:
$env:HF_ENDPOINT = https://hf-mirror.com
-
确保安装了版本大于 3.8 且小于 3.12 的 Python
-
安装此程序:
pip install pdf2zh
-
执行翻译,生成文件位于 当前工作目录:
pdf2zh document.pdf
无需预先安装 Python 环境
下载 setup.bat 并双击运行
-
确保安装了版本大于 3.8 且小于 3.12 的 Python
-
安装此程序:
pip install pdf2zh
-
开始在浏览器中使用:
pdf2zh -i
-
如果您的浏览器没有自动启动并跳转,请用浏览器打开:
http://localhost:7860/
查看 documentation for GUI 获取细节说明
-
拉取 Docker 镜像并运行:
docker pull byaidu/pdf2zh docker run -d -p 7860:7860 byaidu/pdf2zh
-
通过浏览器打开:
http://localhost:7860/
用于在云服务上部署容器镜像:
在命令行中执行翻译命令,在当前工作目录下生成译文文档 example-mono.pdf
和双语对照文档 example-dual.pdf
,默认使用 Google 翻译服务,更多支持的服务在这里)。
我们在下表中列出了所有高级选项,以供参考:
Option | Function | Example |
---|---|---|
files | 本地文件 | pdf2zh ~/local.pdf |
links | 在线文件 | pdf2zh http://arxiv.org/paper.pdf |
-i |
进入图形界面 | pdf2zh -i |
-p |
仅翻译部分文档 | pdf2zh example.pdf -p 1 |
-li |
源语言 | pdf2zh example.pdf -li en |
-lo |
目标语言 | pdf2zh example.pdf -lo zh |
-s |
指定翻译服务 | pdf2zh example.pdf -s deepl |
-t |
多线程 | pdf2zh example.pdf -t 1 |
-o |
输出目录 | pdf2zh example.pdf -o output |
-f , -c |
例外规则 | pdf2zh example.pdf -f "(MS.*)" |
--share |
[获取 gradio 公开链接] | pdf2zh -i --share |
--authorized |
[添加网页认证和自定义认证页] | pdf2zh -i --authorized users.txt [auth.html] |
--prompt |
[使用自定义的大模型prompt] | pdf2zh --prompt [prompt.txt] |
--onnx |
[使用自定义的 DocLayout-YOLO ONNX 模型] | pdf2zh --onnx [onnx/model/path] |
--serverport |
[使用自定义的 WebUI 端口] | pdf2zh --serverport 7860 |
--dir |
[文件夹翻译] | pdf2zh --dir /path/to/translate/ |
--serverport |
[自定义端口号] | pdf2zh --serverport 7860 |
--config |
持久化定义配置文件 | pdf2zh --config /path/to/config/config.json |
- 全文翻译
pdf2zh example.pdf
- 部分翻译
pdf2zh example.pdf -p 1-3,5
参考 Google Languages Codes, DeepL Languages Codes
pdf2zh example.pdf -li en -lo ja
下表列出了每个翻译服务所需的 环境变量,在使用相应服务之前,请确保已设置这些变量
Translator | Service | Environment Variables | Default Values | Notes |
---|---|---|---|---|
Google (Default) | google |
None | N/A | None |
Bing | bing |
None | N/A | None |
DeepL | deepl |
DEEPL_AUTH_KEY |
[Your Key] |
See DeepL |
DeepLX | deeplx |
DEEPLX_ENDPOINT |
https://api.deepl.com/translate |
See DeepLX |
Ollama | ollama |
OLLAMA_HOST , OLLAMA_MODEL |
http://127.0.0.1:11434 , gemma2 |
See Ollama |
OpenAI | openai |
OPENAI_BASE_URL , OPENAI_API_KEY , OPENAI_MODEL |
https://api.openai.com/v1 , [Your Key] , gpt-4o-mini |
See OpenAI |
AzureOpenAI | azure-openai |
AZURE_OPENAI_BASE_URL , AZURE_OPENAI_API_KEY , AZURE_OPENAI_MODEL |
[Your Endpoint] , [Your Key] , gpt-4o-mini |
See Azure OpenAI |
Zhipu | zhipu |
ZHIPU_API_KEY , ZHIPU_MODEL |
[Your Key] , glm-4-flash |
See Zhipu |
ModelScope | ModelScope |
MODELSCOPE_API_KEY , MODELSCOPE_MODEL |
[Your Key] , Qwen/Qwen2.5-Coder-32B-Instruct |
See ModelScope |
Silicon | silicon |
SILICON_API_KEY , SILICON_MODEL |
[Your Key] , Qwen/Qwen2.5-7B-Instruct |
See SiliconCloud |
Gemini | gemini |
GEMINI_API_KEY , GEMINI_MODEL |
[Your Key] , gemini-1.5-flash |
See Gemini |
Azure | azure |
AZURE_ENDPOINT , AZURE_API_KEY |
https://api.translator.azure.cn , [Your Key] |
See Azure |
Tencent | tencent |
TENCENTCLOUD_SECRET_ID , TENCENTCLOUD_SECRET_KEY |
[Your ID] , [Your Key] |
See Tencent |
Dify | dify |
DIFY_API_URL , DIFY_API_KEY |
[Your DIFY URL] , [Your Key] |
See Dify,Three variables, lang_out, lang_in, and text, need to be defined in Dify's workflow input. |
AnythingLLM | anythingllm |
AnythingLLM_URL , AnythingLLM_APIKEY |
[Your AnythingLLM URL] , [Your Key] |
See anything-llm |
Argos Translate | argos |
See argos-translate | ||
Grok | grok |
GORK_API_KEY , GORK_MODEL |
[Your GORK_API_KEY] , grok-2-1212 |
See Grok |
DeepSeek | deepseek |
DEEPSEEK_API_KEY , DEEPSEEK_MODEL |
[Your DEEPSEEK_API_KEY] , deepseek-chat |
See DeepSeek |
OpenAI-Liked | openai-liked |
OPENAILIKE_BASE_URL , OPENAILIKE_API_KEY , OPENAILIKE_MODEL |
url , [Your Key] , model name |
None |
对于未在上述表格中的,并且兼容 OpenAI api 的大语言模型,可使用表格中的 OpenAI 的方式进行环境变量的设置。
使用 -s service
或 -s service:model
指定翻译服务:
pdf2zh example.pdf -s openai:gpt-4o-mini
或者使用环境变量指定模型:
set OPENAI_MODEL=gpt-4o-mini
pdf2zh example.pdf -s openai
对于 PowerShell 用户,请使用如下方式设置环境变量指定模型:
$env:OPENAI_MODEL = gpt-4o-mini
pdf2zh example.pdf -s openai
使用正则表达式指定需保留的公式字体与字符:
pdf2zh example.pdf -f "(CM[^RT].*|MS.*|.*Ital)" -c "(\(|\||\)|\+|=|\d|[\u0080-\ufaff])"
默认保留 Latex
, Mono
, Code
, Italic
, Symbol
以及 Math
字体:
pdf2zh example.pdf -f "(CM[^R]|MS.M|XY|MT|BL|RM|EU|LA|RS|LINE|LCIRCLE|TeX-|rsfs|txsy|wasy|stmary|.*Mono|.*Code|.*Ital|.*Sym|.*Math)"
使用 -t
指定翻译时使用的线程数量:
pdf2zh example.pdf -t 1
使用 --prompt
指定使用大模型翻译时使用的 Prompt 文件。
pdf2zh example.pdf -pr prompt.txt
示例 prompt.txt
文件
[
{
"role": "system",
"content": "You are a professional,authentic machine translation engine.",
},
{
"role": "user",
"content": "Translate the following markdown source text to ${lang_out}. Keep the formula notation {{v*}} unchanged. Output translation directly without any additional text.\nSource Text: ${text}\nTranslated Text:",
},
]
自定义 Prompt 文件中,可以使用三个内置变量用来传递参数。
变量名 | 说明 |
---|---|
lang_in |
输入的语言 |
lang_out |
输出的语言 |
text |
需要翻译的文本 |
from pdf2zh import translate, translate_stream
params = {"lang_in": "en", "lang_out": "zh", "service": "google", "thread": 4}
file_mono, file_dual = translate(files=["example.pdf"], **params)[0]
with open("example.pdf", "rb") as f:
stream_mono, stream_dual = translate_stream(stream=f.read(), **params)
pip install pdf2zh[backend]
pdf2zh --flask
pdf2zh --celery worker
curl http://localhost:11008/v1/translate -F "[email protected]" -F "data={\"lang_in\":\"en\",\"lang_out\":\"zh\",\"service\":\"google\",\"thread\":4}"
{"id":"d9894125-2f4e-45ea-9d93-1a9068d2045a"}
curl http://localhost:11008/v1/translate/d9894125-2f4e-45ea-9d93-1a9068d2045a
{"info":{"n":13,"total":506},"state":"PROGRESS"}
curl http://localhost:11008/v1/translate/d9894125-2f4e-45ea-9d93-1a9068d2045a
{"state":"SUCCESS"}
curl http://localhost:11008/v1/translate/d9894125-2f4e-45ea-9d93-1a9068d2045a/mono --output example-mono.pdf
curl http://localhost:11008/v1/translate/d9894125-2f4e-45ea-9d93-1a9068d2045a/dual --output example-dual.pdf
curl http://localhost:11008/v1/translate/d9894125-2f4e-45ea-9d93-1a9068d2045a -X DELETE
-
文档合并:PyMuPDF
-
文档解析:Pdfminer.six
-
文档提取:MinerU
-
文档预览:Gradio PDF
-
多线程翻译:MathTranslate
-
布局解析:DocLayout-YOLO
-
多语言字体:Go Noto Universal