该模型能否在llama.cpp上运行 #42

KagaJiankui · 2024-03-05T02:45:03Z

KagaJiankui
Mar 5, 2024

对于生产环境部署, 能否使用llama.cpp/fastllm.cpp等纯C++框架运行TexTeller模型? 希望能提供便于部署的q4/q8模型和actions/dockerfile之类部署batch文件

Answered by OleehyO

TexTeller的架构是自定义的，所以llama.cpp/fastllm.cpp应该是没有兼容的，如果想转到纯C++框架可以考虑把模型转ONNX然后使用TensorRT进行推理。

另外，这一版的TexTeller在某些场景下还不够好，所以还没有考虑q4/q8，但是下一版应该会有。

OleehyO · 2024-03-05T04:39:09Z

TexTeller的架构是自定义的，所以llama.cpp/fastllm.cpp应该是没有兼容的，如果想转到纯C++框架可以考虑把模型转ONNX然后使用TensorRT进行推理。

另外，这一版的TexTeller在某些场景下还不够好，所以还没有考虑q4/q8，但是下一版应该会有。

0 replies