LLM 推理(概览)¶
Pulsing 正在变成一个通用的分布式 Actor 框架,同时也很适合用于 LLM 推理服务,尤其是需要:
- router + worker 架构
- 分布式调度 / 负载感知
- 流式响应(
ask_stream)
本页目前是概览(Draft)。相关设计可先看:
docs/src/design/http2-transport.md:HTTP/2 流式协议设计docs/src/design/load_sync.md:负载同步机制
推荐架构¶
- Router:接入请求,选择 worker,转发请求
- Worker:承载模型副本,对外提供
generate/generate_stream
下一步¶
如果你希望把这里做成可运行示例,请告诉我你希望使用哪种后端:
transformers+torchvllmtriton/ 自研引擎