跳到主要内容

对接大模型

伴随着大模型技术的迭代,更多的大模型技术开始应用在不同业务场景中。Rill Flow被设计用来执行长时间运行的任务,完全符合大模型调用的特点。

Rill FLow能够对接ChatGPT这类云端大模型,同时也能对接私有部署的大模型服务。

通过HTTP服务暴露模型

大模型通常仅暴露C++或python接口,如果直接跨语言调用接口对于业务落地并不友好。

因此我们建议使用HTTP协议对大模型接口进行封装,FastAPI是一个常见的用于暴露大模型接口的HTTP框架。

每种模型独立部署运行

每种大模型通常需要特定的的软硬件运行时环境,同时,由于大模型领域的发展迅速,模型及调优版本正在快速迭代,如果在同一个运行时环境内部署多个大模型,会显著的提升业务和模型迭代复杂度。

因此,我们建议基于Docker、K8S技术,使用独立的运行时环境部署大模型。

相反的,为每种大模型做独立部署也意味着需要更强的部署调度能力。

分布式存储

当使用图片、视频相关的生成类大模型时,有可能需要拉取或生产大量文件。

Rill Flow的Context机制不支持文件存储,如果需要在不同任务间共享文件,需要引入分布式存储服务,不同任务节点间通过上下文机制传递存储地址。

Serverless

大模型本身具有部署成本高、请求量低的特点,通过将大模型服务对接Serverless机制可以更好的提升GPU资源提升效率。