跳转到内容

模型注册表

模型注册表(v1/models/*.yaml)将模型标识符映射到供应商配置,记录每个模型的能力、上下文窗口和定价。

模型按系列组织(GPT、Claude、Gemini 等):

v1/models/
├── gpt.yaml # OpenAI GPT models
├── claude.yaml # Anthropic Claude models
├── gemini.yaml # Google Gemini models
├── deepseek.yaml # DeepSeek models
├── qwen.yaml # Alibaba Qwen models
├── mistral.yaml # Mistral models
├── llama.yaml # Meta Llama models
└── ... # 28+ model files

每个模型条目包含:

models:
gpt-4o:
provider: openai
model_id: "gpt-4o"
context_window: 128000
max_output_tokens: 16384
capabilities:
- chat
- streaming
- tools
- vision
- json_mode
pricing:
input_per_token: 0.0000025
output_per_token: 0.00001
release_date: "2024-05-13"

运行时使用 provider/model 格式标识模型:

anthropic/claude-3-5-sonnet
openai/gpt-4o
deepseek/deepseek-chat
gemini/gemini-2.0-flash
qwen/qwen-plus

运行时将其拆分为:

  1. Provider IDanthropic)→ 加载供应商清单
  2. Model nameclaude-3-5-sonnet)→ 在模型注册表中查找

标准能力标志:

能力描述
chat基础聊天补全
streaming流式响应
tools函数/工具调用
vision图像理解
audio音频输入/输出
reasoning扩展思考(CoT)
agentic多步代理工作流
json_mode结构化 JSON 输出

按 token 定价使运行时能够进行成本估算:

pricing:
input_per_token: 0.000003 # $3 per 1M input tokens
output_per_token: 0.000015 # $15 per 1M output tokens
cached_input_per_token: 0.0000003 # Cached prompt discount

Rust 和 Python 运行时均使用此数据进行 CostEstimate 计算。

模型可包含生产部署的验证状态:

verification:
status: "verified"
last_checked: "2025-01-15"
verified_capabilities:
- chat
- streaming
- tools