胡浏览器 AI API 总览

胡浏览器 AI 让你在应用、扩展、内部工具中快速嵌入「本地优先 + 云端补强」的智能能力:绝大多数请求本地毫秒级响应,只有确实带来价值时才最小化升级云端。核心机制:LLM 模型直接下载到设备本地,通过优化的浏览器 API 高速调用,大量场景完全不走网络,既快又更私密。

🔑 核心价值

  • 🔒 隐私优先:默认本地处理;仅在必要升级时发送最小、经策略脱敏后的片段
  • 极致低延迟:去掉网络往返 + 流式输出,交互“秒回”
  • 💰 成本可控:智能路由把 90%+ 中轻量任务留在本地完成
  • 🧩 统一抽象层:会话 / 提示 / 记忆 / 路由 跨 Web、桌面、Android、扩展、机器人一致
  • 🛡 内建安全护栏:预输出审核、敏感短语脱敏、分级策略动作
  • ♻️ 节省与可持续:增量/按需加载 + 缓存命中减少重复下载

🧱 能力分组

⚡ 即时本地推理

  • 文本分类:无需网络的瞬时标签
  • 内容理解:本地解析意图 / 主题 / 情绪
  • 语言检测:多语场景快速识别

🔄 高级文本处理

  • 文本生成:结构化提示 → 邮件 / 回复 / 营销文案草稿
  • 文本改写:语气 / 长度 / 清晰度 / 去冗余
  • 翻译与语言桥接:UI & 聊天双语辅助
  • 摘要:要点 / TL;DR / 高亮 / 结构化摘要

🧩 集成功能

  • 会话上下文:跨端共享记忆对象(可裁剪 / 可摘要)
  • 混合路由:本地 vs 云端 动态决策 + 可审计原因
  • 审核与防护:启发式 + 模型过滤 + 脱敏标记
  • 向量嵌入(规划中):本地语义检索 / 聚类 / 主题发现

🏗 架构模式

1️⃣ 纯本地(Local Only)

  • 零网络依赖,完全离线可用
  • 隐私最大化:数据不出设备
  • 即开即用:小模型热启动快
  • 适合:分类、改写、摘要、轻生成

2️⃣ 智能混合(Hybrid Smart Fallback)

  • 默认本地;命中升级条件再云端补强
  • 升级信号:上下文溢出 / 更高质量指令 / 安全策略 / 复杂推理
  • 升级最小化载荷 + 理由透明
  • 覆盖 90%+ 低成本、10% 提升体验

3️⃣ 纯云端(Cloud Only)

  • 集中日志 / 配额 / 权限治理
  • 适合:大窗口、多轮深推理、超高质量生成
  • 代价:网络延迟 + 成本更高

路由决策信号示例

  • tokenLength > localWindow
  • safetyNeedsAdvancedModel
  • userQualityOverride ("refine" / "improve further")
  • deviceCapability(内存 / 电量节能提示)
  • quotaPressure(接近限额降级升级频率)

🔌 集成界面(Surfaces)

  • Web:浏览器内 API(特性探测 → 渐进增强)
  • 桌面:Bridge 暴露类 Node 异步接口
  • Android:Kotlin Helper + WebView 一致行为;大模型拆分交付
  • 浏览器扩展:content script 安全包装 + background 持久层
  • 聊天 / Bot:会话态映射(Telegram / 内部 IM)
  • CLI & REST:批量摘要 / 翻译流水线 / 运营脚本

⚡ 技术架构:免网络路径

🧠 核心创新

  • 「下载一次」的小型 / 选配模型常驻本地
  • 浏览器 API 直连推理 runtime(无额外服务代理)
  • 大部分指令:0 网络往返 → 即时响应
  • 缓存 + 版本校验,保证一致 & 安全

🔧 工作流程(How It Works)

  1. 初次需要或空闲时异步下载模型
  2. 完整性 / 哈希校验后登记可用
  3. 通过浏览器原生或受限扩展 API 调度推理
  4. 流式返回(tokens / 中间结构)

🎯 速度对比(示意)

  • 传统云端:单请求 200–500ms+ 网络时延
  • 本地直连:<10ms 启动 + 首 token 流出
  • 体感:20–50× 分类 / 解析加速

🧠 本地智能原则

🚀 免网络处理

  • 零延迟分类 / 主题抽取
  • 离线可用(飞行 / 地下 / 断网场景)
  • 敏感信息不出设备(默认)

🎯 模型架构策略

  • 小而快:压缩 / 蒸馏 / 低精度存储
  • 浏览器友好:内存占用上限 + 回收策略
  • 渐进增强:缺模型 → 规则回退
  • 沙箱隔离:内存 / 线程 / I/O 边界
  • 能耗感知:低电模式延后预热
  • 升级提示:显示原因 + 可取消

🚦 混合路由策略(Policy)

  • 本地优先,价值明确再升级
  • 策略函数:输入统计 + 设备态 + 用户意图 → route + reason
  • 产出审计字符串(可调试 / 可埋点)
  • Reason Codes:length_overflow / safety_advanced / user_quality / model_cold / quota_pressure

🛡 审核与防护(Moderation & Guardrails)

  • 预输出拦截:密码 / 凭证 / 个人敏感片段 → 脱敏或遮盖
  • 分类维度:自伤 / 暴力 / 个人信息 / 受限话题
  • 动作矩阵:block | soften | mask | escalate
  • 审计缓冲:环形内存(默认不落盘)

📦 部署模式

  • Web:空闲懒加载 + 版本化校验和缓存
  • 桌面:预打包快照(0 冷启动)+ 周期差分更新
  • Android:Split Install / Asset Delivery;启用前哈希比对
  • 扩展:持久缓存 + 完整性二次校验
  • 可选中继:企业集中签名 / 合规日志

🔍 可观测性(Observability)

  • 本地 token 使用:session / total
  • 升级次数 + 归因标签
  • 延迟 p50 / p95(local vs cloud)
  • 防护触发直方图(类别 / 动作)
  • 模型缓存命中 / 热启动时间

🔒 安全与隐私

  • 默认短暂(ephemeral)对话缓冲;应用自行决定持久化
  • 升级最小字段 + 加盐哈希用户标识
  • 可选加密封装持久存储
  • Origin 绑定:防跨站调用 / 注入

📜 错误分类

  • AUTH_MISSING:缺少密钥 → 传入或改走本地
  • MODEL_UNAVAILABLE:未下载 → 触发预加载后重试
  • LIMIT_CONTEXT:超窗口 → 分块 / 升级
  • SAFETY_BLOCK:被安全策略拦截 → 改写提示
  • NETWORK_FAIL:云升级失败 → 退避 + 本地降级

🚀 性能优化建议

🔥 加速本地

  • 空闲预热主模型 / 高频模型
  • 首 token 流式输出提升感知速度
  • 冷路径后台线程异步准备

📊 上下文与窗口

  • 滚动摘要旧对话(语义压缩)
  • 巨文档分块 + 分层摘要
  • (规划)缓存向量结果避免重复 embedding

⚡ 网络消除收益

  • 分类 / 检测:完全离线
  • 文本解析:即时结构化输出
  • 内容过滤:本地实时低延迟

🧪 测试策略

  • 黄金提示快照(简短稳定行)
  • temperature=0 保证回归可重复
  • 覆盖集:空输入 / 超长 / 多语言 / emoji / 噪声
  • 安全 fuzz:注入敏感片段验证脱敏

📅 指示性路线图

  • Q4:本地向量检索 + 语义搜索助手
  • Q1:轻量多模态(图 → 文)解析
  • Q2:可插拔 Adapter 微调套件

✅ 模式选择参考

  • 极致隐私 / 断网场景 → Local
  • 性能 + 质量平衡 → Hybrid
  • 结果质量绝对优先 → Cloud

🛠 CLI

  • summarize <文件路径> → 要点列表
  • translate <文件路径> --to=xx → 目标语言输出
  • route:stats --last=N → 最近路由原因统计

🌟 集成检查清单

  • ✅ 模型预加载路径验证
  • ✅ 升级策略用合成提示回放
  • ✅ 安全钩子触发 + 结果复核
  • ✅ 延迟预算对比(p95 ≤ 目标)
  • ✅ 回退体验:加载占位 → 流式渐显

🚀 实例体验

想直接体验本地 AI 效果?试试 自由一号

  • 📱 100% 离线 Android 端推理
  • 🌐 跨端共享会话与记忆
  • 🔒 无跟踪 / 隐私可验证

它展示了用胡浏览器 AI API 能构建的真实形态。还有想要的能力?欢迎提交 Issue,一起共建生态。