HuBrowser AI API 概要
HuBrowser AI を使うと、アプリ、拡張機能、社内ツールに、必要な場面だけクラウドを使いながら、普段はオンデバイスの速度で知的機能を組み込めます。中核となるのは、端末にダウンロードした LLM を最適化されたブラウザ API 経由で呼び出す 仕組みです。これにより、分類や処理のたびにネットワークを往復する必要がありません。
🔑 コアバリュー
- 🔒 プライバシー優先: 機密テキストはローカルに残し、必要な場合だけ最小限のデータをクラウドへ送ります
- ⚡ 超高速処理: オンデバイス LLM により、分類やトークン出力を低遅延で実行できます
- 💰 予測しやすいコスト: 多くの処理をローカルでこなすため、不要なクラウド呼び出しを抑えられます
- 🧩 共通の実行面: Web、Desktop、Android、拡張機能、Bot でセッションやプロンプト、メモリを共有しやすくします
- 🛡 ガードレール内蔵: 出力前に安全フィルタやモデレーションフックを挟めます
- ♻️ 持続的な運用: 増分ロードやキャッシュで、モデル再取得の負担を減らします
🛠 カスタムAPI
用途に合わせた AI エンドポイントを構築できます。
- 🌐 Create: 目的を自然言語で記述
- 🧩 Schemas: 型付きの入力と出力を自動生成
- 🚀 Run: UI からでも API からでも高速に繰り返し実行
🧱 機能グループ
⚡ 即時オンデバイス処理
- テキスト分類: ネットワークなしで高速にカテゴリ分け
- コンテンツ解析: ローカル LLM でリアルタイムにテキスト理解
- 言語判定: ブラウザ API 経由で即座に言語を判別
🔄 高度なテキスト操作
- テキスト生成: 構造化ヒントから下書きや返信文を生成
- 書き換え: トーン、長さ、分かりやすさを調整
- 翻訳と言語処理: ローカルの言語判定と素早い翻訳で UI やチャットを橋渡し
- 要約: 箇条書き、TL;DR、ハイライトなど、目的に応じた形式で要約
🧩 連携機能
- Prompt Sessions: 会話メモリやタスク文脈を共有
- Hybrid Routing: プロンプトごとにローカルとクラウドを動的に切り替え
- Moderation & Guardrails: ヒューリスティックとモデルフィルタ、伏字、ポリシータグ付けに対応
- Embeddings(予定): ローカルベクトル索引による意味検索やクラスタリング
🏗 アーキテクチャモード
1️⃣ ローカル専用
ブラウザ API から呼び出すオンデバイス LLM を使い、すべてを HuBrowser ランタイム内で処理します。
- 最速の体験: すべての処理でネットワーク遅延がありません
- 最大限の機密性: データは端末外に出ません
- オフライン対応: インターネットがなくても動作可能
- 即時分類: テキスト解析をローカルですぐ実行
2️⃣ ハイブリッド・スマートフォールバック
まずローカルで処理し、必要な場合だけクラウドへエスカレーションします。
- 通常はブラウザ API 経由のオンデバイス LLM で処理
- コンテキスト超過、ポリシー要件、品質要件がある場合のみクラウドへ切り替え
- 90%以上の処理でネットワークを省略可能
- 速度と高機能を両立しやすい構成
3️⃣ クラウド専用
企業向けの高機能モデルを直接利用する構成です。
- ログの集約やクォータ管理を一元化
- 複雑なタスク向けの高度なモデルを利用可能
- ネットワーク依存だが、高品質な結果を得やすい
ルーティング判断では、次のようなシグナルを考慮します。
- トークン長とローカルコンテキスト窓の比較
- 高度モデルが必要な安全判定や分類
- ユーザーによる品質優先指定("refine"、"improve further" など)
- 端末性能(メモリ、バッテリー状態)に応じたモデル選択
- レート制限やクォータ逼迫時のエスカレーション抑制
🔌 連携先
- Web(ブラウザ内 API。AI API の feature detection に近い段階的強化)
- Desktop Host(Node 風の非同期インターフェースを持つブリッジ)
- Android(Kotlin ヘルパーと WebView 互換。Play Feature Delivery 的なモデル分割にも対応しやすい)
- Browser Extension(content script 向けラッパーとバックグラウンド永続化)
- Chat / Bot Relay(Telegram や社内チャット向けのセッションマッピング)
- CLI & REST(運用スクリプト、バッチ要約、翻訳パイプライン)
⚡ 技術アーキテクチャ: ネットワークレスAI
🧠 中核となる発想
HuBrowser AI の大きな特徴は、多くの AI 処理から ネットワーク層そのものを外す ことです。
- 小型 LLM を一度ダウンロードしてローカル保存
- ブラウザ API からモデルに直接アクセス
- 分類、解析、テキスト処理で ネットワーク遅延ゼロ
- オフラインでも AI 機能を活用可能
🔧 仕組み
- モデル取得: 軽量な LLM を初回セットアップ時に取得
- ブラウザ統合: モデルをブラウザ API と直接連携
- ローカル処理: テキスト解析を端末上で即時実行
- 即時応答: ネットワーク往復がないため反応が速い
🎯 速度比較
- 従来のクラウドAI: リクエストごとに 200〜500ms 以上のネットワーク遅延
- HuBrowser Local AI: ブラウザ API 経由で 10ms 未満の処理も可能
- 結果: 分類やテキスト解析で 20〜50 倍高速になるケースがあります
🧠 オンデバイス知能の原則
HuBrowser AI は、端末へ直接ダウンロードした軽量 LLM を活用し、ネットワーク依存なしで速度と機密性を両立します。
🚀 ネットワーク不要の処理
- 分類が即時: ブラウザ API 経由ですぐ解析できます
- オフライン対応: ネット接続がなくても基本機能を維持
- データ送信不要: 基本処理では機密情報を外部に送りません
🎯 モデルアーキテクチャ
- 小型で効率的: 端末上で動かしやすい軽量モデルを採用
- ブラウザネイティブ: 標準ブラウザ API と直接つながる構成
- 起動が速い: 初期化を短時間で済ませやすい設計
- Progressive enhancement: モデルがなければ簡易ヒューリスティックへフォールバック
- エスカレーション時は、理由と送信データの最小化をユーザーへ明示
- サンドボックス実行と厳格なメモリ境界を維持
- 省電力モード時は大型モデルのウォームアップを遅らせる
🚦 ハイブリッドルーティングの考え方
- 基本はローカル優先で、明確な利点がある場合だけクラウドへ送る
- maxLocalTokens、安全フラグ、品質ノブなどをしきい値に使う
- ポリシーはルート決定と理由を返し、監査しやすくする
- 可観測性には reason code(length_overflow、safety_advanced、user_quality、model_cold、quota_pressure など)を出力する
🛡 モデレーションとガードレール
- 出力前フックでパスワード、認証情報、PII ヒントを伏字化
- 自傷、暴力、個人情報、制限トピックなどの安全カテゴリを扱う
- block、soften、mask、escalate などの挙動を設定可能
- 判断履歴はローカルのリングバッファに保持(永続化はアプリ側判断)
📦 デプロイパターン
- Web: 初回アイドル後に遅延ロードし、チェックサム付きでキャッシュ
- Desktop: スナップショット同梱でコールドスタートを短縮し、差分更新を定期適用
- Android: 大きなモデル資産は分割インストールし、有効化前にハッシュ検証
- Extension: 永続ストレージでキャッシュし、更新後に整合性確認
- Server Relay(任意): 企業向けエスカレーション用に中央署名とガバナンスログを管理
🔍 可観測性
- ローカルトークン使用量(セッション単位 / 累計)
- エスカレーション回数と reason code
- ローカル / クラウド別の p50 / p95 レイテンシ
- ガードレール発火ヒストグラム(カテゴリ、アクション)
- モデルキャッシュ健全性(ヒット率、ウォームスタート時間)
🔒 セキュリティとプライバシー
- アプリが明示的に保存しない限り、ローカル会話バッファは一時的に扱う
- エスカレーション時は最小化したテキストとソルト付きハッシュ化 ID を送信
- 保存するセッションメモリには任意で保存時暗号化を適用可能
- Web 向け API には厳格な origin binding を適用し、クロスサイト悪用を防ぐ
📜 エラー分類
- AUTH_MISSING: 必要なキーがない → キーを設定するかローカルへ切り替える
- MODEL_UNAVAILABLE: モデル未取得 → 事前ロード後に再試行
- LIMIT_CONTEXT: ローカル窓を超過 → 分割するかエスカレーション
- SAFETY_BLOCK: 出力が安全基準に抵触 → プロンプトを調整するかユーザーへ通知
- NETWORK_FAIL: クラウドエスカレーション失敗 → バックオフ再試行またはローカル維持
🚀 パフォーマンスのヒント
🔥 オンデバイス速度を最大化
- アイドル時にモデルを事前ロード: システム負荷が低い間に取得しておく
- 早めにトークンを流す: ストリーミングで体感速度を上げる
- よく使うモデルを温めておく: 起動時の待ち時間を減らす
📊 処理の最適化
- 古い文脈を要約してコンテキスト窓を確保する
- 長文は分割して要約の要約を作る
- 将来的には embeddings をキャッシュして意味検索を高速化
- 利用ピーク直前に重要モデルをウォームアップする
⚡ ネットワーク削減の恩恵
- 分類タスク: 100% ローカル処理でネットワーク依存を排除
- テキスト解析: ブラウザ API 経由ですぐ結果を返せる
- コンテンツフィルタ: 外部呼び出しなしでリアルタイムに制御可能
🧪 テスト戦略
- Golden prompt スナップショット(短く不変な基準行)
- CI 回帰向けの deterministic run(temperature 0)
- 空、超長文、多言語、絵文字多用などのエッジコーパス
- 機密パターンを注入する safety fuzz で伏字処理を検証
📅 想定ロードマップ
- Q4: ローカル embeddings と意味検索ヘルパー
- Q1: 軽量マルチモーダル(画像 → テキスト)解析器
- Q2: ニッチ用途向けの adapter pack 微調整
✅ モード選択の目安
- 最大限の機密性やオフライン重視 → Local
- 速度と品質のバランス重視 → Hybrid
- 常に最高品質を優先 → Cloud
🛠 CLI(プレビュー)
- ファイルを箇条書きで要約
- テキストファイルを指定言語へ翻訳
- 直近 N 件のルーティング統計を確認
🌟 連携チェックリスト
- モデルの事前ロード経路を確認
- 合成プロンプトでエスカレーションポリシーを検証
- セーフティフックが発火することを確認
- 要件に対してレイテンシ予算を計測
- フォールバック UX(スピナー → ストリーミング表示)を磨く
🚀 実際の動作を見る
HuBrowser AI のオンデバイス能力をすぐ試したいなら、同じ技術を体験できる SelfReason をご覧ください。
- 📱 100% オフラインの Android AI - 端末上で処理する体験を確認
- 🌐 マルチプラットフォーム同期 - Web、Desktop、Mobile で AI セッションを横断利用
- 🔒 ゼロトラッキング - プライバシー優先の AI を体験
SelfReason は、HuBrowser AI API でどんなものを作れるかを具体的に示す実例です。
必要な機能がまだ揃っていない場合は、チケットを作成して HuBrowser AI プラットフォームの方向づけに参加してください。
