Blockify 企業向け RAG を改修:Chunking を IdeaBlock で置き換え、圧縮は 40 倍、トークンは 3 分の 1 に削減

ChainNewsAbmedia

企業のAI資料最適化の新ツール「Blockify」。5月9日、akshay_pachaarが整理し、宣伝・普及に努めている。同社はRAG(Retrieval-Augmented Generation)のプロセスにおいて、企業のデータベースを40倍圧縮し、クエリtoken消費量を3倍削減し、ベクトル検索の精度を2.3倍向上できると主張している。
Blockify公式GitHubの説明:製品はIternal Technologiesによって提供され、「IdeaBlock」構造化知識ユニットによって従来のchunkingを置き換える。さらに重複排除と統合により、知識ベースを簡潔・一貫・統治可能に保つ。

コア概念:IdeaBlockで従来のchunkingを置き換える

Blockifyの技術設計:

従来のやり方:長文書を固定サイズのchunkに分割し、埋め込みベクトルを作成し、検索時はtop-kを取得する

Blockifyのやり方:元の内容をIdeaBlock—XMLの構造化知識ユニットへ変換する

各IdeaBlockには以下が含まれる:自前の質問、信頼できる回答、タグ、エンティティ、キーワード

類似するIdeaBlockは自動で重複排除・統合され、知識ベースは内容が増えても膨らまない

従来のchunkingの問題は、同じ情報が複数のchunkに重複して現れ、検索の冗長性とtokenの浪費を招くことにある。IdeaBlockは重複排除によって情報密度を高め、同じ内容をより小さい保存空間で表現する。

具体的な効果:40倍圧縮、tokenを3倍減らす、精度を2.3倍向上

Blockifyが公開した具体的な効果指標:

データ圧縮:企業のデータベースが元の約2.5%まで縮小(40倍圧縮)、99%以上の情報を保持

1回のクエリ当たりtoken:およそ303個(従来chunk)から約98個(IdeaBlock)へ—3.09倍の効率

ベクトル検索の精度:2.29倍に向上

全体の精度改善:約78倍(重複排除と検索改善の総合的な相乗効果を含む)

コスト削減の試算:年あたり1億回のクエリで、tokenコストを約73.8万ドル節約

78倍の全体的な精度向上は、総合効果によるもの—重複排除でノイズを減らし、IdeaBlockの構造化された内容がベクトル検索にとって扱いやすくなり、1回の回答あたりのtoken数が減ると同時に、モデルが誤る余地も減る。

統合範囲:LlamaIndex、LangChain、Milvus、Cloudflareなどの主要フレームワーク

Blockifyが統合している開発者ツールと基盤インフラ:

RAGフレームワーク:LlamaIndex、LangChain

ナレッジ管理:Obsidian

ベクトルデータベース:Milvus、Elastic、Supabase

エッジコンピューティング:Cloudflare

ローコード統合:n8n(ワークフローテンプレートを介して)

Blockifyの統合戦略は「既存のRAGフレームワークを置き換えるのではなく、前段のデータ最適化レイヤーとして機能する」というもの。開発者は既存のLlamaIndexまたはLangChainのプロセス内で、Blockifyを使って元のchunking手順だけを置き換え、他の処理はそのままにできる。

今後追跡できる具体的な出来事:BlockifyのGitHubスター数の成長とコミュニティ採用率、Iternal TechnologiesがIdeaBlockの構造に関して申請または技術詳細を開示するかどうか(現在は「patented ingestion」を標榜)、および主要なRAGフレームワークが同様の重複排除ロジックをデフォルト機能として内蔵するかどうか。

この記事「Blockifyが企業RAGを書き換え:IdeaBlockでchunkingに代わり、40倍圧縮、tokenを3倍削減」は、最初に「鏈新聞 ABMedia」に掲載された。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし