この記事は、2024/11/4に公開された「Unlocking Faster Insights: How Cloudera and Cohere can deliver Smarter Document Analysis」の翻訳です。
Cloudera は本日、PDF ドキュメントを分析するための新しい Cloudera Accelerator for Machine Learning (ML) Projects (AMP) として、Document Analysis with Command R and FAISS をリリースいたしました。この製品は、Cohere 社の大規模言語モデル (LLM) である Command R 、検索拡張生成 (RAG) アプリケーション用の Cohere Toolkit、および Facebook AI Similarity Search (FAISS) を活用したものです。
ドキュメント分析は、大量のテキストから効率的に洞察を抽出するために欠かせない作業で、法務調査、市場分析、科学研究などさまざまな分野で活用されています。例えば、がん研究者はドキュメント分析を活用することで、特定の種類のがんに関する何千本もの研究論文から主要な調査結果を迅速に把握し、新しい研究の優先順位を決めるのに必要な傾向や知識のギャップを特定できます。
LLM が広く普及するまで、ドキュメント分析は主に手作業やルールベースのシステムで行われていました。しかし、このような手段では時間と労力がかかる上に、複雑な言葉のニュアンスや非構造化データに対応しきれないことが少なくありませんでした。
Cohere 社の Command R のような高度な LLM や、Cloudera Artificial Intelligence (CAI) のような AI プラットフォームが開発されたことで、企業は効果の高いドキュメント分析アプリケーションをかつてないほど簡単に導入できるようになりました。このプロセスをさらに簡単にするために Cloudera が開発したのが、「Document Analysis with Command R and FAISS」と呼ばれる AMP です。
Cohere 社の Command R ファミリーのモデルは、最先端のトランスフォーマーアーキテクチャを活用した高度な LLM で、複雑なテキストを生成したり理解したりするタスクを高い精度と速度で実行できるため、エンタープライズレベルのアプリケーションやリアルタイム処理のニーズに適しています。また、さまざまなアプリケーションに簡単に統合できるように設計されているため、規模の大小を問わずあらゆるサイズの実装に柔軟かつスケーラブルに対応できます。Cohere Toolkit は事前構築済みのコンポーネントのセットで、開発者が検索拡張生成 (RAG) アプリケーションを迅速に構築して展開するのに役立ちます。
CAI は、データサイエンティストや人工知能 (AI) の専門家が、モデルやアプリケーションを大規模に構築、トレーニング、デプロイ、管理するための強力なプラットフォームです。AMP は一般的に使用される AI/ML ベースのプロトタイプをワンクリックで展開できるプロジェクトです。Cloudera の研究と専門知識を活用して、最先端の AI アプリケーションを体験できる高品質のサンプルを提供することで、価値実現までの時間を短縮します。
CAI から単一のプロジェクトとして起動されるこの AMP は、アプリケーションを自動的に展開してベクトルを FAISS ベクトルストアにロードし、Cohere 社の Command R LLM と連携してドキュメント分析を実行できるようにします。下の画像は、AMP で使用される検索拡張生成 (RAG) アーキテクチャと Cohere 社のモデル、FAISS、ユーザーのナレッジベース、Streamlit などの各コンポーネントが連携して、すぐに使える生成 AI のユースケースを構築する仕組みを示しています。
このプロジェクトでは、特に RAG の観点から、いくつかの重要な新しいテーマを Cloudera の AMP ライブラリに加えています。Meta 社のオープンソースである FAISS は、密なベクトルの類似性検索やクラスタリングを効率的に行うためのライブラリです。このライブラリには、RAM に収まらない可能性のあるベクトルを含め、あらゆるサイズのベクトルのセットを検索できるアルゴリズムが含まれています。この AMP で FAISS を活用することで、Cloudera はベクトル検索アプリケーションの柔軟性を実証し、既存の AMP カタログで採用されている Milvus、Chroma、Pinecone などに加えて、この機能を採用しています。
さらにこの AMP は、Cohere 社のモデルおよび FAISS へのカスタムコネクターを利用した LangChain 社の AI ツールキットを活用することで、高度なセマンティック検索と要約機能を簡潔でわかりやすいコードベースで実現しています。また、英語の入力から高品質のテキスト埋め込みを生成するようにカスタマイズされた Cohere 社の embed-english-v3.0 モデルを利用しており、微妙な意味の違いを捉えるのに優れています。UI には Streamlit が使われているため、ユーザーはシンプルなテンプレートで作業を開始し、それをベースに本番環境への本格的な展開を進めることができます。
「Document Analysis with Command R and FAISS」AMP の仕組みや展開方法の詳細については、この Github リポジトリをご覧ください。
Cohere 社と Cloudera は、高性能な AI アプリケーションをさらに簡単に展開できるようにするために協力して取り組んでいます。今後のニュースにぜひご期待ください。
This may have been caused by one of the following: