Google DeepMindは、新しい大規模言語モデル「Gemini 3.5 Flash」のプレビュー版を公開しました。同モデルは、エージェント型ワークフローやコーディングタスクにおいて、従来モデルを大きく上回る性能を実現しています。
Gemini 3.5 Flashは、高速な応答速度を維持しながら、複雑な推論処理を可能にする点が特徴です。100万トークンの入力と6万4千トークンの出力に対応し、テキスト、画像、動画、音声、PDFなどのマルチモーダル入力を処理できます。知識のカットオフは2025年1月となっており、関数呼び出しやコード実行といったツール利用機能も備えています。
公開されたベンチマーク結果によれば、Gemini 3.5 Flashは複数の評価指標で競合モデルを上回る成績を記録しました。特にエージェント型のコーディングタスクを評価する「TerminalBench 2.1」では76.2%のスコアを獲得し、GPT-5.5の78.2%に次ぐ結果となっています。また、MCPを使用した複数ステップのワークフローを評価する「MCP Atlas」では83.6%と最高スコアを記録しました。
実際の企業利用においても効果が確認されています。セキュリティ企業Armadinでは、長距離・複数ターン対応のサイバーベンチマークにおいて、前世代のFlash 3よりも42%優れた性能を示し、トークン使用量を72%削減できたと報告しています。また、Boxでは、エンタープライズワーク評価セットにおいてGemini 3 Flashを19.6%上回り、ライフサイエンス分野でデータ抽出精度を96.4%向上させる結果が得られました。
エージェントAIが求められる背景と性能指標の変化
この発表は、生成AIの評価軸が変化しつつあることを示していると捉えられます。
従来、大規模言語モデルの性能は、主に単一の質問応答や文章生成の品質で測られてきました。しかし、企業での実用化が進むにつれ、「複数のステップを自律的に実行できるか」「外部ツールと連携して実際のタスクを完遂できるか」といった、エージェント的な能力が重視されるようになっています。Gemini 3.5 Flashが強調する「TerminalBench」や「MCP Atlas」といったベンチマークは、まさにこうした実務的なタスク遂行能力を測るものです。
また、速度とコストの最適化も重要な論点として浮上しています。高度な推論能力を持つモデルであっても、応答が遅かったり、トークン消費量が多かったりすれば、リアルタイム性が求められる業務や、大量の処理を行う用途には適しません。Gemini 3.5 Flashが「Flashレベルの低遅延」と「高度な推論処理」の両立を掲げている点は、この課題への一つの回答と言えそうです。
さらに、マルチモーダル対応の充実も見逃せません。業務データは文章だけでなく、図表、PDF、動画など多様な形式で存在します。これらを統合的に処理できる能力は、文書管理や財務分析、科学データ解析など、幅広い領域での応用可能性を広げています。実際、Boxの事例では構造化データから財務レポートを作成する精度が46.7%向上したとされており、こうした実務への適用が進んでいることがうかがえます。
導入検討における視点
企業がこうした新世代の言語モデルを検討する際には、いくつかの観点が考えられます。
まず、自社の業務においてエージェント型の処理がどの程度必要かという点です。単発の質問応答で完結するタスクであれば、必ずしも最新モデルが必要とは限りません。一方、複数のステップを経て情報を収集・統合し、判断を行うようなプロセスが多い場合は、エージェント型モデルの導入効果が大きいと考えられます。
次に、コストとパフォーマンスのバランスです。トークン使用量の削減は、継続的に利用する場合のコスト抑制に直結します。処理速度の向上は、ユーザー体験の改善だけでなく、業務のスループット向上にも寄与します。これらの要素を、自社の利用規模や予算と照らし合わせて評価することが重要です。
また、マルチモーダル対応の有効性も業種や業務内容によって異なります。文書中心の業務であればテキスト処理能力が最優先となる一方、製造業や研究開発部門では画像や動画の解析能力が重要になる場合もあります。
セキュリティやデータガバナンスの観点も忘れてはなりません。クラウドベースのAIサービスを利用する際には、データの取り扱いやプライバシー保護の方針を確認し、自社のポリシーと整合するかを検討する必要があります。
まとめ
Gemini 3.5 Flashの発表は、大規模言語モデルが「質問に答える」段階から「タスクを遂行する」段階へと進化していることを象徴していると言えます。エージェント型ワークフローへの対応、速度とコストの最適化、マルチモーダル処理の充実といった要素は、今後の生成AI選定における重要な評価軸となりそうです。
企業がこうした技術を活用する際には、自社の業務特性や目的に照らして、どの機能がどの程度必要かを見極めることが求められます。ベンチマークスコアはあくまで一つの指標であり、実際の業務における有効性は個別に検証する必要があります。
生成AIの進化は加速しており、今後もさまざまなモデルや機能が登場することが予想されます。変化の早い領域だからこそ、自社にとって何が本質的に重要かを見定めながら、適切なタイミングでの導入を検討していくことが重要です。

