AI搭載SaaSの評価:本物の機能とマーケティングの見分け方
重要なポイント:AIウォッシュされたSaaS市場
- Gartnerの予測によれば、2026年までに企業の80%以上がGenerative AI APIを使用するか、AIアプリケーションを展開する見込みです。しかし「AI SaaS」製品の大多数は、自社開発の機能ではなくサードパーティの基盤モデルを薄くラップしたものに過ぎません。
- MMC Venturesによるヨーロッパの「AIスタートアップ」に関する大規模な調査では、約40%の企業がAIの実質的な証拠をプロダクトに示していませんでした。AIウォッシングを初めて正式に測定した事例であり、消費者向けSaaSにおけるこのギャップは今も埋まっていません。
- McKinseyの「State of AI」調査によれば、一般的な企業がAIから価値を得ているのは、コーディング、マーケティングコンテンツ、顧客対応などごく一部のユースケースに限られており、vendor マーケティングが主張する「あらゆる場所へのAI適用」とは程遠い状況です。
- StanfordのAI Indexによれば、GPT-3.5クラスの推論コストは2022年末から280倍以上低下しています。これが多くの「AI機能」を経済的に実現可能にし、ラッパー自体は差別化要因にならない理由です。
- OpenAI、Anthropic、Googleの基盤モデルAPIは、ミッドマーケットSaaSに搭載されたAI機能の大部分を支えています。vendorの差別化要因は通常、モデル自体ではなくデータパイプラインとUIにあります。
運用担当VPはあらゆる手順を踏んでいました。デモを3回確認し、リファレンスチェックを行い、妥当な契約を交渉しました。しかし本番稼働から6か月後、ピッチの目玉だった「AI搭載自動化」を実際に使っていたのは約4名のみで、出力の90%には人間によるレビューが必要でした。VPがようやく開発者に内部を調べさせると、それはカスタムプロンプトを持つGPT-4 APIの呼び出しを、きれいなUIで包んだものでした。
厳密に嘘ではありません。GPT-4が実際に動いていたからです。しかし基盤モデルの薄いラッパーを「AI自動化」と呼ぶことは、車で届けられたピザを「自動車食品配送」と呼ぶのと同じくらい不正確です。
AI SaaSのマーケティング問題はこうです。「AI」というラベルは、本格的なモデル統合や独自トレーニングから、ヘルプページのチャットボットまで何にでも貼られます。機能のスペクトラムは膨大ですが、マーケティング用語はその差を示しません。GartnerのAIハイプサイクル調査は、どのAI機能が過剰な期待から生産的な展開段階に移行したかを追跡しており、vendorの主張が実用段階にあるかどうかを判断する参考になります。あらゆるvendorのホームページに「AI」という言葉が掲載されていますが、自社のAIが実際に何をするか、何で学習しているか、自社データに対してどのように機能するかを説明しているvendorはほとんどいません。
このガイドは、本物と偽物を見分けるための評価フレームワークです。
AIキャプチャーテスト
AIキャプチャーテストは、本物のAI機能とマーケティング的な見せかけを区別するための3段階診断です。(1) 今日AI機能を削除しても製品は機能してコア価値を提供できるか。もしそうであれば、AIは製品の核ではなく一機能に過ぎません。(2) vendorは直接OpenAIやAnthropicのAPIを使用する場合と比較して、自社システムが何を提供しているか説明できるか。説明できなければ、ラッパー料金を支払っています。(3) vendorが管理するファインチューニング、検索拡張、フィードバックループを通じて、自社データに対する精度が時間とともに向上するか。そうでなければ、製品は基盤モデルに依存し、そのモデルの限界や失敗モードをすべて引き継ぎます。
機能スペクトラム
AI搭載ツールを評価する前に、そのツールが機能スペクトラムのどこに位置するかを理解しましょう。
レベル1:AIブランドの機能。 既存の機能(検索、ソート、フィルタリング、レコメンデーション)にAI用語を再ラベリングしたもの。基本的なメカニズムはルールベースやヒューリスティックであり、モデル駆動ではありません。AI機能なしにAIマーケティングを追加した古いプラットフォームに多く見られます。
レベル2:基盤モデルの統合。 vendorがサードパーティの基盤モデル(GPT-4、Claude、Gemini)をAPIで統合しています。AI機能は本物ですが、vendorの独自トレーニングやファインチューニングではなく、主に基盤モデルの汎用能力に依存します。vendorの付加価値はプロンプトエンジニアリング、データパイプライン、UIにあります。
レベル3:ファインチューニング済みモデル。 vendorが基盤モデルをドメイン固有のデータでファインチューニングしています(顧客ベースのデータを使うことも多い)。汎用モデルよりもドメイン固有のタスクで優れた性能を発揮しますが、基盤アーキテクチャはサードパーティのものです。
レベル4:独自モデル。 vendorが独自のモデルアーキテクチャを開発してトレーニングしています。これは珍しく費用もかかります。AI機能を主張するSaaS vendorのほとんどはレベル2か3です。
レベル5:真のAIネイティブアーキテクチャ。 プロダクト全体がAI推論を中心に設計されており、追加機能ではなくコアのアーキテクチャ上の決断です。AIコンポーネントなしには機能しません。
どのレベルを評価しているかを把握することで、主張の評価方法、質問内容、受け入れるリスクが変わります。チームが展開可能なAI SaaSツールを管理するガバナンスおよびポリシー層については、部門向けAIガバナンスポリシーがこのvendor側評価の内部的な補完資料となります。
5つの質問によるAI評価フレームワーク
質問1:どのモデルが動作しており、モデルの所有者は誰ですか?
この質問はレベル1〜2とレベル3〜5を区別し、vendorの実際のAI投資を明らかにします。
確認すべき事項:
- どのAIモデルがAI機能を動かしていますか?
- モデルを自社開発しましたか、基盤モデルをファインチューニングしましたか、それとも基盤モデルのAPIを直接呼び出していますか?
- 基盤モデルのAPI(GPT、Claude、Gemini)を使用している場合、そのプロバイダーが価格設定、利用可能性、API規約を変更したらどうなりますか?
- ファインチューニングを行った場合、どのデータで学習しましたか?
警戒すべきサイン:
- vendorが基盤モデルの識別を拒否する
- 独自モデルを構築したと主張するが、アーキテクチャやトレーニングアプローチを説明できない
- フォールバックなしに単一の基盤モデルAPIに完全依存している
良い回答の例: 「[機能]には[基盤モデル]をAPIで使用しています。また、[匿名化・同意済み顧客データ]でトレーニングした[特定ドメインタスク]用のカスタムモデルもファインチューニングしています。AIインフラはマルチモデル対応なので、プロバイダーが規約を変更しても基盤モデルを切り替えられます。」
質問2:AIはどのデータで学習しますか?
これはAI搭載ツールにおける最も重要なデータガバナンスの質問ですが、多くのvendorが回避しがちです。
理解すべきデータレジームは3種類あります。NIST AIリスクマネジメントフレームワークは、AIシステムが入力データとどのように相互作用するかを分類する体系的なアプローチを提供しており、特にプライバシーリスクを左右する推論時処理とトレーニング時データ利用の区別に有用です。
推論のみ(データは出力に使用されるが学習には使用されない): データを入力し出力を受け取りますが、そのやり取りが基盤モデルを更新することはありません。データは処理されますが学習目的では保持されません。これは強固なデータガバナンスを持つエンタープライズAIツールの標準です。
共有学習(データがすべての顧客のモデル改善に使用される): あなたのデータ(または派生シグナル)がvendorのすべての顧客に提供するモデルの更新に使用されます。多くの消費者向けAIツールがこの方法を採用しています。明示的な同意と明確なプライバシーフレームワークなしに業務データに適用することは不適切です。
顧客ごとの分離学習: vendorが顧客ごとに別々のモデルインスタンスをトレーニングします。あなたのデータはあなたのモデルのみを改善します。技術的にコストが高く運用も複雑ですが、データに敏感な顧客向けのプレミアムオプションとして提供されるケースが増えています。
確認すべき事項:
- 顧客データはAIモデルの学習に使用されますか?
- 使用される場合、共有モデル学習ですか、顧客ごとの分離学習ですか?
- 顧客は学習データの提供をオプトアウトできますか?
- 学習に使用されるデータは具体的に何ですか:生の入力、派生シグナル、その他?
- これはDPAまたはデータ処理補遺にどのように記載されていますか?
質問3:AIが実際に行うことと人間がまだ行うことは何ですか?
AIのデモは通常最善のケースを示します。モデルが完璧な下書きを出力し、自動化がワークフローを完了し、インサイトが絶妙なタイミングで現れます。実際のワークフローには失敗ケース、レビューサイクル、AIがまだ確実にこなせないタスクが含まれます。
確認すべき事項:
- 通常の本番ワークフローで、AI出力の何%を人間がレビューしてから使用しますか?
- AI出力が間違っている場合、ユーザーはどうしますか?修正ワークフローは何ですか?
- AIが一貫してパフォーマンスを下回る既知の失敗モード(タスク)は何ですか?
- AIはワークフロー全体を自動化していますか、それとも人間がまだ完了するワークフローを補完していますか?
「人間はまだ何をするか」という質問が最も示唆に富んでいます。 正直な答えが「人間はすべてを意味のある場所に送る前にレビューする」であれば、デモが示唆していたものとは異なる、AI支援ワークフローを見ていることになります。それでも価値はあるかもしれませんが、デモが示唆した製品とは違います。ミッドマーケットチームが実際にAIツールをワークフローに組み込む状況については、ミッドマーケット向けAIツールスタックガイドが一貫したROIをもたらしているカテゴリーとまだ成熟段階にあるカテゴリーを説明しています。
質問4:精度はどのように測定・報告されますか?
AIデモの精度主張は、ほぼ常にvendorのテストデータを最適条件で、厳選した例を使って実施されます。あなたが気にすべきは、自社データ、自社ワークフロー、自社のエッジケースにおける精度です。StanfordのAI Indexレポートは、厳選されたテストセットでのベンチマーク性能と本番データでの実際のパフォーマンスの間に一貫したギャップがあることを記録しており、これはvendorが管理するデモが体系的に隠蔽している構造的な問題です。
確認すべき事項:
- AI機能の精度をどのように定義・測定していますか?
- 本番データとテスト/デモデータでの精度はどの程度ですか?
- 入力データの品質が変化すると精度はどのように変わりますか?
- 自社の業界やユースケースの顧客による精度ベンチマークはありますか?
- 過去6か月で精度はどのように変化しましたか?
注意すべき点:
- 方法論のない精度主張(例:正確な出力の定義がない「95%正確」)
- 実際のデータよりも整理された、または構造化された入力で測定された精度
- 本番顧客データに対して測定されていない精度数値
質問5:間違った場合はどうなりますか?
すべてのAIシステムはエラーを生成します。問題は、プロダクトがエラーを適切に表示するよう設計されているか、エラーが封じ込められているか、そしてvendorが下流への影響に責任を持つかどうかです。
確認すべき事項:
- プロダクトは確信度の低い出力をユーザーにどのように示しますか?
- AI生成の決定や出力の監査ログはありますか?
- AIのエラーが下流の問題を引き起こした場合のエスカレーションパスは何ですか?
- AI出力のエラーに対する責任について契約に何が記載されていますか?
- 顧客はどのように体系的なエラーを報告し、どのくらいの速さで対処されますか?
AIキャパビリティ評価スコアカード(20基準)
各基準を1〜5で採点してください。合計50点未満の場合、AI主張は主にマーケティング目的です。
モデルとアーキテクチャ(最大20点)
- 基盤モデルが明確に識別されている (1〜5)
- モデルアーキテクチャがユースケースに適している (1〜5)
- vendorがAPIコールを超えた意味のある独自付加価値を持っている (1〜5)
- マルチモデルによる耐障害性(単一プロバイダーへの依存なし) (1〜5)
データガバナンス(最大20点) 5. 顧客データが共有モデル学習に使用されていない(またはオプトアウトが明確) (1〜5) 6. DPAがAI固有のデータ処理を明示的にカバーしている (1〜5) 7. データの保管場所と処理場所が確認されている (1〜5) 8. 契約終了後のAI派生データの削除プロセスが確認されている (1〜5)
パフォーマンスと信頼性(最大20点) 9. 明確な方法論で本番精度が記録されている (1〜5) 10. 失敗モードが特定・伝達されている (1〜5) 11. 確信度の低い出力の表示がUIに組み込まれている (1〜5) 12. POCで顧客の実データによる精度測定が可能 (1〜5)
ワークフロー統合(最大20点) 13. AIがワークフローの意味のある部分を自動化している(サイドバーの提案だけでなく) (1〜5) 14. ワークフロー内の人間レビューポイントが明確に設計されている (1〜5) 15. AIエラーのエスカレーションパスが記録されている (1〜5) 16. AI決定の監査証跡が利用可能 (1〜5)
ロードマップと成熟度(最大20点) 17. AI機能が本番稼働中(ロードマップ上の約束ではない) (1〜5) 18. 過去6か月の精度向上の軌跡 (1〜5) 19. AI開発チームと専門知識が可視化されている (1〜5) 20. AI機能使用に特化した顧客リファレンスがある (1〜5)
スコアの解釈:
- 80〜100:信頼できるAIキャパビリティ。POCを進めてください
- 60〜79:部分的なAIキャパビリティ。コミット前にギャップを明確にしてください
- 40〜59:AI主張は主にマーケティング。購入前に慎重に検証してください
- 40未満:AIは表面的またはリブランドされたもの。AI以外のメリットで評価してください
AI vendorへの15項目データ処理アンケート
AI機能を含む契約についての議論の前にこれを送付してください:
- どのAIモデルまたはテクノロジーがAI機能を動かしていますか?
- 基盤モデルを自社構築、ファインチューニング、またはAPI統合しましたか?
- 顧客データはAIモデルの学習、改善、または更新に使用されますか?
- 使用される場合、顧客間で共有されますか、それとも顧客ごとに分離されていますか?
- 顧客はAI学習データの提供をオプトアウトできますか?
- AIモデルはどこで実行されていますか:自社インフラ、クラウドプロバイダー、または基盤モデルプロバイダーのインフラ?
- AIが処理する顧客データは具体的に何ですか?(入力、メタデータ、派生シグナル?)
- AIで処理されたデータは、プライバシーフレームワーク内でAI以外のデータとどのように異なる扱いを受けますか?
- DPAにAI固有のデータ処理補遺はありますか?
- AIで処理されたデータは地理的にどこに保存されますか?
- AI生成の出力は監査ログにどのように記録されますか?
- 顧客契約が終了した際にAI派生データはどうなりますか?
- AI機能の既知の精度上の制限は何ですか?
- AI生成の出力のエラーについてvendorはどのような責任を負いますか?
- 事前合意した精度ベンチマークで、自社データを使用した30日間のPOCを実施できますか?
30日AIパイロット設計テンプレート
AI機能を評価する最善の方法は、自社データを使った構造化されたPOCです。
POC前の準備(第0週):
- AIが改善すべき特定のワークフローを定義する
- ベースライン(AIなしの現状)を記録する(購入90日後のSaaS ROI測定を参照)
- 事前合意した成功指標を設定する:精度、時間節約、人間レビュー率
- POC環境のデータ要件を確認する
第1〜2週:管理された検証
- 代表的なサンプルデータでAI機能を実行する
- 事前合意した定義に基づいて精度を測定する
- 失敗ケースとレビュー率を記録する
第3週:エッジケースの検証
- 不完全または不規則な入力で意図的にテストする
- 精度がどのように低下するかを測定する
- プロダクトが確信度の低い出力を適切に示すかどうかを記録する
第4週:ワークフロー統合
- 模擬本番ワークフローでAI機能をテストする
- 実際の時間節約を測定する(推定ではなく)
- 毎日使用するチームメンバー2〜3名からフィードバックを得る
POC成功基準: AI機能が事前合意した精度基準と時間節約目標を満たしていれば、購入決定を支持する証拠があります。満たしていなければ、スコープを再交渉するか、見送るための証拠があります。
AIマーケティング用語の解読
| vendorの言葉 | 実際の意味が多いこと |
|---|---|
| 「AI搭載」 | プロダクトにAI APIコールが少なくとも1つある |
| 「機械学習駆動」 | 統計的要素を持つルールベースシステム |
| 「独自AI」 | ゼロから構築したシステムではなく、公開モデルのファインチューニング版かもしれない |
| 「数十億データポイントで学習」 | 公開データで学習した基盤モデルを使用 |
| 「業界特化型AI」 | 一部のドメインデータでファインチューニング済み。量と品質は不明 |
| 「インテリジェント自動化」 | 条件ロジックを持つ自動化 |
| 「AIアシスタント」 | チャットボット。多くはカスタムプロンプトを持つGPTベース |
| 「予測インサイト」 | 統計的予測。精度は大きく異なる |
| 「リアルタイムAI」 | ユーザーセッション中に行われるAPIコール。事前計算ではない |
| 「ハルシネーションゼロ保証」 | RAGシステム。ハルシネーションを削減するが排除しない |
ReworkのAI機能に対する考え方
Reworkは、購入者の判断を置き換えるのではなく、購入者の業務を補助するAI機能を提供しています。Rework CRMとSales Ops(1ユーザー月額12ドル〜)の内部では、AIがフォローアップメールの下書きを作成し、商談履歴を要約し、停滞したPipelineを可視化しますが、人間が常にレビューして送信します。営業の信頼は人間が結ぶ契約だからです。Rework Work Ops(1ユーザー月額6ドル〜)では、AIが入力タスクを分類し、ワークロードに基づいて担当者を提案し、ステータス更新の下書きを作成しますが、人間が承認して結果に責任を持ちます。モデル層についても透明性を保っています。基盤モデルをAPIで使用し、何のデータが推論に使われるかを記録し(顧客データを共有モデルの学習には使用しません)、デモセットのベンチマークではなくオンボーディング時に顧客データで精度を測定します。私たちのスタンスは、AIキャプチャーテストは自社にも適用されるというものです。「AI搭載」とすべての機能に貼り付けるよりも、なくても同じように機能するようなAI機能は提供せず、少数の誠実なAI機能を提供することを選びます。
よくある質問
参考情報
- ミッドマーケット購入者向けの購入前vendorデューデリジェンスチェックリスト:AI評価を広範なデューデリジェンスフレームワークに組み込む方法
- セキュリティとコンプライアンスレビュー:ミッドマーケット購入者が実際に確認すべきこと:AIツール向けの拡張セキュリティ層
- 購入者向けのSOC 2、ISO 27001、GDPR:それぞれが実際にカバーすること:AIデータ処理に関するGDPR DPA要件
- SaaS契約の警戒すべき点:監視すべき自動更新、利用上限、契約終了条項:監視すべきAI固有の契約条項
- AIレディネス評価テンプレート:AI SaaSを購入する前に組織のAI導入準備状況を評価する方法
- 購入90日後のSaaS ROI測定:AIツールを展開する前にベースライン測定を設定してROI主張を検証可能にする方法

Head of Enterprise Solutions