データアナリストのツールとテックスタック:実価格で見る正直な6層構造
Turn this article into takeaways for your work.
Each assistant summarizes the article only for you and suggests best practices for your work.
昨年Series Bの企業に入社し、3つのBIツール、パスワードを誰も覚えていない2つのreverse-ETLベンダー、エントリが11件しかない「データカタログ」、そして週に1枚のSlackスクリーンショットしか生み出さない年間480万円の請求書を引き継ぎました。Lookerのライセンスだけで624万円。Lookerは12のダッシュボードをレンダリングしていました。そのうち2つが過去90日間に開かれました。そのうちの1つはダッシュボードがまだ動いているか確認した私自身のものでした。
その瞬間、「モダンデータスタック」が実際に何を意味するかを学びました:まだ明細を擁護することを強いられていないアナリストにベンダーが売るロゴの詰め合わせ。napkinにスタックを描いてdbtを聞いたこともないCFOに各層を正当化できないなら、予算の戦いで負けます。そして予算の戦いは必ずやってきます。
だから、正直なバージョンをお伝えします。6層。実価格。ほとんどのスタックから削除する私のベンダー。そして次の更新にサインする前に実施できる30日間の監査。
なぜ今これが重要なのか
話すCFOは全員同じ質問をしています:「人員が横ばいなのに、なぜアナリクスのツール支出が前年比40%増えているのか?」答えはたいてい、誰かがPostgresで十分な時にSnowflakeを買い、別の誰かが面接で出てきたからとLookerを買い、3人目がPythonスクリプトを誰も管理したくなかった古いエンジニアが去った後にFivetranを追加したからです。
これらの決定はどれも個別には間違っていませんでした。問題はスタック全体を担当する人がいないことです。ツールの支出はCFOが最も問いやすく、アナリストが最も下手に擁護しやすい明細です。「なぜこれがあるのか」への答えが「前の人が設定したから」なら、すでに負けています。
擁護できるスタックには共通の特徴が一つあります:すべてのツールが正確に一つの層にマッピングされ、すべての層がその席を勝ち取っています。6層で十分です。
コアとなる6層(その他はすべてオプション)
1. データウェアハウス
これが基盤です。間違えると次の3層のコストが3倍になります。
- Snowflake:エディションと地域によって1クレジットあたり約240〜480円の使用量ベース。スパイクのあるワークロードとチーム全体のSQLアクセスには優れています。データウェアハウスの自動一時停止を60秒に設定し、アドホックな作業では全員をX-Smallに制限しないと過剰支出しやすい。一つの問題のあるdbtの実行で週末に約96,000円を消費したケースを見たことがあります。
- BigQuery:オンデマンドでスキャンしたTBあたり750円のクエリ課金、または予測可能な負荷がある場合はスロットのコミット。トラフィックが本当にスパイクがあり、コンピュートを管理したくない場合に優れています。スロットモデルは初回者には混乱しやすいです。コミットする前にドキュメントを読んでください。
- Redshift:リザーブドインスタンスにコミットすれば安い、そうでなければ辛い。リザーブドインスタンスはノードあたり約1時間30円から始まります。クラスターモデルはSnowflake/BigQueryと比較して古く感じますが、すでにAWS上にあってDEチームが熟知しているなら擁護できます。
- Postgres:1TB未満では依然として正しい答えです。それを謝るのをやめてください。RDSまたはSupabase上のマネージドPostgresインスタンスは月6,000〜60,000円で動き、中期段階のアナリストチームが実際にクエリするすべてを処理します。1TB未満のワークロードでSnowflakeが正当化されるケースを見たことがありません。一度も。
決定ツリー:500GB未満はPostgres。スパイクのある負荷で500GB〜5TBはBigQueryまたはSnowflake。5TBを超えるか高い同時接続ユーザーがいる場合はSnowflake。50TBを超えてDEチームがいてコミットできるならRedshift。
2. ELT/インジェスト
データをデータウェアハウスに取り込むことです。「モダンスタック」の予算の多くがここで密かに爆発します。
- Fivetran:Monthly Active Rowsに応じて月12万〜120万円。機能するときは素晴らしい。コネクタが壊れてサポートを2日間待つときは高価です。価格モデル(MAR)が不透明で、MARを有効にしたSalesforceの同期が高負荷になったことで月144,000円の請求が一四半期で936,000円に跳ね上がったケースを見ています。
- Airbyte:オープンソース、セルフホストなら無料。クラウドバージョンは低ボリュームで月約43,200円から。小さなEC2またはGKEクラスター上のセルフホストはインフラで月約24,000円かかります。トレードオフ:深夜11時に問題を修正することになります。やったことがあります。それなりのDEまたは優秀なアナリティクスエンジニアがいれば大丈夫です。チームが運用できないのに「無料」だと言わないでください。
- Stitch:中間層、衰退中。すでに持っているなら悪くない。新しい環境では始めません。
私のデフォルト:本当に重要なトップ5〜10のコネクター(Salesforce、HubSpot、Stripe、NetSuite、Postgresのレプリカ)にはFivetran。他の誰も気にしない長い尾のAPI群にはAirbyte。同じソースに対してこれらを同時に2つ使わないでください。選んでください。
3. 変換
この層は決着がついています。dbtです。探し続けるのをやめてください。
- dbt Core:無料、オープンソース。Pythonが動く場所ならどこでも動きます。ほとんどのアナリストチームはここから始めるべきです。
- dbt Cloud:Teamティアで開発者1人あたり月6,000円、Enterpriseで月36,000円。IDEとスケジューラー、ドキュメントホスティング、CIインテグレーションのために払っています。データエンジニアを持たない3人以上のアナリストチームには価値があります。AirflowまたはDagsterを組み立てる意志のあるDEがいる場合はスキップしてください。dbt CoreをAirflow上で実行するのは問題なく、AirflowはAirflowで無料です。
唯一の正当な代替はSQLMeshで、dbtのフルリフレッシュパターンが問題になるスケールにある場合のみです。100モデル未満のほとんどの環境では、それはあなたではありません。
4. BI/ダッシュボード
最も過剰購入される層です。ほとんどのチームは2つのBIツールを持っています。Tableauの職場から来た人と、Lookerの職場から来た人が選択を強いられなかったからです。
- Looker:エンタープライズ価格、公開見積もりでは年600万円以上で急速に値上がりしています。セマンティックレイヤー(LookML)が強みです。スケールでガバナンスが実際に機能する唯一のBIツールです。構築する本物のセマンティックレイヤーと維持する人がいるまで購入しないでください。LookMLオーナーなしでLookerを購入するのは、ガレージで運転するフェラーリを買うようなものです。
- Tableau:Creatorが月1人あたり9,000円、Explorerが5,040円、Viewerが1,800円。まだ市場で最も美しいダッシュボードです。ガバナンスとバージョン管理は辛い。仕上がりを気にするエグゼクティブ向けには良い。
- Hex:ティアに応じて月1人あたり4,800〜9,600円。ノートブックとダッシュボードが一つのアプリに。アナリストが時間の半分をSQLの調査に、半分をステークホルダー向けレポートに費やす場合に正しい選択です。「私にはJupyter、彼らにはTableau」の分離を置き換えます。
- Metabase:オープンソース、セルフホストは無料。Cloud Proは5ユーザーで月10,200円から。Series AおよびそれよりEarlyの正しい答えです。正直、多くのSeries Bでも正しい答えです。セマンティックレイヤーのニーズがまだない企業で、Metabaseが480万円のLookerライセンスを上回るパフォーマンスを発揮するケースを見てきました。
私のルール:BIツールは一つ。ARR 12億円未満ならMetabase。LookMLオーナーとガバナンスを求めるエグゼクティブがいるならLooker。アナリストがノートブックファーストならHex。リーダーシップが特に求めた場合はTableau。他は後悔する更新です。
5. ノートブック/調査
ダッシュボードになる前に、アナリストが実際に混乱した考えをする場所です。
- Jupyter:無料、ローカル、永遠に動く。デフォルト。VS Codeと合わせれば完璧です。
- Hex:BIのために購入していれば、すでにあります。一つのツールで2つの層を解決します。これがHexの価格が一部のチームで採算の合う理由の一部です。
- Deepnote:無料ティアが寛大。有料プランは月1人あたり4,680円から。強力な共同編集。チームが本当にノートブックを共同編集するなら価値があります;全員が個別に作業するなら魅力が薄い。
BIのためにHexを購入した場合、Deepnoteを追加しないでください。そうでなければ、Jupyterで十分です。
6. チケット/依頼受付
ほとんどのアナリストが層として考えない層です。層です。
- Jira、Notion、またはLinear:一つ選んでください。エンジニアリングチームが使っているものなら通常問題ありません。ポイントはツールではありません。Slackのダイレクトメッセージを依頼受付チャンネルとして廃止することです。
アナリクス依頼のためのSlack DMは、キューなし、優先順位なし、監査証跡なし、そして6時間かかる無限の「ちょっとした質問」を生み出します。本物の依頼受付ツールはキュー、SLA、記録を提供します。ツールとして扱ってください。
CRM/販売データ:ほとんどのアナリストが予算を下回る層
あまり議論されない現実を一つ:アナリストが格闘する「データ品質」の問題の半分は、下流に押し込まれたCRMの衛生の問題です。opsが「クリーンなB2Bデータ」を求めると、標準的な答えはSalesforceのエクスポートを4つのdbtトランスフォーメーションを通じてパイプし、連絡先を重複排除し、会社名を正規化し、電話形式を修正し、欠けている業種コードを補完することです。
それはデータエンジニアリングではありません。書き込み時に衛生を強制しなかったCRMの補償です。
ReworkはCRMとSales Opsで1ユーザーあたり月1,440円から始まり、クリーンなB2Bの連絡先とパイプラインデータをデータウェアハウスに直接エクスポートします。データが依頼受付時点で構造化されているため(必須フィールド、検証済みフォーマット、書き込み時の重複排除)、dbtで行うクリーンアップ作業がほぼなくなります。Salesforceと4つのクリーンアップモデルからチームを移行させ、dbtのビルド時間が22分から6分に短縮されるのを見てきました。
これは「Reworkがどこでも勝つ」という売り込みではありません。12人の管理者を持つ500人規模の組織でSalesforceを使っているなら、明日乗り換えません。しかし、「いつかSalesforceを買うべき」が計画の段階にあるなら、まずReworkで計算してください。節約はライセンスコストだけでなく、dbtモデル数にも現れます。
30日間のスタック監査(何かを買う前に実施してください)
すべてのアナリストは年に一度これを実施すべきです。初週に元が取れます。
1〜3日目:棚卸し。 すべてのツール、すべてのシート、すべての月次請求書を列挙します。AP台帳を取得してください。クレジットカードの明細を見つけてください。ほとんどのチームは初週に年間120万〜360万円分のシェルフウェアを発見します。誰も使っていないSnowflakeのリーダーアカウント。11月に退職したアナリストのTableauシート。一四半期reverse-ETLを試みたときのCensusサブスクリプション。
4〜10日目:マッピング。 各ツールを上記の層にマッピングします。マッピングされないものは、契約を担当する人に「なぜこれが存在するのか」というインタビューをします。2文で答えられなければ、廃止候補です。
11〜20日目:重複を見つける。 2つのBIツール。2つのELTツール。3つの自称「データカタログ」。1層あたり1つを選んでください。重複が廃止対象です。
21〜30日目:廃止リストを書く。 具体的な金額。具体的な理由。領収書をHead of Dataに提示してください。代替の移行計画も持参してください。たとえ「Metabaseに移行、こちらがタイムライン」だけでも。Head of Dataは曖昧な廃止リストが嫌いです。代替計画のある具体的なリストが好きです。
CFOへの成果物となるnapkin上のスタック図:
ソースシステム → ELT(Fivetran) → データウェアハウス(PostgresまたはSnowflake) → dbt → BI(1ツール) → ステークホルダー
↑
CRM(Rework)
クリーンな
データをここへ
依頼受付(Jira)がキューを管理する。
napkinにそれ以上のボックスが必要なら、作りすぎです。
廃止リスト(私がほとんどのスタックから削除するベンダー)
- 3つの出力先しかない場合のreverse-ETL。 HightouchとCensusは本物のプロダクトですが、SalesforceとHubSpotにデータをパイプしているだけなら、年288万円のツールは必要ありません。Pythonスクリプトを書いてください。dbt CloudまたはAirflowでスケジュールしてください。先に進んでください。
- 50テーブル未満のデータカタログ。 Atlan、Alation、Colliblaはスケールでは素晴らしい。50テーブル未満なら、Notionのページが上回り、コストゼロです。カタログはどのテーブルを使えばよいか誰も検索なしに見つけられなくなって初めて席を得ます。
- SQLエディターにGPTをラップした「AI搭載」のもの。 5つを評価しました。すべてが微妙に間違ったもっともらしいSQLを生成します。アナリストはそれを修正するのに、自分でSQLを書くより時間がかかります。18ヶ月待ってください。
- 12のdbtモデルがある場合の可観測性ツール。 Monte Carlo、Bigeye、Elementaryはスケールでは理にかなっています。12のモデルでは、「可観測性層」はdbtのテストスイートとSlackアラートです。それは無料です。
よくある失敗
セマンティックレイヤーなしにLookerを購入する。 毎四半期これを見ます。チームがガバナンスのストーリーのためにLookerを買い、スタッフの誰もLookMLを知らないことに気づき、セマンティックレイヤーを構築するために時給24,000円のコンサルタントを雇います。2年後も意図した通りの使い方ができていません。
200GBのワークロードにSnowflakeを選ぶ。 PostgresはRDSのインスタンスで月24,000円で200GBを処理します。Snowflakeはコンピュート、ストレージ、一時停止を忘れたデータウェアハウスを考慮すると最低月240,000円かかります。データが500ドルのサーバーのRAMに収まるなら、まだクラウドデータウェアハウスは必要ありません。
dbt Cloudを必須として扱う。 必須ではありません。dbt CoreとAirflowと無料のGitLab CIランナーで、dbt Cloudの90%を0%のコストで得られます。失う10%はIDEとドキュメントサイトです。どちらも素晴らしい。どちらも必須ではありません。
すべてのチームが独自のBIツールを購入することを許可する。 MarketingがTableauを買います。SalesがLookerを買います。ProductがHexを買います。これで3つのセマンティックレイヤー、不一致の3セットのダッシュボード、3つの更新交渉が発生します。BIツールは一つ。強硬に交渉してください。チームに適応させてください。
成功の測定
監査が完了したとき:
- アナリクス予算のすべての明細、すべての月次価格、それが対応する層を挙げられます。
- アナリスト1人あたりのツール支出がベンチマークされています(私の目標:データウェアハウス以下のすべてに対してアナリスト1人あたり年960,000〜1,800,000円、プラスデータウェアハウスのコンピュート。アナリスト1人あたり3,000,000円を超えているなら、何かが間違っています)。
- スタックの中で「前の人が設定したから」存在するものが何もない。
それが基準です。6層、実価格、dbtを聞いたことのないCFOへの擁護可能性。そのパラグラフを即座に書けるなら、予算を守ります。書けないなら、守れません。
関連記事

Principal Product Marketing Strategist