Alat dan Timbunan Teknologi Data Analyst: Binaan 6 Lapisan yang Jujur (Dengan Harga Sebenar)
Turn this article into takeaways for your work.
Each assistant summarizes the article only for you and suggests best practices for your work.
Saya menyertai sebuah syarikat Siri B tahun lalu dan mewarisi timbunan dengan tiga alat BI, dua vendor ETL terbalik yang tiada siapa ingat kata laluannya, sebuah "katalog data" dengan sebelas entri di dalamnya, dan bil tahunan $40 ribu yang menghasilkan tepat satu tangkap skrin Slack mingguan. Lesen Looker sahaja bernilai $52 ribu. Looker merender dua belas papan pemuka. Dua daripadanya dibuka dalam 90 hari sebelumnya. Satu daripadanya adalah milik saya, menyemak sama ada papan pemuka itu masih berfungsi.
Itulah saat saya mempelajari apa yang "timbunan data moden" sebenarnya bermakna: sup logo yang vendor jual kepada analyst yang belum dipaksa untuk mempertahankan item baris itu. Jika anda tidak boleh melukis timbunan anda pada serbet dan mewajarkan setiap lapisan kepada CFO yang tidak pernah mendengar tentang dbt, anda akan kalah dalam pertempuran bajet, dan pertempuran bajet itu akan datang.
Jadi inilah versi yang jujur. Enam lapisan. Harga sebenar. Vendor yang akan saya singkirkan dari kebanyakan timbunan. Dan audit 30 hari yang boleh anda jalankan sebelum anda menandatangani pembaharuan lain.
Mengapa perkara ini penting sekarang
Setiap CFO yang saya temui bertanya soalan yang sama: "Mengapa perbelanjaan perkakas analitik kita meningkat 40% tahun ke tahun apabila headcount kita rata?" Jawapannya biasanya seseorang membeli Snowflake apabila Postgres sepatutnya berfungsi, orang lain membeli Looker kerana ia muncul dalam temuduga, dan orang ketiga menambah Fivetran kerana jurutera lama berhenti dan tiada siapa mahu menyelenggara skrip Python itu.
Tiada keputusan tersebut yang salah secara berasingan. Masalahnya ialah tiada siapa yang memiliki keseluruhan timbunan itu. Perbelanjaan perkakas adalah item baris yang paling mudah untuk CFO soalkan dan yang paling mudah untuk analyst pertahankan dengan buruk. Jika jawapan anda kepada "mengapa kita ada ini?" ialah "kerana orang terakhir yang menetapkannya," anda sudah kalah.
Timbunan yang boleh dipertahankan mempunyai satu ciri yang sama: setiap alat dipetakan kepada tepat satu lapisan, dan setiap lapisan layak mendapat tempatnya. Enam lapisan sudah mencukupi.
6 lapisan teras (segalanya yang lain adalah pilihan)
1. Gudang data
Ini adalah asasnya. Pilih dengan salah dan tiga lapisan seterusnya menelan kos 3 kali ganda yang sepatutnya.
- Snowflake: berasaskan penggunaan, lebih kurang $2-$4 per kredit bergantung pada edisi dan wilayah anda. Hebat untuk beban kerja yang tidak menentu dan akses SQL seluruh pasukan. Mudah terlebih belanja jika anda tidak menetapkan penangguhan automatik gudang kepada 60 saat dan memaksa semua orang kepada X-Small untuk kerja ad hoc. Saya pernah melihat satu pelarian dbt yang bermasalah membakar $800 dalam hujung minggu.
- BigQuery: bayar setiap pertanyaan pada $6.25/TB yang diimbas (atas permintaan), atau komit slot jika anda mempunyai beban yang boleh diramalkan. Bagus jika trafik anda benar-benar tidak menentu dan anda tidak mahu mengurus pengiraan. Model slot mengelirukan untuk pengguna baru. Baca dokumen sebelum anda berkomitmen.
- Redshift: murah jika anda berkomitmen kepada contoh yang ditempah, menyakitkan jika tidak. Contoh yang ditempah bermula sekitar $0.25/nod/jam dan ke atas. Model kluster terasa lapuk berbanding Snowflake/BigQuery, tetapi jika kedai anda sudah menggunakan AWS dan pasukan DE anda mengetahuinya, ia boleh dipertahankan.
- Postgres: masih jawapan yang betul di bawah 1TB. Hentikan meminta maaf kerana menggunakannya. Contoh Postgres yang diurus pada RDS atau Supabase berharga $50-$500/bulan dan mengendalikan semua yang pasukan analyst peringkat pertengahan sebenarnya tanyakan. Saya tidak pernah melihat beban kerja sub-1TB yang mewajarkan Snowflake. Tidak pernah sekali pun.
Pokok keputusan: di bawah 500GB, Postgres. 500GB-5TB dengan beban tidak menentu, BigQuery atau Snowflake. Melebihi 5TB atau pengguna serentak yang ramai, Snowflake. Melebihi 50TB dan anda mempunyai pasukan DE, Redshift jika anda akan berkomitmen.
2. ELT / pengambilan data
Memasukkan data ke dalam gudang. Di sinilah banyak bajet "timbunan moden" secara senyap meledak.
- Fivetran: $1 ribu-$10 ribu/bulan bergantung pada Baris Aktif Bulanan. Hebat apabila ia berfungsi. Mahal apabila penyambung rosak dan anda menghabiskan dua hari menunggu sokongan. Model harga mereka (MAR) cukup tidak telus sehingga saya pernah melihat bil $1,200/bln melompat ke $7,800 dalam satu suku tahun kerana seseorang mengaktifkan penyegerakan Salesforce yang banyak menggunakan data.
- Airbyte: sumber terbuka, percuma jika anda mengehoskannya sendiri. Versi Cloud bermula sekitar $360/bulan untuk volum rendah. Pengehosan sendiri pada kluster EC2 atau GKE yang kecil berharga lebih kurang $200/bulan dalam infrastruktur. Pertukaran itu: anda akan membaiki perkara pada pukul 11 malam. Saya pernah melakukannya. Tidak mengapa jika anda mempunyai DE yang cukup baik atau jurutera analitik yang kukuh. Jangan berpura-pura ia "percuma" jika pasukan anda tidak boleh mengendalikannya.
- Stitch: pertengahan, semakin pudar. Baik jika anda sudah memilikinya. Saya tidak akan memulakan kedai baharu dengannya.
Lalai saya: Fivetran untuk 5-10 penyambung teratas yang benar-benar penting (Salesforce, HubSpot, Stripe, NetSuite, replika Postgres). Airbyte untuk ekor panjang API pelik yang tiada siapa lain ambil peduli. Jangan jalankan dua ini serentak untuk sumber yang sama. Pilih satu.
3. Transformasi
Lapisan ini sudah diselesaikan. Ia adalah dbt. Hentikan membeli-belah.
- dbt Core: percuma, sumber terbuka. Berjalan di mana sahaja anda boleh menjalankan Python. Kebanyakan pasukan analyst patut bermula di sini.
- dbt Cloud: $50/pembangun/bulan untuk peringkat Team, $300/pembangun/bulan untuk Enterprise. Anda membayar untuk IDE, penjadual, pengehosan dokumen, dan integrasi CI. Berbaloi untuk pasukan 3+ analyst yang tidak mempunyai jurutera data. Langkau jika anda mempunyai DE yang sanggup menyambung Airflow atau Dagster. Menjalankan dbt Core pada Airflow adalah baik, dan Airflow sendiri adalah percuma.
Satu-satunya alternatif yang sah adalah SQLMesh, dan hanya jika anda berada pada skala di mana corak penyegaran penuh dbt menyebabkan masalah. Untuk kebanyakan kedai di bawah 100 model, itu bukan anda.
4. BI / papan pemuka
Lapisan yang paling banyak dibeli-belah. Kebanyakan pasukan mempunyai dua alat BI kerana seseorang menyertai dari kedai Tableau dan orang lain dari kedai Looker dan tiada siapa yang memaksa mereka untuk memilih.
- Looker: harga perusahaan, anggaran awam menampatkannya pada $50 ribu ke atas setahun dan meningkat dengan cepat. Lapisan semantik (LookML) adalah kelebihan pertahanannya. Ia adalah satu-satunya alat BI di mana tadbir urus benar-benar berfungsi pada skala. Jangan belinya sehingga anda mempunyai lapisan semantik yang sebenar untuk dibina dan orang untuk menyelenggarakannya. Membeli Looker tanpa pemilik LookML adalah seperti membeli Ferrari untuk dipandu dalam garaj.
- Tableau: $75/pengguna/bulan untuk Pencipta, $42 untuk Penjelajah, $15 untuk Pemapar. Masih papan pemuka yang paling cantik di pasaran. Menyakitkan untuk tadbir urus dan kawalan versi. Bagus jika khalayak anda adalah eksekutif yang mengambil berat tentang keindahan.
- Hex: $40-$80/pengguna/bulan bergantung pada peringkat. Buku nota ditambah papan pemuka dalam satu aplikasi. Pilihan yang betul jika analyst anda menghabiskan separuh masa dalam penerokaan SQL dan separuh dalam laporan berhadapan pihak berkepentingan. Menggantikan pemisahan "Jupyter untuk saya, Tableau untuk mereka."
- Metabase: sumber terbuka, pengehosan sendiri percuma. Cloud Pro bermula pada $85/bulan untuk 5 pengguna. Jawapan yang betul untuk Siri A dan lebih awal. Sejujurnya, jawapan yang betul untuk banyak Siri B juga. Saya pernah melihat Metabase mengatasi lesen Looker $40 ribu di syarikat yang belum mempunyai keperluan lapisan semantik lagi.
Peraturan saya: satu alat BI. Jika anda di bawah $10 juta ARR, Metabase. Jika anda mempunyai pemilik LookML dan eksekutif yang menuntut tadbir urus, Looker. Jika analyst anda mengutamakan buku nota, Hex. Tableau jika pimpinan khusus memintanya. Apa-apa yang lain adalah pembaharuan yang akan anda sesali.
5. Buku nota / penerokaan
Di mana analyst sebenarnya melakukan pemikiran yang kurang kemas sebelum ia menjadi papan pemuka.
- Jupyter: percuma, tempatan, berfungsi selama-lamanya. Lalai. Padankan dengan VS Code dan anda sudah bersedia.
- Hex: sudah ada dalam buku anda jika anda membelinya untuk BI. Membunuh dua lapisan dengan satu alat. Inilah sebahagian daripada sebab penetapan harga Hex menguntungkan untuk sesetengah pasukan.
- Deepnote: peringkat percuma adalah murah hati. Pelan berbayar bermula pada $39/pengguna/bulan. Penyuntingan kolaboratif yang kukuh. Berbaloi jika pasukan anda benar-benar menyunting buku nota bersama; kurang menarik jika semua orang bekerja secara bersendirian.
Jika anda membeli Hex untuk BI, jangan tambah Deepnote. Jika tidak, Jupyter sudah mencukupi.
6. Tiket / pengambilan
Lapisan yang kebanyakan analyst tidak anggap sebagai lapisan. Ia adalah lapisan.
- Jira, Notion, atau Linear: pilih satu. Apa yang digunakan pasukan jurutera biasanya baik. Intinya bukan alatnya. Intinya adalah membunuh DM Slack sebagai saluran pengambilan.
DM Slack sebagai pengambilan analitik tidak menghasilkan barisan, keutamaan, jejak audit, dan soalan pantas yang tidak terhad yang mengambil masa enam jam. Alat pengambilan yang sebenar memberi anda barisan, SLA, dan rekod. Perlakukan ia seperti alat.
Data CRM / jualan, lapisan yang kebanyakan analyst terlebihi bajet
Inilah realiti yang kurang dibincangkan: separuh masalah "kualiti data" yang analyst hadapi adalah masalah kebersihan CRM yang ditolak ke hiliran. Apabila operasi meminta "data B2B yang bersih," jawapan standard adalah menghantar eksport Salesforce melalui empat transformasi dbt untuk menduplikasikan kenalan, menormalkan nama syarikat, membetulkan format telefon, dan menampal kod industri yang hilang.
Itu bukan kejuruteraan data. Itu mengimbangi CRM yang tidak menguatkuasakan kebersihan semasa penulisan.
Rework bermula pada $12/pengguna/bulan untuk CRM dan Ops Jualan dan mengeksport data kenalan dan pipeline B2B yang bersih terus ke gudang data anda. Lulus pembersihan yang sebaliknya anda akan lakukan dalam dbt sebahagian besarnya hilang kerana data berstruktur semasa pengambilan (medan diperlukan, format yang disahkan, penyahduplikatan semasa penulisan). Saya telah memindahkan pasukan dari Salesforce-ditambah-empat-model-pembersihan dan menyaksikan masa binaan dbt mereka turun dari 22 minit ke 6 minit.
Ini bukan nada "Rework menang di mana-mana." Jika anda menjalankan Salesforce di organisasi 500 orang dengan 12 pentadbir, anda tidak akan beralih esok. Tetapi jika anda berada pada peringkat di mana "kita patut beli Salesforce suatu hari nanti" adalah rancangannya, buat kiraan tentang Rework dahulu. Penjimatan muncul dalam bilangan model dbt, bukan hanya kos lesen.
Audit timbunan 30 hari (lakukan ini sebelum anda membeli apa-apa)
Setiap analyst patut menjalankan ini sekali setahun. Ia membayar dirinya dalam minggu pertama.
Hari 1-3, Inventori. Senaraikan setiap alat, setiap tempat duduk, setiap bil bulanan. Tarik lejar AP. Cari penyata kad kredit. Kebanyakan pasukan menemui $10 ribu-$30 ribu/tahun dalam perisian yang tidak digunakan dalam minggu pertama. Akaun pembaca Snowflake yang tiada siapa gunakan. Tempat duduk Tableau untuk analyst yang berhenti pada November. Langganan Census dari masa anda mencuba ETL terbalik selama satu suku tahun.
Hari 4-10, peta. Petakan setiap alat kepada lapisan di atas. Apa-apa yang tidak dipetakan mendapat temu bual "mengapa ini wujud?" dengan sesiapa yang memiliki kontrak itu. Jika mereka tidak dapat menjawab dalam dua ayat, ia adalah calon untuk disingkirkan.
Hari 11-20, cari duplikat. Dua alat BI. Dua alat ELT. Tiga perkara yang memanggil diri mereka "katalog data." Pilih satu setiap lapisan. Duplikat adalah yang perlu disingkirkan.
Hari 21-30, tulis senarai singkiran. Jumlah ringgit yang konkrit. Alasan yang konkrit. Bentangkan kepada ketua data dengan bukti. Bawa rancangan penghijrahan alternatif, walaupun ia hanya "berpindah ke Metabase, inilah jadualnya." Ketua data membenci senarai singkiran yang samar. Mereka menyukai yang spesifik dengan rancangan penggantian.
Diagram timbunan pada serbet (hasil kerja kepada CFO anda):
Sistem sumber → ELT (Fivetran) → Gudang (Postgres atau Snowflake) → dbt → BI (satu alat) → Pihak Berkepentingan
↑
CRM (Rework)
menghantar data
yang bersih ke sini
Pengambilan (Jira) mengurus barisan.
Jika serbet anda memerlukan lebih banyak kotak daripada itu, anda terlalu membina.
Senarai singkiran (vendor yang akan saya singkirkan dari kebanyakan timbunan)
- ETL terbalik apabila anda mempunyai 3 destinasi. Hightouch dan Census adalah produk yang nyata, tetapi jika anda menghantar data ke Salesforce dan HubSpot dan itu sahaja, anda tidak memerlukan alat bernilai $24 ribu setahun. Tulis skrip Python. Jadualkan dalam dbt Cloud atau Airflow. Teruskan.
- Katalog data di bawah 50 jadual. Atlan, Alation, Collibra hebat pada skala. Di bawah 50 jadual, halaman Notion mengalahkan mereka dan tidak menelan kos apa-apa. Katalog hanya mendapat tempatnya apabila tiada siapa boleh mencari jadual yang betul tanpanya.
- Apa-apa yang "dikuasakan AI" yang membungkus GPT di sekeliling editor SQL. Saya telah menilai lima daripadanya. Semuanya menghasilkan SQL yang kelihatan munasabah yang silap dengan cara yang halus. Analyst anda akan menghabiskan lebih banyak masa membetulkan mereka daripada menulis SQL sendiri. Tunggu 18 bulan.
- Alat pemerhatian apabila anda mempunyai 12 model dbt. Monte Carlo, Bigeye, Elementary pada skala adalah masuk akal. Dengan 12 model, "lapisan pemerhatian" anda adalah suite ujian dbt dan amaran Slack. Itu percuma.
Perangkap biasa
Membeli Looker sebelum anda mempunyai lapisan semantik. Saya melihat ini setiap suku tahun. Satu pasukan membeli Looker untuk kisah tadbir urus, kemudian menyedari tiada siapa dalam kakitangan yang mengetahui LookML, kemudian membayar perunding $200/jam untuk membina lapisan semantik. Dua tahun kemudian mereka masih tidak menggunakannya seperti yang Looker inginkan.
Memilih Snowflake untuk beban kerja 200GB. Postgres mengendalikan 200GB pada contoh RDS bernilai $200/bulan. Snowflake mengendalikannya dengan minimum $2 ribu/bulan setelah anda mengira pengiraan, storan, dan gudang yang orang terlupa untuk digantung. Jika data anda muat dalam RAM pada pelayan bernilai $500, anda belum memerlukan gudang awan lagi.
Menganggap dbt Cloud sebagai wajib. Bukan. dbt Core ditambah Airflow ditambah pelari GitLab CI percuma memberikan anda 90% daripada dbt Cloud dengan 0% daripada kosnya. 10% yang anda kehilangan adalah IDE dan tapak dokumentasi. Kedua-duanya bagus. Tiada satu pun yang wajib.
Membiarkan setiap pasukan membeli alat BI sendiri. Pemasaran membeli Tableau. Jualan membeli Looker. Produk membeli Hex. Kini anda mempunyai tiga lapisan semantik, tiga set papan pemuka yang tidak bersetuju, dan tiga pembaharuan untuk diperjuangkan. Satu alat BI. Runding dengan keras. Buat pasukan menyesuaikan diri.
Mengukur kejayaan
Anda selesai mengaudit apabila:
- Anda boleh menamakan setiap item baris dalam bajet analitik, setiap harga bulanan, dan setiap lapisan yang dilayaninya.
- Perbelanjaan perkakas per analyst dibandingkan dengan penanda aras. (Sasaran saya: $8 ribu-$15 ribu per analyst setahun untuk segala-galanya di bawah gudang, ditambah pengiraan gudang. Jika anda melebihi $25 ribu per analyst, ada sesuatu yang silap.)
- Tiada apa-apa dalam timbunan anda yang wujud "kerana orang terakhir yang menetapkannya."
Itulah ukurannya. Enam lapisan, harga sebenar, boleh dipertahankan kepada CFO yang tidak pernah mendengar tentang dbt. Jika anda boleh menulis perenggan itu secara dingin, anda akan mengekalkan bajet itu. Jika tidak, anda tidak akan.
Ketahui Lebih Lanjut

Principal Product Marketing Strategist
On this page
- Mengapa perkara ini penting sekarang
- 6 lapisan teras (segalanya yang lain adalah pilihan)
- 1. Gudang data
- 2. ELT / pengambilan data
- 3. Transformasi
- 4. BI / papan pemuka
- 5. Buku nota / penerokaan
- 6. Tiket / pengambilan
- Data CRM / jualan, lapisan yang kebanyakan analyst terlebihi bajet
- Audit timbunan 30 hari (lakukan ini sebelum anda membeli apa-apa)
- Senarai singkiran (vendor yang akan saya singkirkan dari kebanyakan timbunan)
- Perangkap biasa
- Mengukur kejayaan
- Ketahui Lebih Lanjut