Bahasa Indonesia
Alat dan Tech Stack Data Analyst: Build 6 Lapis yang Jujur (Dengan Harga Nyata)
Turn this article into takeaways for your work.
Each assistant summarizes the article only for you and suggests best practices for your work.
Saya bergabung dengan sebuah startup Series B tahun lalu dan mewarisi stack dengan tiga BI tool, dua vendor reverse-ETL yang tidak diingat password-nya oleh siapa pun, sebuah "katalog data" dengan sebelas entri di dalamnya, dan tagihan tahunan $40K yang menghasilkan tepat satu screenshot Slack mingguan. Lisensi Looker saja seharga $52K. Looker menampilkan dua belas dasbor. Dua di antaranya dibuka dalam 90 hari sebelumnya. Satu adalah saya, memeriksa apakah dasbor masih berfungsi.
Itulah saat saya belajar apa arti "modern data stack" sebenarnya: sup logo yang dijual vendor kepada analyst yang belum pernah dipaksa untuk mempertahankan item baris. Jika Anda tidak bisa menggambar stack Anda di selembar serbet dan membenarkan setiap lapisnya kepada CFO yang belum pernah mendengar tentang dbt, Anda akan kalah dalam pertarungan anggaran, dan pertarungan anggaran itu akan datang.
Jadi inilah versi yang jujur. Enam lapis. Harga nyata. Vendor yang akan saya potong dari sebagian besar stack. Dan audit 30 hari yang bisa Anda jalankan sebelum menandatangani perpanjangan berikutnya.
Mengapa ini penting sekarang
Setiap CFO yang saya ajak bicara menanyakan pertanyaan yang sama: "Mengapa belanja tooling analitik kita naik 40% dari tahun ke tahun ketika headcount kita stagnan?" Jawabannya biasanya adalah seseorang membeli Snowflake ketika Postgres sudah cukup, orang lain membeli Looker karena itu muncul dalam wawancara, dan orang ketiga menambahkan Fivetran karena engineer lama pergi dan tidak ada yang ingin memelihara skrip Python.
Tidak satu pun dari keputusan itu salah secara individual. Masalahnya adalah tidak ada yang memiliki seluruh stack. Belanja tooling adalah item baris yang paling mudah dipertanyakan CFO dan paling mudah dipertahankan analyst dengan buruk. Jika jawaban Anda untuk "mengapa kita memiliki ini?" adalah "karena orang sebelumnya yang menyiapkannya," Anda sudah kalah.
Stack yang dapat dipertahankan memiliki satu sifat yang sama: setiap alat dipetakan ke tepat satu lapis, dan setiap lapis membuktikan tempatnya. Enam lapis sudah cukup.
6 lapis inti (segalanya opsional)
1. Gudang data
Ini adalah fondasi. Pilih yang salah dan tiga lapis berikutnya menghabiskan biaya 3x lebih dari yang seharusnya.
- Snowflake: berbasis penggunaan, sekitar $2-$4 per kredit tergantung edisi dan wilayah Anda. Brilian untuk beban kerja yang berfluktuasi dan akses SQL seluruh tim. Mudah menghabiskan terlalu banyak jika Anda tidak menetapkan auto-suspend gudang ke 60 detik dan memaksa semua orang ke X-Small untuk pekerjaan ad hoc. Saya pernah melihat satu run dbt yang bermasalah membakar $800 dalam seakhir pekan.
- BigQuery: bayar per kueri seharga $6,25/TB yang dipindai (on-demand), atau commit slot jika Anda memiliki beban yang dapat diprediksi. Bagus jika lalu lintas Anda benar-benar tidak menentu dan Anda tidak ingin mengelola komputasi. Model slot membingungkan bagi pemula. Baca dokumentasinya sebelum berkomitmen.
- Redshift: murah jika Anda berkomitmen pada reserved instance, menyakitkan jika tidak. Reserved instance mulai sekitar $0,25/node/jam ke atas. Model klaster terasa ketinggalan zaman dibandingkan Snowflake/BigQuery, tetapi jika toko Anda sudah menggunakan AWS dan tim DE Anda mengetahuinya dengan baik, ini bisa dipertahankan.
- Postgres: masih jawaban yang tepat di bawah 1TB. Berhenti meminta maaf karenanya. Instance Postgres yang dikelola di RDS atau Supabase berjalan $50-$500/bulan dan menangani semua yang sebenarnya dikueri tim analyst di tahap menengah. Saya tidak pernah melihat beban kerja sub-1TB yang membenarkan Snowflake. Tidak pernah sekalipun.
Pohon keputusan: di bawah 500GB, Postgres. 500GB-5TB dengan beban berfluktuasi, BigQuery atau Snowflake. Di atas 5TB atau pengguna bersamaan yang banyak, Snowflake. Di atas 50TB dan Anda memiliki tim DE, Redshift jika Anda akan berkomitmen.
2. ELT / ingestion
Memasukkan data ke gudang data. Di sinilah banyak anggaran "modern stack" diam-diam meledak.
- Fivetran: $1K-$10K/bulan tergantung pada Monthly Active Rows. Brilian ketika berfungsi. Mahal ketika konektor rusak dan Anda menghabiskan dua hari menunggu dukungan. Model harga mereka (MAR) cukup tidak transparan sehingga saya pernah melihat tagihan $1.200/bulan melompat menjadi $7.800 dalam satu kuartal karena seseorang mengaktifkan sinkronisasi Salesforce yang terlalu aktif.
- Airbyte: open-source, gratis jika Anda self-host. Versi Cloud mulai sekitar $360/bulan untuk volume rendah. Self-hosting di cluster EC2 atau GKE kecil membutuhkan sekitar $200/bulan dalam infrastruktur. Pertukaran: Anda akan memperbaiki masalah pukul 11 malam. Saya pernah melakukannya. Tidak apa-apa jika Anda memiliki DE yang cukup baik atau analytics engineer yang kuat. Jangan berpura-pura itu "gratis" jika tim Anda tidak bisa menjalankannya.
- Stitch: menengah, memudar. Layak jika Anda sudah memilikinya. Saya tidak akan memulai toko baru dengannya.
Pilihan saya secara default: Fivetran untuk 5-10 konektor teratas yang benar-benar penting (Salesforce, HubSpot, Stripe, NetSuite, replika Postgres). Airbyte untuk ekor panjang API aneh yang tidak dipedulikan siapa pun. Jangan menjalankan keduanya sekaligus untuk sumber yang sama. Pilih.
3. Transformasi
Lapis ini sudah mapan. Itu adalah dbt. Berhenti belanja.
- dbt Core: gratis, open-source. Berjalan di mana pun Anda bisa menjalankan Python. Sebagian besar tim analyst harus memulai di sini.
- dbt Cloud: $50/developer/bulan untuk tier Team, $300/developer/bulan untuk Enterprise. Anda membayar untuk IDE, penjadwal, hosting dokumentasi, dan integrasi CI. Layak untuk tim 3+ analyst yang tidak memiliki data engineer. Lewati jika Anda memiliki DE yang bersedia memasang Airflow atau Dagster. Menjalankan dbt Core di Airflow tidak apa-apa, dan Airflow sendiri gratis.
Satu-satunya alternatif yang sah adalah SQLMesh, dan hanya jika Anda berada dalam skala di mana pola full refresh dbt menyakitkan. Untuk sebagian besar toko di bawah 100 model, itu bukan Anda.
4. BI / dasbor
Lapis yang paling banyak dibeli berlebihan. Sebagian besar tim memiliki dua BI tool karena seseorang bergabung dari toko Tableau dan orang lain dari toko Looker dan tidak ada yang memaksa mereka memilih.
- Looker: harga enterprise, perkiraan publik menempatkannya di $50K+/tahun dan terus naik pesat. Lapisan semantik (LookML) adalah keunggulannya. Ini satu-satunya BI tool di mana tata kelola benar-benar berfungsi dalam skala besar. Jangan membelinya sampai Anda memiliki lapisan semantik nyata untuk dibangun dan seseorang untuk memeliharanya. Membeli Looker tanpa pemilik LookML seperti membeli Ferrari untuk dikendarai di garasi.
- Tableau: $75/pengguna/bulan untuk Creator, $42 untuk Explorer, $15 untuk Viewer. Masih dasbor paling cantik di pasaran. Menyakitkan untuk tata kelola dan kontrol versi. Bagus jika audiens Anda adalah eksekutif yang peduli dengan tampilan.
- Hex: $40-$80/pengguna/bulan tergantung tier. Notebook ditambah dasbor dalam satu aplikasi. Pilihan yang tepat jika analyst Anda menghabiskan setengah waktu dalam eksplorasi SQL dan setengah dalam laporan menghadap pemangku kepentingan. Menggantikan pemisahan "Jupyter untuk saya, Tableau untuk mereka."
- Metabase: open-source, gratis jika self-hosted. Cloud Pro mulai $85/bulan untuk 5 pengguna. Jawaban yang tepat untuk Series A ke bawah. Jujur, jawaban yang tepat untuk banyak Series B juga. Saya pernah melihat Metabase mengungguli lisensi Looker $40K di perusahaan yang belum memiliki kebutuhan lapisan semantik.
Aturan saya: satu BI tool. Jika Anda di bawah $10M ARR, Metabase. Jika Anda memiliki pemilik LookML dan eksekutif yang menuntut tata kelola, Looker. Jika analyst Anda mengutamakan notebook, Hex. Tableau jika kepemimpinan secara khusus memintanya. Hal lain apa pun adalah perpanjangan yang akan Anda sesali.
5. Notebook / eksplorasi
Di mana analyst sebenarnya melakukan pemikiran yang berantakan sebelum menjadi dasbor.
- Jupyter: gratis, lokal, berfungsi selamanya. Pilihan default. Pasangkan dengan VS Code dan Anda siap.
- Hex: sudah ada di buku Anda jika Anda membelinya untuk BI. Mematikan dua lapis dengan satu alat. Ini adalah sebagian dari alasan harga Hex masuk akal untuk beberapa tim.
- Deepnote: tier gratis cukup murah hati. Paket berbayar mulai $39/pengguna/bulan. Pengeditan kolaboratif yang kuat. Layak jika tim Anda benar-benar mengedit notebook bersama; kurang menarik jika semua orang bekerja sendiri.
Jika Anda membeli Hex untuk BI, jangan tambahkan Deepnote. Jika tidak, Jupyter sudah cukup.
6. Tiket / intake
Lapis yang tidak dianggap sebagai lapis oleh kebanyakan analyst. Tapi itu adalah lapis.
- Jira, Notion, atau Linear: pilih salah satu. Apa pun yang digunakan tim engineer biasanya tidak apa-apa. Intinya bukan alatnya. Intinya adalah menghapus DM Slack sebagai kanal intake.
DM Slack sebagai intake analitik tidak menghasilkan antrean, tidak ada prioritas, tidak ada jejak audit, dan tak terbatasnya "pertanyaan cepat" yang membutuhkan enam jam. Alat intake yang nyata memberi Anda antrean, SLA, dan catatan. Perlakukan itu seperti sebuah alat.
Data CRM / penjualan: lapis yang dianggarkan terlalu rendah oleh kebanyakan analyst
Inilah realita yang kurang didiskusikan: setengah dari masalah "kualitas data" yang diperjuangkan analyst adalah masalah kebersihan CRM yang didorong ke hilir. Ketika ops meminta "data B2B yang bersih," jawaban standarnya adalah menyalurkan ekspor Salesforce melalui empat transformasi dbt untuk mendeduplikasi kontak, menormalisasi nama perusahaan, memperbaiki format telepon, dan menambal kode industri yang hilang.
Itu bukan rekayasa data. Itu adalah kompensasi untuk CRM yang tidak menegakkan kebersihan saat penulisan.
Rework mulai dari $12/pengguna/bulan untuk CRM dan Sales Ops dan mengekspor data kontak dan pipeline B2B yang bersih langsung ke gudang data Anda. Proses pembersihan yang biasanya Anda lakukan di dbt sebagian besar menghilang karena data terstruktur saat intake (field wajib, format yang divalidasi, deduplication saat penulisan). Saya pernah memindahkan tim dari Salesforce ditambah empat model pembersihan dan melihat waktu build dbt mereka turun dari 22 menit menjadi 6 menit.
Ini bukan promosi "Rework menang di mana-mana." Jika Anda menjalankan Salesforce di organisasi 500 orang dengan 12 admin, Anda tidak akan beralih besok. Tapi jika Anda berada di tahap di mana "kita harus membeli Salesforce suatu hari nanti" adalah rencananya, lakukan perhitungan untuk Rework terlebih dahulu. Penghematannya terlihat dalam jumlah model dbt, bukan hanya biaya lisensi.
Audit stack 30 hari (lakukan ini sebelum membeli apa pun)
Setiap analyst harus menjalankan ini sekali setahun. Ini terbayar sendiri dalam minggu pertama.
Hari 1-3, inventaris. Daftarkan setiap alat, setiap seat, setiap tagihan bulanan. Tarik buku besar AP. Temukan laporan kartu kredit. Sebagian besar tim menemukan $10K-$30K/tahun dalam shelfware pada minggu pertama. Akun pembaca Snowflake yang tidak digunakan siapa pun. Seat Tableau untuk analyst yang pergi November lalu. Langganan Census dari ketika Anda mencoba reverse-ETL selama satu kuartal.
Hari 4-10, petakan. Petakan setiap alat ke lapis di atas. Apa pun yang tidak dapat dipetakan mendapat wawancara "mengapa ini ada?" dengan siapa pun yang memiliki kontraknya. Jika mereka tidak bisa menjawab dalam dua kalimat, itu adalah kandidat untuk dihapus.
Hari 11-20, temukan duplikat. Dua BI tool. Dua alat ELT. Tiga hal yang menyebut dirinya "katalog data." Pilih satu per lapis. Duplikat adalah yang dihapus.
Hari 21-30, tulis daftar yang akan dihapus. Jumlah dolar yang konkret. Alasan yang konkret. Presentasikan ke head of data dengan bukti. Bawa rencana migrasi alternatif, bahkan jika itu hanya "pindah ke Metabase, ini timelinenya." Head of data membenci daftar penghapusan yang samar. Mereka menyukai yang spesifik dengan rencana pengganti.
Diagram stack di serbet (deliverable untuk CFO Anda):
Sistem sumber → ELT (Fivetran) → Gudang data (Postgres atau Snowflake) → dbt → BI (satu alat) → Pemangku kepentingan
↑
CRM (Rework)
menyalurkan data
bersih ke sini
Intake (Jira) mengatur antrean.
Jika serbet Anda membutuhkan lebih banyak kotak dari itu, Anda terlalu banyak membangun.
Daftar yang akan dipotong (vendor yang akan saya hapus dari sebagian besar stack)
- Reverse-ETL ketika Anda memiliki 3 tujuan. Hightouch dan Census adalah produk nyata, tetapi jika Anda menyalurkan data ke Salesforce dan HubSpot saja, Anda tidak memerlukan alat $24K/tahun. Tulis skrip Python. Jadwalkan di dbt Cloud atau Airflow. Lanjutkan.
- Katalog data di bawah 50 tabel. Atlan, Alation, Collibra bagus dalam skala besar. Di bawah 50 tabel, halaman Notion mengalahkan mereka dan tidak menghabiskan biaya apa pun. Katalog hanya membuktikan tempatnya ketika tidak ada yang bisa menemukan tabel yang tepat tanpanya.
- Hal "bertenaga AI" apa pun yang membungkus GPT di sekitar editor SQL. Saya telah mengevaluasi lima di antaranya. Semuanya menghasilkan SQL yang masuk akal tetapi salah dengan cara yang halus. Analyst Anda akan menghabiskan lebih banyak waktu untuk mengoreksinya daripada menulis SQL sendiri. Tunggu 18 bulan.
- Alat observabilitas ketika Anda memiliki 12 model dbt. Monte Carlo, Bigeye, Elementary dalam skala besar masuk akal. Dengan 12 model, "lapisan observabilitas" Anda adalah rangkaian pengujian dbt dan peringatan Slack. Itu gratis.
Kesalahan umum
Membeli Looker sebelum Anda memiliki lapisan semantik. Saya melihat ini setiap kuartal. Tim membeli Looker untuk cerita tata kelola, kemudian menyadari tidak ada yang di staf mengetahui LookML, kemudian membayar konsultan $200/jam untuk membangun lapisan semantik. Dua tahun kemudian mereka masih belum menggunakannya sesuai yang dimaksudkan Looker.
Memilih Snowflake untuk beban kerja 200GB. Postgres menangani 200GB di instance RDS $200/bulan. Snowflake menanganinya seharga minimal $2K/bulan setelah Anda memperhitungkan komputasi, penyimpanan, dan gudang yang lupa untuk disuspend orang. Jika data Anda muat di RAM pada server $500, Anda belum memerlukan cloud warehouse.
Memperlakukan dbt Cloud sebagai wajib. Tidak. dbt Core ditambah Airflow ditambah runner GitLab CI gratis memberi Anda 90% dari dbt Cloud dengan 0% dari biayanya. 10% yang Anda kehilangan adalah IDE dan situs dokumentasi. Keduanya bagus. Keduanya tidak wajib.
Membiarkan setiap tim membeli BI tool mereka sendiri. Marketing membeli Tableau. Sales membeli Looker. Product membeli Hex. Sekarang Anda memiliki tiga lapisan semantik, tiga set dasbor yang tidak sepakat, dan tiga perpanjangan untuk diperjuangkan. Satu BI tool. Negosiasi keras. Buat tim beradaptasi.
Mengukur keberhasilan
Anda selesai melakukan audit ketika:
- Anda bisa menyebutkan setiap item baris dalam anggaran analitik, setiap harga bulanan, dan setiap lapis yang dilayaninya.
- Belanja tooling per analyst sudah dibandingkan dengan tolok ukur. (Target saya: $8K-$15K per analyst per tahun untuk segalanya di bawah gudang data, ditambah komputasi gudang. Jika Anda di atas $25K per analyst, ada sesuatu yang salah.)
- Tidak ada yang di stack Anda ada "karena orang sebelumnya yang menyiapkannya."
Itulah standarnya. Enam lapis, harga nyata, dapat dipertahankan kepada CFO yang belum pernah mendengar tentang dbt. Jika Anda bisa menulis paragraf itu dengan dingin, Anda akan mempertahankan anggaran. Jika tidak, Anda tidak akan.
Pelajari Lebih Lanjut

Principal Product Marketing Strategist
On this page
- Mengapa ini penting sekarang
- 6 lapis inti (segalanya opsional)
- 1. Gudang data
- 2. ELT / ingestion
- 3. Transformasi
- 4. BI / dasbor
- 5. Notebook / eksplorasi
- 6. Tiket / intake
- Data CRM / penjualan: lapis yang dianggarkan terlalu rendah oleh kebanyakan analyst
- Audit stack 30 hari (lakukan ini sebelum membeli apa pun)
- Daftar yang akan dipotong (vendor yang akan saya hapus dari sebagian besar stack)
- Kesalahan umum
- Mengukur keberhasilan
- Pelajari Lebih Lanjut