Tiếng Việt

7 Loại Dữ Liệu Tạo Nền Tảng Cho Business AI

Bảy loại dữ liệu xếp thành các lớp tạo nền tảng cho business AI

AI tool không thất bại trong demo. Chúng thất bại khi gặp dữ liệu thực của bạn.

Demo chạy trên đầu vào sạch, được chuẩn bị kỹ, do vendor kiểm soát. Môi trường thực của bạn thì khác: bản ghi cuộc họp gắn nhãn mọi người nói là [Speaker 1]. CRM với 40% bản ghi thiếu đúng những trường mà model chấm điểm phụ thuộc vào. Thư viện tài liệu chứa ba năm thông tin giá cũ, được gán trọng số ngang bằng bản cập nhật tháng trước. Model không có vấn đề gì. Dữ liệu mới là vấn đề. Và nếu không có từ vựng để chẩn đoán, thất bại trông như AI kém trong khi thực ra chỉ là vấn đề ống nước có thể sửa được.

Đây là pattern phổ biến nhất trong các AI deployment gây thất vọng: không phải thiếu hụt capability, mà là khoảng trống dữ liệu mà không ai tìm ra trước khi ký hợp đồng. Quy trình bán hàng của vendor không có động cơ để nêu lên điều đó. Team mua thường thiếu framework để tự tìm thấy nó.

ACE Framework đặt Data ở tầng Foundation chính xác vì lý do này. Trước khi bất kỳ capability nào hoạt động (Ingest, Analyze, Predict, Generate, Execute), dữ liệu phải tồn tại, có thể truy cập, và ở định dạng AI có thể tiêu thụ được. Bảy loại dữ liệu trong bài viết này là các định dạng khác nhau mà thông tin tồn tại bên trong doanh nghiệp. Mỗi loại nằm trong hệ thống khác nhau, bị hỏng theo cách khác nhau, và cần chuẩn bị khác nhau trước khi có ích.

Hãy đọc bài viết này như tài liệu tham khảo. Sau đó chạy danh sách kiểm tra tồn kho ở cuối bài đối với bất kỳ AI project nào đang triển khai hoặc trên roadmap của bạn. Các khoảng trống sẽ rõ ràng ngay khi bạn biết phải tìm gì.

Tại sao loại dữ liệu quan trọng trước hết mọi thứ

Trong ACE Framework cho business AI, Data nằm ở tầng Foundation, bên dưới cả năm capability (Ingest, Analyze, Predict, Generate, Execute), bên dưới pattern, bên dưới agent. Đó không phải khiêm tốn. Đó là quan hệ nhân quả. Mọi AI capability đều cần dữ liệu như nguyên liệu thô. Thay đổi chất lượng, định dạng, hoặc khả năng truy cập của dữ liệu là bạn thay đổi những gì AI có thể làm.

Bảy loại dữ liệu điển hình đại diện cho các định dạng khác nhau mà thông tin tồn tại bên trong doanh nghiệp. Mỗi loại cần cơ sở hạ tầng khác nhau để lưu trữ, pipeline khác nhau để di chuyển, và AI model khác nhau để xử lý. Hiểu chúng không chỉ là học thuật. Đó là bước thực tế đầu tiên để biết AI tool có thực sự hoạt động hay không trước khi bạn ký hợp đồng.

Đây là danh sách tồn kho. Đọc như tài liệu tham khảo. Sau đó dùng danh sách kiểm tra ở cuối để audit stack của bạn.


1. Văn bản (Text)

Text là loại dữ liệu dồi dào nhất trong hầu hết mọi doanh nghiệp. Và cũng là ít có cấu trúc nhất. Đó là lý do nó vừa là cơ hội lớn nhất vừa là một trong những bài toán đau đầu nhất của AI.

Nơi nó tồn tại: Gmail, Outlook, Slack, Microsoft Teams, Notion, Confluence, ghi chú Salesforce CRM, ticket Zendesk, Google Docs, thư mục hợp đồng, đánh giá khách hàng, phản hồi khảo sát.

AI làm tốt gì với nó: Nhận diện ý định (email này khẩn cấp hay chỉ FYI?). Tóm tắt (rút gọn thread 40 tin nhắn thành ba bullet point). Trích xuất (lấy tên vendor, ngày hợp đồng, và điều khoản gia hạn từ PDF). Phân loại (gắn nhãn support ticket này là "thanh toán," "lỗi," hay "yêu cầu tính năng"). Generate (soạn follow-up dựa trên toàn bộ ngữ cảnh cuộc trò chuyện).

Vấn đề thường gặp: Phân mảnh trên 20 công cụ không kết nối với nhau. Không có schema (các trường free-text có nghĩa là "bước tiếp theo" trông khác nhau trong ghi chú của từng rep). Dữ liệu nhạy cảm lẫn vào dữ liệu vận hành, tạo rủi ro tuân thủ.

Failure mode thực tế: Công cụ đề xuất của Rachel trích dẫn dịch vụ lỗi thời vì corpus text của nó gồm pitch deck cũ và email thread không có trọng số thời gian. AI tính trung bình tất cả, xử lý mô tả dịch vụ năm 2019 ngang bằng dịch vụ năm 2026.


2. Dữ liệu có cấu trúc (Structured Data)

Structured data là thông tin được tổ chức thành hàng và cột với tên trường rõ ràng. Đây là loại dữ liệu AI đã làm việc lâu nhất, và vẫn là loại mà các AI capability dự đoán phụ thuộc nhiều nhất.

Nơi nó tồn tại: Salesforce, HubSpot, Pipedrive (bản ghi CRM), Snowflake, BigQuery, Redshift (data warehouse), Excel, Google Sheets, ERP như NetSuite hay Sage, form submission, API response.

AI làm tốt gì với nó: Lead scoring (73% xác suất close deal dựa trên 18 tín hiệu). Pipeline forecasting (Q2 closed-won trong khoảng $3.8M đến $4.4M). Phát hiện bất thường (khoản chi phí này cao hơn 340% so với mức trung bình danh mục). Dự đoán Churn. Phân loại và phân khúc ở quy mô lớn.

Vấn đề thường gặp: Bản ghi lỗi thời (CRM 12.000 liên hệ với 4.000 mục có chức danh sai và email chết tạo ra điểm không đáng tin). Thiếu trường (nếu 60% bản ghi closed-won không có trường "source," model không thể học nguồn nào convert). Hệ thống siloed (Finance trong NetSuite, Sales trong Salesforce, Customer Success trong Gainsight, không tích hợp và không có reasoning xuyên hệ thống).


3. Hình ảnh (Image)

Các use case kinh doanh cho AI hình ảnh mở rộng xa hơn thương mại điện tử và sản xuất. Phạm vi chạy từ hóa đơn được scan đến ảnh sản phẩm đến screenshot dashboard.

Nơi nó tồn tại: File storage (Google Drive, Dropbox, SharePoint), portal do khách hàng tải lên, catalog thương mại điện tử (Shopify, WooCommerce), thư viện marketing asset, hệ thống kiểm soát chất lượng sản xuất, kho lưu trữ tài liệu được scan.

AI làm tốt gì với nó: OCR (chuyển văn bản được scan thành ký tự đọc được bằng máy, quan trọng với xử lý hóa đơn). Phân loại trực quan (lỗi so với không lỗi trên dây chuyền sản xuất). Phát hiện đối tượng. Xác minh danh tính cho KYC flow. Tạo hình ảnh (biến thể ảnh sản phẩm, visual marketing).

Vấn đề thường gặp: Chất lượng không nhất quán (model được train trên ảnh studio sạch thất bại với ảnh mờ từ thực địa). Rủi ro IP và bản quyền từ công cụ tạo sinh. Tài liệu do khách hàng tải lên thường chứa PII (số hộ chiếu, mẫu y tế) mang theo yêu cầu governance riêng dù dữ liệu ở dạng hình ảnh.


4. Âm thanh (Audio)

Dữ liệu audio cho phép một trong những use case AI có ROI cao nhất trong B2B: meeting intelligence. Ngay khi cuộc gọi bán hàng hay hội thoại hỗ trợ khách hàng có thể được phiên âm và phân tích, doanh nghiệp có được loại dữ liệu mà trước đó đơn giản là không tồn tại: bản ghi có thể tìm kiếm của mọi tương tác bằng lời nói.

Nơi nó tồn tại: Gong, Chorus, Fireflies (nền tảng ghi âm cuộc gọi sales), Zoom cloud recording, Microsoft Teams, hệ thống call center, dịch vụ voicemail-to-text.

AI làm tốt gì với nó: Phiên âm. Phân tích cảm xúc (khách hàng có bực bội vào cuối cuộc gọi không?). Trích xuất chủ đề (những phản đối nào xuất hiện?). Nhận diện người nói. Chấm điểm cuộc gọi (rep có đặt đủ câu hỏi discovery không?). Giám sát tuân thủ.

Vấn đề thường gặp: Yêu cầu đồng ý (ghi âm không có sự đồng ý của tất cả các bên là vi phạm pháp luật ở một số bang Mỹ và nhiều khu vực pháp lý khác; cần xem xét pháp lý bắt buộc trước khi triển khai). Tiếng ồn nền và người nói chồng chéo làm giảm độ chính xác phiên âm. Thất bại meeting intelligence của Rachel là ví dụ kinh điển: model phiên âm hoạt động tốt, nhưng bước nhận diện người nói không có quyền truy cập lịch hay danh sách liên hệ CRM của cô ấy. Pipeline thiếu kết nối, không phải AI.


5. Video

Video là audio cộng hình ảnh cộng thời gian. Đó là lý do nó là loại dữ liệu giàu nhất và đắt nhất để xử lý. Xử lý video đòi hỏi nhiều tính toán hơn đáng kể so với bất kỳ loại nào khác, vì vậy ngưỡng ROI cũng cao hơn.

Nơi nó tồn tại: YouTube (kênh sở hữu), Loom (nhắn tin async), Zoom cloud recording, Vimeo (nội dung đào tạo), hệ thống camera giám sát, thư viện demo sản phẩm.

AI làm tốt gì với nó: Phiên âm (vì video bao gồm audio). Hiểu cảnh. Trích xuất điểm nổi bật. Tạo chương. Kiểm duyệt nội dung. Tạo video (avatar tổng hợp, demo clip).

Vấn đề thường gặp: Chi phí lưu trữ tích lũy nhanh (một giờ video 1080p là 2-4 GB; 200 cuộc họp được ghi mỗi tuần cộng dồn rất nhanh). Chi phí xử lý đáng kể với nội dung dài. Yêu cầu đồng ý và dữ liệu sinh trắc học áp dụng. Video ghi lại khuôn mặt, điều này thêm nghĩa vụ theo các luật như BIPA (Illinois) và GDPR vượt ngoài những gì audio đơn thuần yêu cầu.


6. Code

Code là văn bản có cấu trúc với cú pháp hình thức, nhưng hoạt động đủ khác so với ngôn ngữ tự nhiên để được phân loại riêng. AI được xây dựng cho code (GitHub Copilot, Amazon Q Developer, Cursor) được thiết kế mục đích cho các pattern cú pháp của nó, không chỉ đơn giản là fine-tune trên văn xuôi.

Nơi nó tồn tại: GitHub, GitLab, Bitbucket (repository), hệ thống CI/CD (Jenkins, GitHub Actions), log aggregator (Datadog, Splunk, Sumo Logic), file infrastructure-as-code (Terraform, Ansible).

AI làm tốt gì với nó: Tạo code. Review code (gắn cờ lỗ hổng bảo mật, vi phạm style, vấn đề hiệu suất). Viết tài liệu. Debug từ error log. Refactoring. Quét lỗ hổng (tìm credential được hardcode). Phân tích log.

Vấn đề thường gặp: Giới hạn context window (AI reasoning tốt về một file đơn, nhưng gặp khó khăn với monorepo 500.000 dòng; các công cụ như Cursor xử lý điều này qua chiến lược retrieval). Bí mật trong repository (API key và credential được commit vào code làm tăng đáng kể attack surface khi kết nối với AI assistant). Thiếu ý định (AI có thể đọc code làm gì; thường không thể đọc tại sao, và tài liệu cùng comment là cầu nối duy nhất).


7. Time-Series

Dữ liệu time-series là bất kỳ phép đo nào được ghi ở các khoảng thời gian đều đặn: một metric lúc 9:00 sáng, 9:01 sáng, 9:02 sáng. Đó là ngôn ngữ bản địa của vận hành, tài chính, và giám sát hạ tầng. Nó cho phép forecasting và phát hiện bất thường mà không loại dữ liệu nào khác có thể thay thế.

Nơi nó tồn tại: Công cụ monitoring (Datadog, New Relic, Prometheus), hệ thống IoT sensor, hệ thống tài chính (doanh thu hàng ngày, chi phí, headcount), web analytics (Google Analytics, Mixpanel, Amplitude), hệ thống POS (khối lượng giao dịch theo giờ và ngày).

AI làm tốt gì với nó: Forecasting (doanh thu tháng tới, tỷ lệ Churn quý tới). Phát hiện bất thường (metric này lệch 3,4 độ lệch chuẩn so với rolling baseline). Phân tích xu hướng (khối lượng support đang tăng nhanh hơn doanh thu). Mô hình hóa tính mùa vụ.

Vấn đề thường gặp: Clock drift và timestamp bị thiếu phá vỡ các khoảng thời gian đều đặn mà model time-series giả định. Kết hợp độ chi tiết lấy mẫu khác nhau (một hệ thống log mỗi phút, một hệ thống khác mỗi giờ) tạo ra baseline không đáng tin. Lịch sử không đủ là khoảng trống phổ biến nhất: model forecasting được train trên 3 tháng dữ liệu không thể dự đoán đáng tin các pattern hàng năm. Nguyên tắc thực tế là 2-3 chu kỳ đầy đủ của bất kỳ pattern nào bạn đang cố mô hình hóa.


Cách các loại dữ liệu kết hợp trong use case thực tế

Hầu hết use case business AI trải rộng trên hai hoặc ba loại dữ liệu. Hiểu tổ hợp cho bạn biết pipeline nào cần xây và vấn đề data readiness nào cần giải quyết trước.

Use Case Loại Dữ Liệu ACE Capabilities
Sales call intelligence (kiểu Gong) Audio + Text + Structured Ingest + Analyze + Generate
Lead scoring (kiểu Salesforce Einstein) Structured + Text Analyze + Predict
Xử lý hóa đơn (AP automation) Image + Structured Ingest + Analyze + Execute
Phân loại support ticket (kiểu Zendesk AI) Text Analyze + Predict + Execute
Phát hiện gian lận (kiểu Stripe Radar) Structured + Time-series Ingest + Analyze + Predict + Execute
Phân tích log DevOps Code + Time-series Ingest + Analyze + Predict
Phân tích demo sản phẩm Video + Text + Structured Ingest + Analyze + Generate

Khi vendor pitch AI tool, hãy hỏi loại dữ liệu nào nó tiêu thụ. Nếu các loại đó không sạch, không thể truy cập, và không được kết nối đúng cách trong stack của bạn, công cụ sẽ không hoạt động như đã hứa dù model bên dưới tốt đến đâu.


Loại dữ liệu nào nuôi capability ACE nào

Ma trận này ánh xạ bảy loại dữ liệu với năm ACE capability. "Cao" nghĩa là loại dữ liệu là đầu vào chính. "Trung bình" nghĩa là thứ cấp hoặc hỗ trợ. "Thấp" nghĩa là kết nối không phổ biến.

Loại Dữ Liệu Ingest Analyze Predict Generate Execute
Text Cao Cao Trung bình Cao Thấp
Structured Trung bình Cao Cao Trung bình Trung bình
Image Cao Cao Thấp Cao Thấp
Audio Cao Cao Thấp Trung bình Thấp
Video Cao Trung bình Thấp Trung bình Thấp
Code Trung bình Cao Thấp Cao Trung bình
Time-series Trung bình Cao Cao Thấp Trung bình

Ba điều nổi bật trong ma trận này.

Ingest là điểm vào cho các loại không phải text. Hình ảnh, audio, và video không thể được reasoning trực tiếp. Chúng cần chuyển đổi trước (OCR, phiên âm, phân tích cảnh). Nếu pipeline Ingest của bạn bị hỏng, mọi thứ downstream đều thất bại.

Analyze là phổ quát. Mọi loại dữ liệu đều nuôi Analyze, vì việc tạo ra ý nghĩa từ thông tin luôn theo sau việc tiếp nhận nó. Đây là lý do capability Analyze xuất hiện trong hầu hết mọi use case AI thực tế.

Predict chạy trên Structured và Time-series. Forecasting và scoring đòi hỏi các pattern lịch sử ở dạng có cấu trúc. Dữ liệu structured bẩn hoặc lịch sử time-series ngắn sẽ underperform ngay cả với model tốt.


Trước khi bắt đầu bất kỳ AI project nào: danh sách kiểm tra tồn kho dữ liệu

Hãy chạy qua điều này trước khi ký hợp đồng vendor hoặc khởi động sáng kiến nội bộ. Mất dưới một giờ và giúp bắt được những lỗi tốn kém nhất.

1. Use case này cần loại dữ liệu nào? Viết ra cụ thể. Không phải "dữ liệu" chung chung. Text (từ đâu?), structured (hệ thống nào?), audio (bản ghi nào?), và tương tự.

2. Bạn có dữ liệu đó ngay hôm nay không? Đừng tính dữ liệu bạn dự định thu thập. Tính dữ liệu bạn đang có. Nếu use case cần 18 tháng bản ghi cuộc gọi sales và bạn dùng Gong được 4 tháng, bạn không có dữ liệu đó.

3. AI tool có thể truy cập nó không? Dữ liệu tồn tại nhưng không thể tiếp cận là dữ liệu bạn không có. Các blocker phổ biến: không có API, tích hợp chưa xây dựng, cần quyền truy cập on-premise, IT policy chưa phê duyệt kết nối.

4. Nó đủ sạch để hữu ích không? Với structured data: bao nhiêu phần trăm bản ghi có các trường quan trọng được điền? Với text: nó có bị phân mảnh trên nhiều hệ thống không? Với audio: bao nhiêu phần trăm cuộc gọi thực sự được ghi và lưu trữ?

5. Nó được cấp phép đúng chưa? Audio của khách hàng, thông tin liên lạc nội bộ, và hồ sơ tài chính đều mang nghĩa vụ xử lý dữ liệu. Xác nhận DPA với vendor và các chính sách nội bộ trước khi kết nối.

6. Vấn đề data readiness nào cần giải quyết trước? Đây là chỗ hầu hết AI project bị đình trệ. Công cụ đã sẵn sàng; dữ liệu bên dưới thì chưa. Sửa vấn đề dữ liệu trước, sau đó triển khai AI phụ thuộc vào nó. Trình tự nhàm chán. Trình tự hiệu quả.


Điều này cho bạn biết gì về vấn đề của Rachel

Ba AI tool thất bại của Rachel đều có vấn đề dữ liệu cụ thể, không phải vấn đề AI.

Công cụ meeting intelligence in ra nhãn [Speaker 1] vì pipeline của vendor không được tích hợp với lịch hay CRM của cô ấy. Phiên âm hoạt động tốt. Bước nhận diện người nói đơn giản là không bao giờ nhận được dữ liệu liên hệ cần thiết để ghép giọng nói với tên.

Model lead-scoring trả về 7/10 cho tất cả mọi người vì CRM của cô ấy thiếu dữ liệu lịch sử có sự phân biệt. Quá nhiều bản ghi closed-won có trường bị thiếu (source, ngành, quy mô công ty). Model không tìm được pattern phân biệt và mặc định về mức trung bình.

Công cụ đề xuất trích dẫn dịch vụ lỗi thời vì corpus text không có trọng số thời gian. Mô tả dịch vụ năm 2019 mang cùng trọng số với dịch vụ năm 2026.

Trong từng trường hợp, AI hoạt động đúng như thiết kế. Và giờ Rachel có thể đặt tên cho loại dữ liệu cụ thể, xác định khoảng trống ở đâu, và mô tả những gì cần thay đổi. Đó là giá trị của tồn kho dữ liệu: không chỉ là danh sách, mà là công cụ chẩn đoán.


Nên đọc tiếp gì

Bài viết này đã cho bạn danh mục. Bước tiếp theo là hiểu điều gì làm cho các loại dữ liệu này có thể dùng được cho AI.

  • Data readiness cho AI: các điều kiện tiên quyết thực tế, có thể truy cập, có cấu trúc, còn mới, và được cấp phép
  • Hướng dẫn thực chiến về dữ liệu sạch: chẩn đoán vấn đề chất lượng dữ liệu trước khi chúng làm chìm một project
  • Ingest: ACE capability đầu tiên, và cái quyết định dữ liệu hình ảnh, audio, và video có vào workflow của bạn hay không
  • Analyze: capability áp dụng cho mọi loại dữ liệu, nơi dữ liệu thô thành insight kinh doanh
  • ACE Framework: bảng tuần hoàn đầy đủ, với stack sáu tầng cho thấy dữ liệu, capability, và pattern kết nối như thế nào