Bằng cách nào và làm sao để sử dụng được dữ liệu trong thực tế?
Mình đọc khá nhiều những bài viết, blog cũng như các trang tham khảo khác nhau về quy trình thu thập và xử lý data, mỗi người có một quy trình khác nhau và có những ưu nhược điểm thú vị để mình học hỏi. Nhưng nhìn chung, mình thấy những quy trình đó đều có một mẫu số chung.Phần đầu tiên và quan trọng nhất có lẽ là Identify Business Problem – nhận diện vấn đề doanh nghiệp. Đó là bước tiền đề để bạn thực hiện các phân tích sau này. Cũng như đói phải ăn, yêu phải nói, chưa biết vấn đề là gì, hãy hỏi stakeholder của bạn.
việt hoá
Kế đến, sau khi xác định nhu cầu doanh nghiệp, bạn đã có một ý tưởng rõ ràng bạn cần đo đạc những con số nào, bạn sẽ khoanh vùng nguồn dữ liệu đó lấy từ đâu và từ ai – Identify Data Source và lấy những dữ liệu cần – Select the DataTiếp theo là bước làm sạch dữ liệu – Clean the Data, nghe giang hồ đồn 80% thời gian các Data Analyst là dành cho bước này – sợ toát mồ hôi hột luôn! Sở dĩ tốn kém thời gian như vậy bởi dữ liệu trong thực tế luôn bị thiếu, sai định dạng rất nhiều!Biến đổi dữ liệu – Transform the Data là bước dựa trên những dữ liệu đã được làm sạch để tạo ra dữ liệu mới, nôm na là tạo ra cột mới – đó chính là những dữ liệu phái sinh.Tại bước phân tích dữ liệu – Analyze the Data, bài toán trở nên quen thuộc hơn. Nếu như các bạn có follow bài trước, mình đã nhắc đến 4 thuật ngữ gồm:- Descriptive Analytics – Phân tích mô tả
- Diagnostic Analytics – Phân tích chuẩn đoán
- Predictive Analytics – Phân tích dự đoán
- Prescriptive Analytics – Phân tích đề xuất