Mục lục
Dữ liệu là gì? Có mấy loại dữ liệu?
Hiểu một cách đơn giản, dữ liệu (data) là tập hợp của các thông tin (số liệu, miêu tả, hình ảnh, video,…) được lưu trữ dưới 1 trong 3 dạng: có cấu trúc, bán cấu trúc hoặc phi cấu trúc.
Dữ liệu có cấu trúc (Structured data) được lưu thành các bảng có hàng và cột.

Dữ liệu bán cấu trúc (Semi-structured data) được lưu thành các khối thông tin, trong đó, các khối không cần có số lượng trường thông tin giống nhau.

Dữ liệu phi cấu trúc là những dữ liệu có dạng hình ảnh, âm thanh, video,…

Datastore (Kho lưu trữ dữ liệu)
Có 2 loại datastore chính là Online Transactional Processing (OLTP) và Online Analytical Processing (OLAP).
Trong đó, OLTP là kho lưu trữ dữ liệu của từng giao dịch tại thời điểm phát sinh. Ví dụ như giao dịch ngân hàng, giao dịch mua sắm, dữ liệu tracking đơn hàng, dữ liệu khách hàng,…
Còn OLAP là kho lưu trữ dữ liệu đã được sắp xếp theo từng cột và chuyên dành cho việc phân tích. Đây chính là loại kho lưu trữ mà các chuyên viên phân tích dữ liệu thường sử dụng để lấy dữ liệu phục vụ cho hoạt động phân tích.
Data processing (Xử lý dữ liệu)
Có thể hiểu, xử lý dữ liệu là quá trình chuyển hóa dữ liệu từ dạng thô thành những thông tin có ý nghĩa.
Có 2 phương pháp xử lý dữ liệu chính là batch processing và streaming processing.
- Batch processing là phương pháp xử lý dữ liệu mà trong đó, dữ liệu được thu thập thành từng batch. Mỗi batch sẽ được xử lý vào một thời điểm đã được lên lịch trước
- Streaming processing là phương pháp xử lý dữ liệu mà từng dữ liệu được xử lý ngay sau khi thu thập được.
Hành trình dữ liệu

Dữ liệu dùng để phân tích thường sẽ đi qua 3 giai đoạn chính:
- Data Ingestion (Nhập dữ liệu): Dữ liệu được nhập từ nhiều nguồn vào cơ sở dữ liệu (database) để phục vụ cho mục đích sử dụng hoặc lưu trữ.
- Data Processing (Xử lý dữ liệu): Dữ liệu từ dạng thô được làm sạch, chuyển đổi thành thông tin mang nhiều ý nghĩa hơn. Quá trình này còn được gọi là ETL (Trích xuất – Chuyển đổi – Tải lên) hoặc ELT (Trích xuất – Tải lên – Chuyển đổi), tùy vào quy trình thực hiện.
- Data Visualization (Trực quan hóa dữ liệu): Dữ liệu lúc này đã sẵn sàng cho những truy vấn, phân tích và có thể được trực quan hóa thành dạng bảng, biểu đồ,…
Các loại phân tích dữ liệu

Có 5 loại phân tích dữ liệu phổ biến: Descriptive – Diagnostic – Predictive – Prescriptive – Cognitive.
Loại | Trả lời cho câu hỏi | Ví dụ |
Descriptive | Điều gì đã diễn ra? | Phân tích kết quả kinh doanh của quý trước để xem điều gì đã diễn ra |
Diagnostic | Vì sao điều đó lại diễn ra? | Phân tích vì sao doanh thu tháng này lại thấp hơn tháng trước |
Predictive | Điều gì có thể xảy ra trong tương lai? | Sử dụng dữ liệu lịch sử để dự đoán các biến động kinh tế trong tương lai gần |
Prescriptive | Chúng ta nên làm gì? | Đưa ra các phương án để tăng doanh thu tháng tới |
Cognitive | Người dùng có xu hướng đưa ra lựa chọn như thế nào? (Đề xuất kết quả cho người dùng dựa trên dữ liệu hành vi người dùng thu thập được trong quá khứ) | Netflix gợi ý phim dựa trên hành vi của người dùng trong quá khứ |
Khóa học nào của Datapot dạy kiến thức cơ bản về dữ liệu?
Trong khóa học Azure Data Fundamentals, tức khóa đầu tiên trong lộ trình Data Analytics Foundation của Datapot, học viên không chỉ được giới thiệu về các nền tảng cơ sở dữ liệu Azure của Microsoft, mà còn được học về bản chất của dữ liệu cũng như cách chuẩn hóa, lưu trữ dữ liệu, các cơ sở dữ liệu và tổng quan về công việc trong ngành dữ liệu. Việc nắm chắc các kiến thức cơ bản về dữ liệu sẽ là nền tảng cho việc học về SQL, Power BI, Python cũng như việc phát triển sự nghiệp trong ngành dữ liệu sau này của học viên.
Đặc biệt, sau khi hoàn thành khóa học này, bạn sẽ đủ điều kiện tham gia kỳ thi DP-900 lấy chứng chỉ Azure Data Fundamentals của Microsoft – chứng chỉ được công nhận trên toàn thế giới.
Tìm hiểu thêm về lộ trình dành riêng cho Data Analyst ngay tại đây:
Như vậy, chúng ta đã tìm hiểu qua về dữ liệu, các phương pháp lưu trữ, xử lý dữ liệu và 5 loại phân tích dữ liệu thường thấy. Hy vọng bài viết giúp bạn có cái nhìn tổng quan hơn về hành trình của dữ liệu.