lab 1: prepare data in pbi

Power BI PL300 lab 1: Prepare Data in Power BI Desktop

Ngày đăng: 10/03/2022
Đây là bài thực hành nằm trong chuỗi bài luyện tập Power BI của Microsoft. Xuyên suốt chuỗi bài này, chúng ta sẽ đi từ khâu đầu tiên trong quá trình phân tích dữ liệu bằng Power BI – chuẩn bị dữ liệu (prepare data), cho đến những bước cuối cùng – xuất bản báo cáo (publish) dưới dạng report hoặc dashboard. Mục tiêu cuối cùng của series này là xây dựng một giải pháp Power BI cho công ty Adventure Works – công ty sản xuất và kinh doanh đồ thể thao mạo hiểm đa quốc gia.Bạn có thể thực hiện từng bài thực hành theo thứ tự bất kỳ mà bạn mong muốn, tuy nhiên, để thuận lợi nhất cho quá trình luyện tập, chúng mình đề xuất thứ tự luyện tập như sau:
  1. Prepare Data in Power BI Desktop 
  2. Load Data in Power BI Desktop
  3. Model Data in Power BI Desktop, Part 1
  4. Model Data in Power BI Desktop, Part 2
  5. Create DAX Calculations in Power BI Desktop, Part 1
  6. Create DAX Calculations in Power BI Desktop, Part 2
  7. Design a Report in Power BI Desktop, Part 1
  8. Design a Report in Power BI Desktop, Part 2
  9. Create a Power BI Dashboard
  10. Create a Power BI Paginated Report
  11. Perform Data Analysis in Power BI Desktop
  12. Enforce Row-Level Security
Xem học liệu gốc của Microsoft tại đây: https://microsoftlearning.github.io/DA-100-Analyzing-Data-with-Power-BI/ 

Mục tiêu của lab

Trong bài thực hành này, chúng ta sẽ bắt đầu phát triển giải pháp Power BI cho công ty Adventure Works bao gồm kết nối tới nguồn dữ liệu, xem trước dữ liệu, sử dụng các kỹ thuật xem trước dữ liệu để nắm được các đặc điểm và chất lượng của bộ dữ liệu nguồn.Thông qua đó, bạn sẽ có thể:
  • Mở Power BI Desktop và thiết lập các cài đặt
  • Kết nối tới nguồn dữ liệu
  • Xem trước dữ liệu gốc
  • Sử dụng các kỹ thuật xem trước dữ liệu để hiểu dữ liệu tốt hơn

Chuẩn bị trước khi thực hành Data Prepare trên Power BI Desktop

Cài đặt Power BI Desktop (xem hướng dẫn cài đặt Power BI Desktop: https://www.youtube.com/watch?v=W4HjvxHs5FY&t=4sCài đặt restore database Adventure Works 2020: Lưu ý: các thao tác chuẩn bị là bắt buộc để có thể thực hiện các lab ở phía sau.Thời gian thực hiện ước tính: 45 phút 

Hướng dẫn thực hành chuẩn bị dữ liệu trong Power BI

Task 1: Tạo file Power BI Desktop và lưu file

Task đầu tiên trong Lab Data Prepare, chúng ta sẽ thực hiện như sau:
  • Mở Power BI Desktop: Trên thanh tác vụ taskbar, click vào biểu tượng lối tắt Power BI Desktop để mở
Picture 2
  • Cick vào thẻ File trên thành ribbon để mở giao diện File, sau đó chọn Save. Picture 4
  • Lưu file vào vị trí bạn mong muốn.
Bạn cũng có thể lưu file bằng cách click vào biểu tượng Save ở góc trên bên trái màn hình.Picture 18

Task 2: Thiết lập các tùy chọn cho Power BI Desktop

Trong Power BI Desktop, chọn thẻ File trên thanh ribbon để mở giao diện hiển thị hậu trường (backstage view) của File. Ở góc bên trái, chọn Options and Settings, rồi chọn OptionsPicture 1Trong cửa sổ Options, ở phía bên trái, trong nhóm Current File, chọn Data Load. Picture 5Trong nhóm Relationships, bỏ chọn các tùy chọn như sau:Picture 7Mục đích của việc tắt các chế độ này đi là để phục vụ cho các task phía sau của lab, trên thực tế, việc bật hai chế độ này sẽ rất có lợi khi xây dựng mô hình dữ liệu. Khi tạo các quan hệ trong lab phía sau – Load Data in Power BI Desktop, chúng ta sẽ hiểu vì sao chúng ta cần bật chúng lên.Sau đó chọn OK.

Task 3: Lấy dữ liệu từ SQL Server

  • Trên thẻ Home của thanh ribbon, trong nhóm Data, chọn SQL Server.
Picture 19
  • Trên cửa sổ SQL Server Database, nhập vào thông tin Server là localhost
Picture 21
  • Sau đó, cửa sổ dưới đây sẽ xuất hiện: 
Picture 28
  • Chọn và mở rộng Database “AdventureWorksDW2020”. Đến đây, bạn có thể xem bất kỳ một bảng dữ liệu nào bằng các click tên bảng (không phải ô checkbox), ở bên tay phải, bạn sẽ thấy có một bản xem trước dữ liệu trong bảng.
  • Chọn các bảng dữ liệu sau đây bằng cách click vào ô trước tên bảng dữ liệu:
    • DimEmployee
    • DimEmployeeSalesTerritory
    • DimProduct
    • DimReseller
    • DimSalesTerritory
    • FactResellerSales
  • Sau đó chọn Transform Data (trong bài này, chúng ta sẽ không thực hiện các thao tác transform data – biến đổi dữ liệu mà chỉ quan sát và phân tích các đặc tính và chất lượng bộ dữ liệu).

Picture 30

Task 4: Xem trước truy vấn SQL Server

Mục tiêu của task này trong bài thực hành Data Preparation là giúp bạn làm quen được với dữ liệu, hiểu được về dữ liệu và đánh giá được chất lượng của bộ dữ liệu. 
  • Trong cửa sổ Power Query Editor, các bảng dữ liệu sau khi được load sẽ nằm ở phía bên trái (Queries pane).
Picture 31
  • Chọn bảng dữ liệu truy vấn đầu tiên —DimEmployee. Bảng DimEmployee trong cơ sở dữ liệu (CSDL) SQL Server thể hiện mỗi dòng cho một employee – công nhân/nhân viên công ty.
Picture 33
  • Quan sát bảng dữ liệu và đưa ra một số nhận xét về bảng dữ liệu đó như: Số lượng cột, số lượng dòng, kiểu dữ liệu của từng cột, v..vv… (Công việc này được gọi là metadata discovery, hay profiling data). Ở góc dưới cùng bên trái là thanh trạng thái: nó cho biết thống kê của bảng: bảng của bạn gồm 33 cột và 296 dòng. Lăn chuột theo chiều ngang để xem hết các cột trong bảng.
Picture 36
  • Để đánh giá chất lượng của cột, trên thẻ View trên thanh ribbon, trong nhóm Data Previewbạn chọn Column Quality: tính năng này cho phép bạn dễ dàng đánh giá tỷ lệ ô chứa dữ liệu có nghĩa, lỗi, hoặc ô không có dữ liệu trong cột. Ở đây, với cột Position, bạn sẽ thấy 94% ô trong cột này bị trống (null)
Picture 35Picture 38
  • Để xem phân bổ các giá trị trong cột, trên thẻ View trên thanh ribbon, trong nhóm Data Previewchọn Column Distribution: bạn sẽ thấy cột Position có 4 giá trị khác nhau tồn tại (distinct), 1 giá trị là duy nhất (unique). Tương tự, bạn sẽ thấy cột EmployeeKey có 296 giá trị khác nhau và cũng là 296 giá trị duy nhất.Khi đó, cột EmployeeKey của bạn là cột chứa các giá trị duy nhất – unique. Những cột như thế này sẽ được sử dụng trong phần xây dựng mô hình (sẽ học ở bài thực hành sau – Model Data in Power BI Desktop)
Picture 40Picture 43
  • Column profile:  trên thẻ View trên thanh ribbon, trong nhóm Data Previewtick chọn Column Profile và chuyển sang bảng DimReseller, cột tiêu đề cột BusinessType. Bạn sẽ thấy có một ngăn mới xuất hiện ở phía dưới giao diện xem trước dữ liệu, ngăn này thể hiện thống kê và phân bổ các giá trị trong cột. Với cột này, bạn sẽ thấy có hai nhãn dữ liệu warehouse (gồm Warehouse và từ sai chính tả là Ware House)
Picture 41Picture 51Di chuột đến thanh Ware House, bạn sẽ thấy rằng có 5 dòng có chứa giá trị bị sai chính tả này. Trong buổi sau, chúng ta sẽ thực hiện các thao tác biến đổi đối với 5 dòng này.
  • Tiếp tục các thao tác tương tự với các bảng ở phía sau.

Task 5: Lấy dữ liệu từ file csv

Mục tiêu: Load file data ResellerSalesTargets.csv:
  • Để thêm một truy vấn mới trong Power Query Editor, trong thẻ Home trên thanh ribbon, trong nhóm New Query, chọn mũi tên thả xuống ở ô New Source, sau đó chọn Text/CSV.
Picture 70
  • Điều hướng đến vị trí nơi bạn lưu file, sau đó load file dữ liệu đó vào Power BI.
Thực hiện các thao tác tương tự với file csv: ColorFormats.csv

Task 6: Kết thúc

  • Bỏ các tùy chọn Column quality, Column Distribution và Column Profile trên thẻ View của thanh ribbon như sau:
Picture 76
  • Lưu file Power BI Desktop: Trong cửa sổ Power Query Editor, trên giao diện của thẻ File, chọn Save.
Picture 77
  • Khi được thông báo áp dụng các truy vấn, chọn Apply Later.
Picture 86Bạn không nên chọn Apply ngay lúc này vì Apply sẽ tải hết các dữ liệu của bạn vào trong mô hình trong khi bạn chưa thực hiện các thao tác biến đổi, làm ạch dữ liệu. Trong bài sau, chúng ta sẽ học cách làm sạch, biến đổi dữ liệu và sau đó thực hiện load chúng vào mô hình.

Video hướng dẫn thực hành Data preparation trong Power BI:

 Xem tiếp: Lab 2 – Load Data in PBI DesktopXem thêm các bài viết về Power BI Lab:Lab 3 – Model Data in Power BI DesktopLab 4 – Tạo quan hệ Many-to-many – Model Data in Power BI Desktop Lab 5 – Create DAX Calculations in Power BI Desktop, Part 1Lab 6 – Create DAX Calculations in Power BI Desktop, Part 2Lab 7 – Thiết kế Báo cáo trong Power BI – Phần 1Xem thêm kho tài nguyên về data của Datapot tại https://datapot.vn/blog/ 
16 buổi - 32h
Fresher, Junior
5.600.000 6.000.000 
Beginner
2.400.000 2.600.000 
52 giờ
Beginner
9.500.000 10.500.000 
Fresher, Junior
3.000.000 

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *