lab 1: prepare data in pbi

Power BI PL300 lab 1: Prepare Data in Power BI Desktop

Ngày đăng: 10/03/2022

Đây là bài thực hành nằm trong chuỗi bài luyện tập Power BI của Microsoft. Xuyên suốt chuỗi bài này, chúng ta sẽ đi từ khâu đầu tiên trong quá trình phân tích dữ liệu bằng Power BI – chuẩn bị dữ liệu (prepare data), cho đến những bước cuối cùng – xuất bản báo cáo (publish) dưới dạng report hoặc dashboard. Mục tiêu cuối cùng của series này là xây dựng một giải pháp Power BI cho công ty Adventure Works – công ty sản xuất và kinh doanh đồ thể thao mạo hiểm đa quốc gia.

Bạn có thể thực hiện từng bài thực hành theo thứ tự bất kỳ mà bạn mong muốn, tuy nhiên, để thuận lợi nhất cho quá trình luyện tập, chúng mình đề xuất thứ tự luyện tập như sau:

  1. Prepare Data in Power BI Desktop 
  2. Load Data in Power BI Desktop
  3. Model Data in Power BI Desktop, Part 1
  4. Model Data in Power BI Desktop, Part 2
  5. Create DAX Calculations in Power BI Desktop, Part 1
  6. Create DAX Calculations in Power BI Desktop, Part 2
  7. Design a Report in Power BI Desktop, Part 1
  8. Design a Report in Power BI Desktop, Part 2
  9. Create a Power BI Dashboard
  10. Create a Power BI Paginated Report
  11. Perform Data Analysis in Power BI Desktop
  12. Enforce Row-Level Security

Xem học liệu gốc của Microsoft tại đây: https://microsoftlearning.github.io/DA-100-Analyzing-Data-with-Power-BI/ 

Mục tiêu của lab

Trong bài thực hành này, chúng ta sẽ bắt đầu phát triển giải pháp Power BI cho công ty Adventure Works bao gồm kết nối tới nguồn dữ liệu, xem trước dữ liệu, sử dụng các kỹ thuật xem trước dữ liệu để nắm được các đặc điểm và chất lượng của bộ dữ liệu nguồn.

Thông qua đó, bạn sẽ có thể:

  • Mở Power BI Desktop và thiết lập các cài đặt
  • Kết nối tới nguồn dữ liệu
  • Xem trước dữ liệu gốc
  • Sử dụng các kỹ thuật xem trước dữ liệu để hiểu dữ liệu tốt hơn

Chuẩn bị trước khi thực hành Data Prepare trên Power BI Desktop

Cài đặt Power BI Desktop (xem hướng dẫn cài đặt Power BI Desktop: https://www.youtube.com/watch?v=W4HjvxHs5FY&t=4s

Cài đặt restore database Adventure Works 2020:

Lưu ý: các thao tác chuẩn bị là bắt buộc để có thể thực hiện các lab ở phía sau.

Thời gian thực hiện ước tính: 45 phút 

Hướng dẫn thực hành chuẩn bị dữ liệu trong Power BI

Task 1: Tạo file Power BI Desktop và lưu file

Task đầu tiên trong Lab Data Prepare, chúng ta sẽ thực hiện như sau:

  • Mở Power BI Desktop: Trên thanh tác vụ taskbar, click vào biểu tượng lối tắt Power BI Desktop để mở

prepare data - moc lab

  • Cick vào thẻ File trên thành ribbon để mở giao diện File, sau đó chọn Save.
    prepare data 2 - moc labs
  • Lưu file vào vị trí bạn mong muốn.

Bạn cũng có thể lưu file bằng cách click vào biểu tượng Save ở góc trên bên trái màn hình.

Task 2: Thiết lập các tùy chọn cho Power BI Desktop

Trong Power BI Desktop, chọn thẻ File trên thanh ribbon để mở giao diện hiển thị hậu trường (backstage view) của File. Ở góc bên trái, chọn Options and Settings, rồi chọn Options

Trong cửa sổ Options, ở phía bên trái, trong nhóm Current File, chọn Data Load. 

Trong nhóm Relationships, bỏ chọn các tùy chọn như sau:

Mục đích của việc tắt các chế độ này đi là để phục vụ cho các task phía sau của lab, trên thực tế, việc bật hai chế độ này sẽ rất có lợi khi xây dựng mô hình dữ liệu. Khi tạo các quan hệ trong lab phía sau – Load Data in Power BI Desktop, chúng ta sẽ hiểu vì sao chúng ta cần bật chúng lên.

Sau đó chọn OK.

Task 3: Lấy dữ liệu từ SQL Server

  • Trên thẻ Home của thanh ribbon, trong nhóm Data, chọn SQL Server.

data preparation

  • Trên cửa sổ SQL Server Database, nhập vào thông tin Server là localhost

  • Sau đó, cửa sổ dưới đây sẽ xuất hiện: 

  • Chọn và mở rộng Database “AdventureWorksDW2020”. Đến đây, bạn có thể xem bất kỳ một bảng dữ liệu nào bằng các click tên bảng (không phải ô checkbox), ở bên tay phải, bạn sẽ thấy có một bản xem trước dữ liệu trong bảng.
  • Chọn các bảng dữ liệu sau đây bằng cách click vào ô trước tên bảng dữ liệu:
    • DimEmployee
    • DimEmployeeSalesTerritory
    • DimProduct
    • DimReseller
    • DimSalesTerritory
    • FactResellerSales
  • Sau đó chọn Transform Data (trong bài này, chúng ta sẽ không thực hiện các thao tác transform data – biến đổi dữ liệu mà chỉ quan sát và phân tích các đặc tính và chất lượng bộ dữ liệu).

Task 4: Xem trước truy vấn SQL Server

Mục tiêu của task này trong bài thực hành Data Preparation là giúp bạn làm quen được với dữ liệu, hiểu được về dữ liệu và đánh giá được chất lượng của bộ dữ liệu. 

  • Trong cửa sổ Power Query Editor, các bảng dữ liệu sau khi được load sẽ nằm ở phía bên trái (Queries pane).

  • Chọn bảng dữ liệu truy vấn đầu tiên —DimEmployee. Bảng DimEmployee trong cơ sở dữ liệu (CSDL) SQL Server thể hiện mỗi dòng cho một employee – công nhân/nhân viên công ty.

 

  • Quan sát bảng dữ liệu và đưa ra một số nhận xét về bảng dữ liệu đó như: Số lượng cột, số lượng dòng, kiểu dữ liệu của từng cột, v..vv… (Công việc này được gọi là metadata discovery, hay profiling data). Ở góc dưới cùng bên trái là thanh trạng thái: nó cho biết thống kê của bảng: bảng của bạn gồm 33 cột và 296 dòng. Lăn chuột theo chiều ngang để xem hết các cột trong bảng.

  • Để đánh giá chất lượng của cột, trên thẻ View trên thanh ribbon, trong nhóm Data Previewbạn chọn Column Quality: tính năng này cho phép bạn dễ dàng đánh giá tỷ lệ ô chứa dữ liệu có nghĩa, lỗi, hoặc ô không có dữ liệu trong cột. Ở đây, với cột Position, bạn sẽ thấy 94% ô trong cột này bị trống (null)

  • Để xem phân bổ các giá trị trong cột, trên thẻ View trên thanh ribbon, trong nhóm Data Previewchọn Column Distribution: bạn sẽ thấy cột Position có 4 giá trị khác nhau tồn tại (distinct), 1 giá trị là duy nhất (unique). Tương tự, bạn sẽ thấy cột EmployeeKey có 296 giá trị khác nhau và cũng là 296 giá trị duy nhất.Khi đó, cột EmployeeKey của bạn là cột chứa các giá trị duy nhất – unique. Những cột như thế này sẽ được sử dụng trong phần xây dựng mô hình (sẽ học ở bài thực hành sau – Model Data in Power BI Desktop)

  • Column profile:  trên thẻ View trên thanh ribbon, trong nhóm Data Previewtick chọn Column Profile và chuyển sang bảng DimReseller, cột tiêu đề cột BusinessType. Bạn sẽ thấy có một ngăn mới xuất hiện ở phía dưới giao diện xem trước dữ liệu, ngăn này thể hiện thống kê và phân bổ các giá trị trong cột. Với cột này, bạn sẽ thấy có hai nhãn dữ liệu warehouse (gồm Warehouse và từ sai chính tả là Ware House)

Di chuột đến thanh Ware House, bạn sẽ thấy rằng có 5 dòng có chứa giá trị bị sai chính tả này. Trong buổi sau, chúng ta sẽ thực hiện các thao tác biến đổi đối với 5 dòng này.

  • Tiếp tục các thao tác tương tự với các bảng ở phía sau.

Task 5: Lấy dữ liệu từ file csv

Mục tiêu: Load file data ResellerSalesTargets.csv:

  • Để thêm một truy vấn mới trong Power Query Editor, trong thẻ Home trên thanh ribbon, trong nhóm New Query, chọn mũi tên thả xuống ở ô New Source, sau đó chọn Text/CSV.

prepare data

  • Điều hướng đến vị trí nơi bạn lưu file, sau đó load file dữ liệu đó vào Power BI.

Thực hiện các thao tác tương tự với file csv: ColorFormats.csv

Task 6: Kết thúc

  • Bỏ các tùy chọn Column quality, Column Distribution và Column Profile trên thẻ View của thanh ribbon như sau:

data prepare

  • Lưu file Power BI Desktop: Trong cửa sổ Power Query Editor, trên giao diện của thẻ File, chọn Save.

  • Khi được thông báo áp dụng các truy vấn, chọn Apply Later.

chuẩn bị dữ liệu trong power bi

Bạn không nên chọn Apply ngay lúc này vì Apply sẽ tải hết các dữ liệu của bạn vào trong mô hình trong khi bạn chưa thực hiện các thao tác biến đổi, làm ạch dữ liệu. Trong bài sau, chúng ta sẽ học cách làm sạch, biến đổi dữ liệu và sau đó thực hiện load chúng vào mô hình.

Video hướng dẫn thực hành Data preparation trong Power BI:

 

Xem tiếp: Lab 2 – Load Data in PBI Desktop

Xem thêm kho tài nguyên về data của Datapot tại https://datapot.vn/blog/ 

-8%
Fresher, Junior
4.800.000 5.200.000 
-17%
Beginner
8.100.000 8.800.000 
-8%
Beginner
2.400.000 
Fresher, Junior
3.000.000 

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *