Mục lục
Giới thiệu dự án Power BI – Phân tích Popular Movies Rating
“Điều gì khiến một bộ phim được khán giả đánh giá cao? Thể loại? Cách gắn tag? Hay chính hành vi và xu hướng rating của cộng đồng xem phim?”
Đó là câu hỏi mà Đỗ Thị Thúy Hằng – Chuyên viên Phát triển kinh doanh với nền tảng kinh tế – đặt ra khi bắt đầu dự án Power BI cuối khóa tại Datapot. Xuất phát từ sở thích xem phim và mong muốn hiểu sâu hơn về cách khán giả tương tác với các tác phẩm điện ảnh, Hằng lựa chọn phân tích bộ dữ liệu MovieLens với hơn 27 triệu lượt rating và 1,1 triệu tag để khám phá yếu tố tạo nên sức hút của những bộ phim phổ biến.
Thay vì đánh giá phim theo cảm tính, Hằng tiếp cận dự án theo tư duy phân tích dữ liệu: làm sạch và chuẩn hóa dữ liệu, xử lý các mối quan hệ many-to-many giữa các bảng, truy vấn bổ sung thông tin từ IMDb/ TMDB, sau đó trực quan hóa dữ liệu bằng Power BI để tìm ra pattern về thể loại, mức rating, cách gắn tag và hành vi người dùng. Dự án giúp Hằng kể lại câu chuyện đằng sau những con số – câu chuyện về thị hiếu khán giả, xu hướng đánh giá trong cộng đồng và cách dữ liệu phản ánh độ phổ biến của các bộ phim trên toàn cầu.
Thông tin & Mục tiêu của dự án Power BI
- Học viên: Đỗ Thị Thúy Hằng
- Lớp: PL-300
- Khóa: K145
- Chủ đề dự án: Popular Movies Rating
Giới thiệu Dataset
Dự án Power BI của học viên Đỗ Thị Thúy Hằng phân tích bộ dữ liệu Popular Movies Rating từ MovieLens, một trong những nguồn dữ liệu phim phổ biến nhất thế giới. Bộ dữ liệu này ghi lại 27,7 triệu lượt rating, 1,1 triệu tag, được tạo ra bởi 283.228 người dùng trên 58.098 bộ phim, trải dài từ năm 1995 đến 2018.
Không chứa thông tin nhân khẩu học, dataset mô tả hành vi xem và đánh giá phim thuần túy – một bức tranh khách quan, giàu dữ liệu để phân tích chất lượng phim, xu hướng rating và insight người dùng.
Dataset bao gồm 6 bảng chính:
- genome-scores.csv: mức độ liên quan giữa phim và các tag người dùng gắn
- genome-tags.csv: danh sách tag và ý nghĩa
- links.csv: liên kết phim với IMDb / TMDB
- movies.csv: thông tin phim & thể loại
- ratings.csv: điểm đánh giá từ 0.5–5 sao
- tags.csv: tag tự do do người dùng gắn cho từng phim
Đây là bộ dữ liệu lý tưởng để phân tích trải nghiệm người xem, phát hiện xu hướng rating và hiểu cách khán giả tương tác với các thể loại phim – cũng là lý do Hằng, một người thích xem phim, lựa chọn làm dự án này để kết hợp sở thích cá nhân với kỹ năng phân tích dữ liệu.
Mục tiêu của dự án
Mục tiêu của dự án Popular Movies Rating trên Power BI của học viên Đỗ Thị Thúy Hằng là:
- Tóm lược xu hướng đánh giá phim qua hơn 27 triệu lượt rating để tìm ra những yếu tố ảnh hưởng đến chất lượng phim.
- Phân tích tag và hành vi gắn thẻ để hiểu chủ đề, cảm xúc hoặc nhóm nội dung người dùng quan tâm nhất.
- Khám phá hành vi người dùng, bao gồm mức độ hoạt động, tần suất đánh giá, xu hướng theo thời gian và độ “trung thành” của người xem.
- Xây dựng dashboard tương tác giúp người dùng lọc phim theo thể loại, năm phát hành, rating, tag… để tự khám phá insight theo nhu cầu.
Power BI Report
Bản report của Thúy Hằng được triển khai thành 4 trang chính, mỗi trang giải quyết một câu hỏi phân tích cụ thể:
- Overview: Tổng quan số lượng phim, số rating, top rating, phân bố thể loại, xu hướng theo thời gian.
- Rating View: Phân tích sâu xu hướng rating, phân phối điểm, mối liên hệ giữa rating – thời lượng – năm phát hành.
- Tags View: Khám phá xu hướng tag, mức độ liên quan, sự khác biệt giữa user tag & system tag.
- User Behavior: Phân tích hành vi người dùng: tần suất đánh giá, mức độ hoạt động, user retention theo năm.
Dưới đây là bản report trên Power BI của học viên:
Bài showcase trên đây là sản phẩm thực hành của học viên sau khóa học Power BI tại Datapot. Bài làm vẫn đang trong quá trình hoàn thiện và có thể được nâng cấp thêm về mặt chuyên môn. Tuy vậy, sản phẩm đã thể hiện được khả năng vận dụng kiến thức vào thực tế và là một bước tiến đáng ghi nhận trong hành trình học tập.
Bạn có thể tham khảo cách lên bố cục, triển khai insight và xử lý nội dung trong bài để lấy cảm hứng cho báo cáo hoặc sản phẩm dữ liệu sắp tới của mình.
Hành trình xây dựng báo cáo Power BI
Trong quá trình thực hiện dự án Popular Movies Rating, Đỗ Thị Thúy Hằng đã trải qua một hành trình phân tích dữ liệu đầy thử thách nhưng cũng giàu giá trị thực tiễn. Điểm khó khăn lớn nhất của Hằng đến từ việc làm sạch một bộ dữ liệu cực lớn – hơn 27 triệu dòng rating và hơn 1 triệu tag – với nhiều thông tin thiếu, nhiễu và không đồng nhất. Việc xử lý cấu trúc many-to-many giữa các bảng movies, ratings, tags, genome-scores và user activity khiến quá trình xây dựng mô hình dữ liệu trở nên phức tạp, làm hạn chế khả năng tạo quan hệ như mong muốn, dù Hằng đã có rất nhiều ý tưởng phân tích.
Để khắc phục thách thức này, Hằng chủ động truy xuất thêm thông tin country từ IMDb và TMDB dựa trên movieID nhằm hoàn thiện dữ liệu đầu vào, đồng thời xây dựng các bảng trung gian và chuẩn hóa giá trị để đảm bảo mô hình hoạt động ổn định. Sau khi hoàn thiện nền dữ liệu, Hằng tiến hành phân tích các nhóm vấn đề trọng tâm: xu hướng rating theo thời gian, phân bố tag, hành vi gắn thẻ, mức độ hoạt động của người dùng và các yếu tố ảnh hưởng đến chất lượng phim.
Từ quá trình phân tích, Hằng rút ra nhiều insight quan trọng như: thể loại nào được đánh giá tích cực nhất, mức độ tương quan giữa thời lượng – rating – tag, phim nào thu hút nhiều lượt xem và hoạt động tag nhất, và sự khác biệt giữa “power users” với người xem thông thường. Trên cơ sở đó, Hằng đề xuất các nhóm giải pháp mang tính ứng dụng cho nền tảng phim: tối ưu chiến lược đề xuất phim, quảng bá nội dung theo thị hiếu từng nhóm người xem, và xây dựng cộng đồng người dùng dựa trên dữ liệu tương tác thực tế.
Điểm nổi bật trong dự án cuối khóa của Thúy Hằng
Dù lựa chọn một đề tài khó với bộ dữ liệu lớn và nhiều mối quan hệ phức tạp, Thúy Hằng vẫn xây dựng được một báo cáo Power BI đầu tư và logic. Giảng viên đánh giá cao cách Hằng đặt nhiều góc nhìn để phân tích – từ rating, tag, thể loại đến hành vi người dùng – và biết lý giải vì sao cần trực quan hóa từng yếu tố. Nhờ đó, báo cáo giữ được mạch nội dung rõ ràng, xuyên suốt và tạo ra insight thực sự có giá trị.
Về mặt kỹ thuật, Hằng thể hiện năng lực nổi bật trong việc xử lý dữ liệu nhiều nhiễu và many-to-many. Bạn chủ động truy xuất thêm thông tin country từ IMDb/TMDB, chuẩn hóa dữ liệu và xây dựng mô hình phù hợp để triển khai các biểu đồ phức tạp như cohort retention, scatter plot hay wordcloud. Điều này phản ánh sự hiểu biết sâu về dataset và khả năng ứng dụng Power BI một cách linh hoạt.
Tổng thể, dự án Popular Movies Rating thể hiện rõ sự đầu tư, chỉn chu và tư duy phân tích nghiêm túc. Không chỉ mô tả số liệu, Hằng còn truyền tải insight và đề xuất hướng khai thác nội dung phim có tính ứng dụng. Đây là cột mốc quan trọng chứng minh năng lực của bạn trong việc kết hợp dữ liệu – trực quan hóa – storytelling để tạo ra giá trị thực tế.

Buổi thuyết trình của học viên Thúy Hằng
Giảng viên nhận xét gì về dự án đầu tay của Thúy Hằng?
“Đề tài khó nhưng bài làm rất đầu tư, chất lượng và truyền tải được insight rõ ràng.”
Thầy Hồ Bá Cường – Giảng viên bộ môn Power BI nhận xét
Đặc biệt, Thúy Hằng đã đạt giải Nhì bài thuyết trình cuối khóa, chứng minh sự nghiêm túc, khả năng xử lý kỹ thuật tốt và tư duy phân tích chín chắn – điều rất đáng khen với một học viên lần đầu làm dự án Power BI thực tế.
Điều Thúy Hằng tâm đắc nhất trong quá trình học:
Sau dự án, Thúy Hằng nhận ra rằng giá trị lớn nhất không nằm ở bản báo cáo cuối cùng, mà ở hành trình học cách “thuần hóa” một bộ dữ liệu lớn và phức tạp. Từ việc nắm rõ quy trình ETL, làm sạch – chuẩn hóa dữ liệu, mô hình hóa theo fact–dim cho đến xử lý các quan hệ many-to-many, Hằng dần hình thành tư duy phân tích có hệ thống. Dự án cũng giúp bạn rèn luyện khả năng kể chuyện bằng dữ liệu: biết đặt câu hỏi đúng, chọn visual phù hợp và kết nối các góc nhìn rating – tag – hành vi người dùng thành một dòng phân tích mạch lạc và có chiều sâu. Đây chính là nền tảng quan trọng giúp Hằng tự tin ứng dụng Power BI vào công việc và định hướng phát triển sự nghiệp dữ liệu trong tương lai.
Dự án Popular Movies Rating không chỉ là một bài tập cuối khóa, mà còn đánh dấu bước tiến quan trọng của Đỗ Thị Thúy Hằng – từ một người yêu phim trở thành người có khả năng phân tích và khai thác insight từ một bộ dữ liệu đồ sộ, nhiều nhiễu và đầy thách thức. Từ xử lý dữ liệu, xây dựng mô hình, đến trực quan hóa hành vi người xem, Hằng đã cho thấy rằng khi có phương pháp đúng, dữ liệu dù phức tạp đến đâu cũng có thể kể lại những câu chuyện có giá trị.
Đó cũng chính là điều Datapot luôn theo đuổi ở mỗi khóa học: học thật – làm được – có người đồng hành để bạn đi đúng và đi xa. Nếu bạn cũng đang tìm kiếm con đường để không chỉ học công cụ mà còn biết biến dữ liệu thành insight thực sự, câu chuyện của Thúy Hằng chính là lời nhắn nhủ dành cho bạn.
