Wednesday, April 17, 2024

Tổng quan về Data Visualization

Tổng quan về Data Visualization (Trực quan hóa dữ liệu)

Data Visualization thường được sử dụng sau khi có kết quả phân tích từ dữ liệu, tức có được thông tin trích xuất từ dữ liệu để trình bày cho người xem, người đọc.
Data Visualization có thể được sử dụng trước khi dữ liệu được đưa vào giai đoạn phân tích.
VD: Các bạn muốn tìm hiểu trước về các biến dữ liệu. Mối quan hệ giữa chúng là gì để suy nghĩ về các mô hình dự báo. Họ có thể vẽ trước các đồ thị để xem xét. Đây có thể gọi là giai đoạn Data Exploration hoặc phương pháp tóm tắt trình bày dữ liệu trong Statistics.

1. Khái niệm về Data Visualization:

  • Là tạo ra các đồ thị, biểu đồ hoặc sử dụng các phương pháp khác nhau để trực quan hóa dữ liệu được tốt nhất.
  • Mục đích: Biến nguồn dữ liệu thành thông tin được thể hiện trực quan, dễ quan sát, dễ hiểu. Truyền đạt rõ ràng những hiểu biết đầy đủ từ dữ liệu đến người đọc, người xem.

2. Data Visualization là phương pháp tóm tắt và trình bày dữ liệu:

  • Data Visualization không chỉ giúp người đọc, người xem nắm bắt thông tin mà còn giúp nhà phân tích dữ liệu phân tích khai thác dữ liệu tối ưu.
  • Phương pháp tóm tắt, trình bày dữ liệu trong Statistics (Số liệu thống kê) là một phần nằm trong Data Visualization. Vì nó liên quan đến việc thể hiện và diễn tả dữ liệu định tính, định lượng dưới dạng các đồ thị phù hợp. Cũng là một dạng trực quan dữ liệu.
  • Tóm tắt, trình bày, mô tả dữ liệu trong thống kê chia làm 2 dạng phụ thuộc vào tính chất của dữ liệu:

2.1. Dữ liệu định tính (Qualitative Data):

  • Dữ liệu định tính phản ánh tính chất, loại hình, không có biểu hiện trực tiếp bằng con số.

VD: Nghề nghiệp, học thức, tôn giáo, giới tính, tình trạng hôn nhân,…

  • Chúng ta có thể đếm số quan sát của từng loại (tần số).
  • Tính % của từng loại trong tổng thể (tần suất).
  • Biểu đồ dữ liệu định tính phải được tóm tắt và sắp xếp dưới dạng các bảng phân phối tần số gọi là Frequency Distribution Table để thể hiện dữ liệu định tính dưới dạng đồ thị.
Phân tổ hoặc nhóm
  • Quá trình chúng ta căn cứ vào một, một số biến có đặc trưng cụ thể để sắp xếp các đơn vị quan sát vào tổ, nhóm đặc điểm khác nhau.
  • Là chia mẫu hoặc tổng thể thành các tổ nhóm có tính chất khác nhau.
Lưu ý:
  • Đối với dữ liệu định lượng đươc chuyển đổi thành dữ liệu định tính để khảo sát về phân phối tần suất cũng có thể được chia tổ/nhóm. VD:
    • Thu nhập bình quân hàng tháng của 50 hộ gia đình rất đa dạng về phạm vi. Để tóm tắt đơn giản ta có thể chia tổ, nhóm theo:
    • Thu nhập dưới 5 triệu: 5 hộ
    • Thu nhập 5 đến 10 triệu: 12 hộ
    • Thu nhâp 10 đến 15 triệu: 23 hộ
    • Trên 15 triệu: 9 hộ.
Tiếp theo là phần quan trọng: trình bày dữ liệu định tính bằng đồ thị, biểu đồ nào.
  • Để trực quan dữ liệu định tính theo cách phân phối tần số. Chúng ta cần vẽ các biểu đồ cột đứng hoặc ngang (Bar chart/ Column chart), biểu đồ tròn (Pie chart), biểu đồ Parento.
  • Các biểu đồ được minh họa như sau:
Bar chart/ Column chart
  • Biểu đồ cột là biểu đồ đơn giản, trực quan nhất. Người xem dễ thấy rõ yếu tố nào có giá trị lớn nhất, bé nhất, sự hơn kém giữa chúng.
  • Ở cột đứng, cột ngang “Tần số”. Các bạn có thể thay bằng “Tần suất” với giá trị tần suất của mỗi loại nước giải khát để vẽ biểu đồ.
  • Biểu đồ cột đứng hay cột ngang thể hiện tần số của mỗi loại, mỗi đối tượng và thể hiện sự so sánh giữa chúng.
Pie chart:
  • Biểu đồ tròn giống như một cái bánh và mỗi lát bánh ứng với từng thành phần khảo sát.
  • Kích thước của mỗi lát tương ứng với tỉ lệ phần trăm số quan sát. Còn lại là tần suất trong tổng thể hoặc mẫu.
  • Biểu đồ tròn cũng thể hiện được sự hơn kém giữa các phần nhưng không rõ bằng biểu đồ cột.
Pareto chart:
  • Là biểu đồ cột mà các cột được sắp xếp theo thứ tự từ thấp đến cao theo tần số.
  • Còn các giá trị tần suất tích lũy được biểu diễn bằng đường thẳng.
  • Biểu đồ Pareto thường được sử dụng trong lĩnh vực kinh doanh để xác định các kết quả phổ biến nhất.

Chẳng hạn xác định các sản phẩm bán phổ biến nhất hoặc các khiểu nại từ trung tâm chăm sóc khách hàng phổ biến nhất. Mục đích: Để tìm ra nguyên nhân quan trọng nhất trong một nhóm nguyên nhân.

Dữ liệu định lượng (Quantitative Data):
  • Trường hợp dữ liệu định lượng ít.

Ví dụ độ tuổi của 30 sinh viên đang học tại trường Đại học Kinh tế thành phố Hà Nội (hệ Đại học trở lên) như sau:

28 22 25 21 26 24 23 30 31 33 19 20 22 27 30 19 28 31 22 27 37 35 22 19 22 23 26 28 25 36

Sử dụng biểu đồ thân và lá để tóm tắt, với lá là số liệu bên phải của các giá trị dữ liệu (có thể là 1 hay 2 chữ số hàng đơn vị hay hàng chục).

Nhánh là số liệu bên trái của các giá trị dữ liệu (có thể là 1 hay 2 chữ số hàng chục, hay hàng trăm).

Tóm tắt dữ liệu:

Số bên trái 1, 2, 3 là nhánh, ở vị trí hàng chục, số bên phải là hàng đơn vị, là lá. Biểu đồ nhánh lá được thực hiện trong SPSS có kết quả như sau:

 

 

    • Dữ liệu định lượng.
Rate this post
46,788FansLike

Bài Viết Mới