The Art of Statistics - Lời khuyên hữu ích cho người làm khoa học dữ liệu
Thống kê là một phần không thể thiếu trong cuộc sống hiện đại. Từ dự báo thời tiết, đến phân tích kinh doanh, đến nghiên cứu y học, chúng ta dựa vào thống kê để hiểu thế giới xung quanh. Tuy nhiên, thống kê cũng có thể bị lạm dụng hoặc hiểu sai nếu không được áp dụng đúng cách.
Trong cuốn sách The Art of Statistics: How to Learn from Data, tác giả David Spiegelhalter - một nhà thống kê học và giáo sư tại Đại học Cambridge - đã chia sẻ những lời khuyên quý báu về cách sử dụng thống kê một cách có trách nhiệm. Hãy cùng Bookee điểm qua những điểm chính trong cuốn sách này:
1. Phân biệt giữa sự kiện và sự giải thích
Một số sự kiện thống kê chỉ đơn giản là sự kiện, nhưng chúng ta hay có xu hướng giải thích chúng theo cách riêng của mình. Ví dụ, xác suất của một sự kiện hiếm gặp là 1/1 triệu. Nếu sự kiện đó xảy ra với bạn, bạn có thể cho rằng mình "may mắn" hay "không may mắn" tùy quan điểm. Nhưng trên thực tế, đó chỉ đơn giản là một sự kiện thống kê ngẫu nhiên.
Chúng ta nên phân biệt rõ ràng giữa sự kiện và cách giải thích của mình về sự kiện đó. Điều này giúp tránh những kết luận sai lệch hoặc thiên kiến nhận thức.
2. Hiểu rõ khái niệm xác suất
Xác suất là một khái niệm quan trọng nhưng thường bị hiểu nhầm trong thống kê. Xác suất không phải là một dự đoán chắc chắn về tương lai, mà chỉ phản ánh mức độ tin tưởng dựa trên bằng chứng hiện tại. Một sự kiện có xác suất 95% không có nghĩa là nó nhất định xảy ra.
Ngoài ra, xác suất cá nhân và xác suất dân số là hai khái niệm khác nhau. Ví dụ, nguy cơ mắc bệnh ung thư phổi của một người hút thuốc là 25%. Nhưng điều đó không có nghĩa là 25% người hút thuốc sẽ bị ung thư phổi.
3. Tránh nhầm lẫn giữa tương quan và nhân quả
Thống kê thường tìm ra mối tương quan giữa hai biến. Tuy nhiên, tương quan không nhất thiết chứng minh mối quan hệ nhân quả. Ví dụ, có tương quan giữa việc ăn kem và đuối nước, nhưng rõ ràng ăn nhiều kem không phải là nguyên nhân gây đuối nước.
Chỉ khi có thể kiểm soát các yếu tố khác và thiết lập mối quan hệ nhân quả một cách khoa học thông qua thử nghiệm, chúng ta mới có thể khẳng định được một nguyên nhân dẫn đến hậu quả nhất định.
4. Đọc kỹ lưỡng các bảng thống kê
Các bảng thống kê dễ gây hiểu lầm nếu đọc qua loa. Chúng ta cần đọc kỹ chú thích, hiểu rõ các thuật ngữ (trung bình, trung vị, phương sai,...), biết cách diễn giải các con số đúng cách.
Ngoài ra, cần lưu ý xem dữ liệu thu thập có đủ lớn và đại diện cho quần thể không. Một nghiên cứu nhỏ hoặc mẫu không ngẫu nhiên có thể cho kết quả sai lệch so với thực tế.
5. Đánh giá các rủi ro và lợi ích
Khi đưa ra quyết định dựa trên thống kê, chúng ta cần cân nhắc kỹ các rủi ro và lợi ích liên quan. Câu hỏi then chốt là liệu lợi ích có đủ lớn để bù đắp cho rủi ro tiềm ẩn hay không.
6. Trình bày dữ liệu một cách trung thực
Khi trình bày dữ liệu thống kê, người làm khoa học dữ liệu cần trung thực với bằng chứng, không cố tình làm nổi bật hoặc che giấu thông tin nào. Hãy liệt kê rõ giả định, giới hạn, sai số có thể có để người đọc có cái nhìn khách quan.
Đồ họa và biểu đồ cũng có thể bị thao túng để nhấn mạnh hoặc che giấu thông tin nhất định. Do đó, hãy sử dụng phương pháp trình bày phù hợp và trung thực nhất với dữ liệu.
7. Suy nghĩ đa chiều về các vấn đề
Thống kê không thể đưa ra lời giải đáp hoàn hảo cho các vấn đề phức tạp. Thay vào đó, hãy hiểu rằng nhiều yếu tố đan xen nhau tác động lên vấn đề. Luôn cố gắng nhìn nhận vấn đề từ nhiều góc độ, đặt câu hỏi về giả định và luận điểm của mình.
8. Sử dụng ngôn ngữ chính xác để diễn đạt ý tưởng
Ngôn ngữ sử dụng trong thống kê cần chính xác, rõ ràng. Tránh những từ mang tính suy diễn chủ quan như "chứng minh", "chắc chắn". Thay vào đó, hãy sử dụng các từ như "cho thấy", "gợi ý",...để diễn đạt mức độ tin cậy vào kết quả.
Những cuốn sách hay về thống kê khác, bao gồm:
- Naked Statistics: Stripping the Dread from the Data
- Statistics 101: From Data Analysis and Predictive Modeling to Measuring Distribution and Determining Probability, Your Essential Guide to Statistics (Adams 101)
- The Cartoon Guide to Statistics
- The Data Detective: Ten Easy Rules to Make Sense of Statistics
- A Field Guide to Lies: Critical Thinking with Statistics and the Scientific Method
- How to Lie with Statistics