Tài liệu này được biên soạn dựa trên cấu trúc khóa học “Statistics and Probability” trên Khan Academy, cung cấp lý thuyết chi tiết, phân tích ví dụ và gợi ý thực hành để giúp bạn nắm bắt sâu sắc các khái niệm quan trọng.
Khan Academy
(nguồn: https://vi.khanacademy.org/math/statistics-probability)
Tổng quan khóa học
Khóa học “Xác suất và Thống kê” trên Khan Academy bao gồm 16 đơn vị (units), đi từ các khái niệm cơ bản về phân tích và hiển thị dữ liệu đến các chủ đề nâng cao hơn như phân phối dữ liệu, thiết kế nghiên cứu, xác suất, biến ngẫu nhiên và kiểm định giả thuyết. Dưới đây là diễn giải chi tiết cho các đơn vị chính, tập trung vào lý thuyết và ví dụ thực hành.
Unit 1: Phân tích Dữ liệu Định tính (Categorical Data)
Mục tiêu: Hiểu cách tổ chức, hiển thị và phân tích dữ liệu định tính.
1.1. Cá thể, Biến và Dữ liệu Định tính & Định lượng
Lý thuyết:
Cá thể (Individuals): Các đối tượng mà chúng ta thu thập thông tin (ví dụ: học sinh, sản phẩm, quốc gia).
Biến (Variables): Các thuộc tính của cá thể (ví dụ: giới tính, màu tóc, số lượng bán ra).
Dữ liệu Định tính (Categorical/Qualitative Data): Biểu thị các thuộc tính hoặc danh mục, không thể đo lường bằng số (ví dụ: giới tính – “nam”, “nữ”; loại xe – “sedan”, “SUV”).
Dữ liệu Định lượng (Quantitative Data): Biểu thị các giá trị số có thể đo lường hoặc đếm (ví dụ: chiều cao, cân nặng, số lượng học sinh).
Ví dụ phân tích:
Giả sử bạn thu thập thông tin về 100 khách hàng (cá thể) của một cửa hàng.
Biến định tính: “Giới tính” (Nam/Nữ), “Phương thức thanh toán” (Tiền mặt/Thẻ), “Loại sản phẩm mua nhiều nhất” (Quần áo/Đồ điện tử/Gia dụng).
Biến định lượng: “Tuổi”, “Số tiền đã chi tiêu”, “Số lần ghé thăm cửa hàng”.
Thực hành:
Cho một tập dữ liệu nhỏ (ví dụ: thông tin về 5 cuốn sách: tiêu đề, thể loại, giá, số trang, nhà xuất bản), xác định cá thể, biến và phân loại biến thành định tính hoặc định lượng.
1.2. Biểu đồ và Bảng Tần số
Lý thuyết:
Biểu đồ hình ảnh (Picture Graphs): Sử dụng các biểu tượng để đại diện cho số lượng.
Biểu đồ cột (Bar Graphs): Hiển thị tần số hoặc tỷ lệ của các danh mục khác nhau. Chiều cao của cột tỷ lệ với giá trị.
Bảng tần số hai chiều (Two-way Frequency Tables): Dùng để tóm tắt dữ liệu định tính cho hai biến, cho phép xem xét mối quan hệ giữa chúng.
Bảng tần số tương đối hai chiều (Two-way Relative Frequency Tables): Tương tự bảng tần số hai chiều nhưng hiển thị tỷ lệ phần trăm.
Ví dụ phân tích:
Tạo biểu đồ cột: Khảo sát về màu xe yêu thích của 50 người: Đỏ (15), Xanh (10), Trắng (20), Đen (5). Biểu đồ cột sẽ có 4 cột, mỗi cột đại diện cho một màu, với chiều cao tương ứng số lượng người chọn.
Bảng tần số hai chiều: Mối quan hệ giữa “Giới tính” và “Sở thích đọc sách” (Thích/Không thích). | | Thích đọc sách | Không thích đọc sách | Tổng | | :— | :—: | :—: | :—: | | Nam | 30 | 20 | 50 | | Nữ | 40 | 10 | 50 | | Tổng | 70 | 30 | 100 |
Từ bảng trên, bạn có thể tính phân phối biên (marginal distribution): 70% tổng số người thích đọc sách, và phân phối có điều kiện (conditional distribution): Trong số những người Nam, 30/50 = 60% thích đọc sách.
Thực hành:
Cho dữ liệu về số lượng các loại trái cây bán được trong một tuần (Táo: 50kg, Chuối: 70kg, Cam: 30kg, Xoài: 40kg). Tạo một biểu đồ cột.
Tạo bảng tần số hai chiều từ dữ liệu khảo sát 100 người về “Tình trạng hút thuốc” (Có/Không) và “Giới tính” (Nam/Nữ). Phân tích xu hướng từ bảng.
Unit 2: Hiển thị và So sánh Dữ liệu Định lượng
Mục tiêu: Học cách sử dụng các biểu đồ để hiển thị và so sánh các tập dữ liệu định lượng.
2.1. Biểu đồ Phân phối Dữ liệu
Lý thuyết:
Bảng tần số (Frequency Tables): Liệt kê các giá trị hoặc khoảng giá trị và số lần chúng xuất hiện.
Biểu đồ chấm (Dot Plots): Biểu diễn từng điểm dữ liệu bằng một dấu chấm trên trục số, hữu ích cho tập dữ liệu nhỏ.
Biểu đồ tần số (Histograms): Chia dữ liệu thành các khoảng (bins) và hiển thị số lượng điểm dữ liệu trong mỗi khoảng bằng các cột.
Biểu đồ thân và lá (Stem and Leaf Plots): Tổ chức dữ liệu bằng cách tách mỗi số thành “thân” (chữ số hàng đầu) và “lá” (chữ số cuối cùng).
Ví dụ phân tích:
Tạo Histogram: Điểm thi môn toán của 20 học sinh: 60, 65, 70, 70, 75, 75, 80, 80, 80, 85, 85, 85, 90, 90, 90, 95, 95, 100, 100, 100.
Bạn có thể chia thành các khoảng: [60-69], [70-79], [80-89], [90-100]. Histogram sẽ cho thấy tần số các điểm trong mỗi khoảng.
Thực hành:
Cho tập dữ liệu về số giờ học mỗi ngày của 15 sinh viên: 2, 3, 2.5, 4, 3.5, 2, 5, 3, 2.5, 4.5, 3, 2, 4, 3.5, 5. Tạo một biểu đồ chấm (dot plot) và một biểu đồ tần số (histogram).
2.2. Hình dạng và Đặc điểm của Phân phối
Lý thuyết:
Hình dạng phân phối:
Đối xứng (Symmetric): Dữ liệu phân bố đều hai bên trung tâm.
Lệch phải (Right-skewed/Positive-skewed): Đuôi dài hơn về phía bên phải (giá trị lớn hơn).
Lệch trái (Left-skewed/Negative-skewed): Đuôi dài hơn về phía bên trái (giá trị nhỏ hơn).
Cụm (Clusters), Khoảng trống (Gaps), Đỉnh (Peaks): Các đặc điểm nổi bật trên biểu đồ tần số.
Ví dụ phân tích:
Phân phối thu nhập thường lệch phải vì có một số ít người có thu nhập rất cao kéo dài “đuôi” về phía bên phải.
Chiều cao của người trưởng thành thường có phân phối đối xứng và gần với hình chuông (phân phối chuẩn).
Thực hành:
Quan sát các biểu đồ bạn đã tạo ở trên hoặc tìm kiếm các ví dụ histogram/dot plot khác, mô tả hình dạng, cụm, khoảng trống và đỉnh của chúng.
Unit 3: Tóm tắt Dữ liệu Định lượng
Mục tiêu: Tính toán và diễn giải các thống kê tóm tắt chính để mô tả tập dữ liệu định lượng.
3.1. Các Thước đo Trung tâm
Lý thuyết:
Số trung bình (Mean): Tổng tất cả các giá trị chia cho số lượng giá trị. Dễ bị ảnh hưởng bởi giá trị ngoại lai (outliers).
Số trung vị (Median): Giá trị ở giữa của tập dữ liệu đã được sắp xếp. Ít bị ảnh hưởng bởi giá trị ngoại lai.
Số yếu vị (Mode): Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
Ví dụ phân tích:
Điểm thi: 60, 70, 80, 90, 100.
Mean: (60+70+80+90+100) / 5 = 80.
Median: 80 (sau khi sắp xếp).
Mode: Không có giá trị nào lặp lại. Nếu có thêm một điểm 90, thì Mode là 90.
Ảnh hưởng của giá trị ngoại lai: Nếu thêm điểm 10 vào tập trên: 10, 60, 70, 80, 90, 100.
Mean: (10+60+70+80+90+100) / 6 = 68.33. Mean bị kéo xuống đáng kể.
Median: (70+80)/2 = 75. Median ít bị ảnh hưởng hơn.
Thực hành:
Cho tập dữ liệu về số lượng sản phẩm bán được mỗi ngày trong một tuần: 15, 20, 12, 18, 25, 10, 15. Tính mean, median, mode.
Thêm một giá trị ngoại lai (ví dụ: 100) vào tập dữ liệu trên và tính lại mean, median để xem sự thay đổi.
3.2. Các Thước đo Độ phân tán
Lý thuyết:
Khoảng giá trị (Range): Max – Min. Đơn giản nhưng rất nhạy cảm với giá trị ngoại lai.
Khoảng tứ phân vị (Interquartile Range – IQR): Q3 – Q1. Khoảng chứa 50% dữ liệu ở giữa, ít bị ảnh hưởng bởi giá trị ngoại lai. (Q1 là tứ phân vị thứ nhất, Q3 là tứ phân vị thứ ba).
Độ lệch chuẩn (Standard Deviation): Đo lường độ phân tán trung bình của các điểm dữ liệu so với giá trị trung bình. Giá trị lớn hơn cho thấy dữ liệu phân tán rộng hơn.
Phương sai (Variance): Bình phương của độ lệch chuẩn.
Độ lệch tuyệt đối trung bình (Mean Absolute Deviation – MAD): Giá trị trung bình của khoảng cách tuyệt đối giữa mỗi điểm dữ liệu và giá trị trung bình.
Ví dụ phân tích:
Điểm thi: 60, 70, 80, 90, 100. Mean = 80.
Range: 100 – 60 = 40.
Độ lệch chuẩn (dạng dân số):
Tính độ lệch từng điểm so với mean: (-20, -10, 0, 10, 20).
Bình phương các độ lệch: (400, 100, 0, 100, 400).
Tính tổng bình phương: 400+100+0+100+400 = 1000.
Chia cho số lượng điểm (n=5): 1000/5 = 200 (Variance).
Căn bậc hai của phương sai: \sqrt{200} \approx 14.14.
Xác định giá trị ngoại lai (Outliers): Sử dụng IQR. Một điểm dữ liệu được coi là ngoại lai nếu nó nhỏ hơn Q1 – 1.5 \times IQR hoặc lớn hơn Q3 + 1.5 \times IQR.
Thực hành:
Tính IQR và độ lệch chuẩn cho tập dữ liệu số lượng sản phẩm bán được ở ví dụ trên.
Sử dụng quy tắc IQR để kiểm tra xem có giá trị ngoại lai nào trong tập dữ liệu đó không.
3.3. Biểu đồ Hộp (Box Plots)
Lý thuyết:
Biểu đồ hộp hiển thị tóm tắt năm số (Five-number summary): Min, Q1, Median (Q2), Q3, Max.
Hữu ích để so sánh phân phối của nhiều nhóm.
Ví dụ phân tích:
Một Box plot sẽ có một “hộp” kéo dài từ Q1 đến Q3, một đường ở giữa hộp biểu thị Median. Các “râu” (whiskers) kéo dài từ hộp đến giá trị min/max trong phạm vi 1.5 IQR. Các điểm ngoài râu là các giá trị ngoại lai.
Thực hành:
Vẽ một box plot cho tập dữ liệu điểm thi ở ví dụ trên (tự tính Q1, Q3, Min, Max hoặc sử dụng công cụ).
Unit 4: Mô hình Phân phối Dữ liệu
Mục tiêu: Hiểu về các khái niệm percentile, z-scores và đặc biệt là phân phối chuẩn.
4.1. Percentile và Z-scores
Lý thuyết:
Percentile: Giá trị mà dưới đó một tỷ lệ phần trăm nhất định của các quan sát rơi vào. Ví dụ, nếu bạn ở percentile 90 về chiều cao, nghĩa là bạn cao hơn 90% số người trong nhóm.
Z-score (Điểm Z): Đo lường số lượng độ lệch chuẩn mà một điểm dữ liệu cách xa giá trị trung bình. Z = (X – \mu) / \sigma, trong đó X là giá trị dữ liệu, \mu là trung bình, \sigma là độ lệch chuẩn. Z-score giúp so sánh các giá trị từ các phân phối khác nhau.
Ví dụ phân tích:
Nếu điểm thi của bạn là 85, trung bình lớp là 70 và độ lệch chuẩn là 10.
Z-score: Z = (85 – 70) / 10 = 1.5. Điều này có nghĩa điểm của bạn cao hơn 1.5 độ lệch chuẩn so với trung bình lớp.
Thực hành:
Tính z-score cho một điểm dữ liệu cụ thể trong tập dữ liệu điểm thi, với mean và standard deviation đã tính.
4.2. Phân phối Chuẩn (Normal Distribution)
Lý thuyết:
Còn được gọi là phân phối Gaussian hoặc “đường cong hình chuông”. Là phân phối đối xứng, có đỉnh ở giữa (tại giá trị trung bình, trung vị, yếu vị).
Được xác định bởi hai tham số: giá trị trung bình (\mu) và độ lệch chuẩn (\sigma).
Quy tắc thực nghiệm (Empirical Rule / 68-95-99.7 Rule):
Khoảng 68% dữ liệu nằm trong \pm 1 độ lệch chuẩn từ trung bình.
Khoảng 95% dữ liệu nằm trong \pm 2 độ lệch chuẩn từ trung bình.
Khoảng 99.7% dữ liệu nằm trong \pm 3 độ lệch chuẩn từ trung bình.
Đường cong mật độ (Density Curves): Đường cong biểu diễn phân phối xác suất. Tổng diện tích dưới đường cong bằng 1.
Ví dụ phân tích:
Trọng lượng của một loại táo có phân phối chuẩn với \mu = 150 gram và \sigma = 10 gram.
Theo quy tắc 68-95-99.7:
Khoảng 68% quả táo nặng từ 140g đến 160g (\mu \pm \sigma).
Khoảng 95% quả táo nặng từ 130g đến 170g (\mu \pm 2\sigma).
Khoảng 99.7% quả táo nặng từ 120g đến 180g (\mu \pm 3\sigma).
Tính diện tích dưới đường cong chuẩn: Bằng cách chuyển đổi giá trị X thành Z-score và sử dụng bảng Z (hoặc máy tính thống kê), bạn có thể tìm xác suất một giá trị rơi vào một khoảng nhất định.
Thực hành:
Nếu điểm SAT có phân phối chuẩn với mean = 1000 và độ lệch chuẩn = 200, hãy sử dụng quy tắc thực nghiệm để ước tính tỷ lệ học sinh có điểm từ 800 đến 1200.
Tìm xác suất một học sinh có điểm SAT cao hơn 1200 bằng cách chuyển đổi thành Z-score và tìm diện tích dưới đường cong chuẩn.
Unit 5: Khám phá Dữ liệu Số Bivariate (Bivariate Numerical Data)
Mục tiêu: Phân tích mối quan hệ giữa hai biến định lượng.
5.1. Biểu đồ Phân tán (Scatter Plots) và Tương quan (Correlation)
Lý thuyết:
Biểu đồ phân tán: Hiển thị mối quan hệ giữa hai biến định lượng, mỗi điểm trên biểu đồ đại diện cho một cặp giá trị.
Xu hướng (Trends):
Tương quan dương (Positive association): Khi một biến tăng, biến kia cũng có xu hướng tăng.
Tương quan âm (Negative association): Khi một biến tăng, biến kia có xu hướng giảm.
Không có tương quan (No association): Không có mối quan hệ rõ ràng.
Hệ số tương quan (Correlation Coefficient – r): Đo lường mức độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến. Giá trị nằm trong khoảng từ -1 đến 1.
r = 1: Tương quan dương hoàn hảo.
r = -1: Tương quan âm hoàn hảo.
r = 0: Không có mối quan hệ tuyến tính.
Ví dụ phân tích:
Scatter Plot: Mối quan hệ giữa “Số giờ học” và “Điểm thi”. Bạn có thể kỳ vọng thấy tương quan dương (càng học nhiều điểm càng cao).
Correlation Coefficient: Nếu r = 0.8, có mối quan hệ tuyến tính dương mạnh. Nếu r = -0.2, có mối quan hệ tuyến tính âm yếu.
Thực hành:
Tạo một biểu đồ phân tán cho dữ liệu về “Số giờ tập thể dục mỗi tuần” và “Số cân nặng giảm được”. Mô tả xu hướng bạn thấy.
5.2. Đường hồi quy Tuyến tính (Line of Best Fit)
Lý thuyết:
Đường hồi quy bình phương tối thiểu (Least-Squares Regression Line): Đường thẳng phù hợp nhất mô tả mối quan hệ tuyến tính giữa hai biến. Công thức có dạng: \hat{y} = a + bx, trong đó \hat{y} là giá trị dự đoán, x là biến độc lập, b là độ dốc, a là hệ số chặn.
Giải thích độ dốc (Slope): Với mỗi đơn vị tăng lên của x, y dự kiến sẽ thay đổi b đơn vị.
Giải thích hệ số chặn Y (Y-intercept): Giá trị dự kiến của y khi x = 0.
Phần dư (Residuals): Khoảng cách dọc giữa điểm dữ liệu thực tế và đường hồi quy. Residual = Giá trị thực tế – Giá trị dự đoán.
Biểu đồ phần dư (Residual Plots): Biểu đồ scatter của phần dư so với biến độc lập. Giúp kiểm tra xem mô hình tuyến tính có phù hợp không (phần dư nên phân tán ngẫu nhiên quanh 0).
Ví dụ phân tích:
Mô hình hồi quy: Giả sử bạn có mô hình dự đoán giá nhà dựa trên diện tích: \text{Giá} = 50 + 0.1 \times \text{Diện tích} (Giá tính bằng nghìn USD, Diện tích tính bằng m²).
Slope (0.1): Với mỗi m² tăng lên, giá nhà dự kiến tăng 0.1 nghìn USD (100 USD).
Y-intercept (50): Khi diện tích là 0 m², giá nhà dự kiến là 50 nghìn USD (thường không có ý nghĩa trong thực tế nếu không có diện tích, nhưng là điểm bắt đầu của đường thẳng).
Residual: Nếu một ngôi nhà có diện tích 100m² và giá thực tế là 65 nghìn USD, nhưng mô hình dự đoán là 50 + 0.1 \times 100 = 60 nghìn USD. Residual = 65 – 60 = 5 nghìn USD.
Thực hành:
Với một tập dữ liệu nhỏ có mối quan hệ tuyến tính, tự tính toán (hoặc sử dụng công cụ) phương trình đường hồi quy, tính toán một vài phần dư.
Vẽ biểu đồ phần dư và nhận xét.
Gợi ý Thực hành Tổng hợp unit 1-5
Để nắm bắt sâu sắc các bài học, hãy thực hiện các bài tập sau:
Sử dụng Python và thư viện: Sau khi học lý thuyết về các thước đo trung tâm, độ phân tán, biểu đồ, hãy sử dụng thư viện NumPy và Pandas để tính toán, và Matplotlib hoặc Seaborn để vẽ các biểu đồ.
Ví dụ:import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# Dữ liệu mẫu
data = [60, 65, 70, 70, 75, 75, 80, 80, 80, 85, 85, 85, 90, 90, 90, 95, 95, 100, 100, 100]
# Tính toán thống kê mô tả
mean_val = np.mean(data)
median_val = np.median(data)
std_dev_val = np.std(data)
print(f”Mean: {mean_val}, Median: {median_val}, Standard Deviation: {std_dev_val}”)
# Vẽ Histogram
plt.hist(data, bins=5, edgecolor=’black’)
plt.title(‘Distribution of Scores’)
plt.xlabel(‘Scores’)
plt.ylabel(‘Frequency’)
plt.show()
# Tạo DataFrame cho dữ liệu bivariate
df = pd.DataFrame({
‘Hours_Studied’: [2, 3, 4, 5, 6, 7, 8, 9, 10],
‘Exam_Score’: [50, 60, 70, 75, 80, 85, 90, 95, 100]
})
plt.scatter(df[‘Hours_Studied’], df[‘Exam_Score’])
plt.title(‘Hours Studied vs. Exam Score’)
plt.xlabel(‘Hours Studied’)
plt.ylabel(‘Exam Score’)
plt.show()
Làm bài tập trên Khan Academy: Các bài tập tương tác và bài kiểm tra đơn vị trên Khan Academy là công cụ tuyệt vời để củng cố kiến thức.
Tìm kiếm và phân tích các tập dữ liệu nhỏ: Tải về các tập dữ liệu công khai từ Kaggle (mức độ “dataset” hoặc “beginner”) và tự mình áp dụng các kỹ thuật phân tích đã học.
Unit 6: Thiết kế Nghiên cứu (Study Design)
Mục tiêu: Hiểu các phương pháp thu thập dữ liệu một cách đáng tin cậy và khách quan.
6.1. Câu hỏi Thống kê và Suy luận từ Mẫu ngẫu nhiên
Lý thuyết:
Câu hỏi thống kê (Statistical Questions): Là những câu hỏi mà câu trả lời có sự biến đổi và cần dữ liệu để trả lời. Ví dụ: “Chiều cao trung bình của học sinh lớp 10 ở trường X là bao nhiêu?” (khác với “Chiếc bàn này cao bao nhiêu?”).
Dân số (Population): Toàn bộ nhóm mà chúng ta muốn nghiên cứu hoặc đưa ra kết luận (ví dụ: tất cả học sinh lớp 10 ở trường X).
Mẫu (Sample): Một tập hợp con của dân số được chọn để thu thập dữ liệu (ví dụ: 50 học sinh lớp 10 được chọn ngẫu nhiên từ trường X).
Suy luận từ mẫu ngẫu nhiên (Inferences from Random Samples): Khi mẫu được chọn ngẫu nhiên, chúng ta có thể sử dụng các kết quả từ mẫu để đưa ra kết luận có giá trị về dân số.
Ví dụ phân tích:
Bạn muốn biết trung bình số giờ xem TV mỗi ngày của thanh thiếu niên ở Việt Nam.
Dân số: Toàn bộ thanh thiếu niên ở Việt Nam.
Mẫu: 1000 thanh thiếu niên được chọn ngẫu nhiên trên toàn quốc.
Câu hỏi thống kê: “Số giờ xem TV trung bình mỗi ngày của thanh thiếu niên Việt Nam là bao nhiêu?”
Suy luận: Nếu 1000 thanh thiếu niên trong mẫu xem TV trung bình 3 giờ/ngày, bạn có thể suy luận rằng trung bình số giờ xem TV của toàn bộ thanh thiếu niên Việt Nam có thể cũng gần với 3 giờ/ngày.
Thực hành:
Xác định dân số và mẫu trong các tình huống sau:
Một cuộc khảo sát ý kiến cử tri về một ứng cử viên tổng thống.
Kiểm tra chất lượng sản phẩm của một lô hàng đồ chơi từ nhà máy.
Tạo một câu hỏi thống kê và một câu hỏi không phải thống kê về chủ đề “sức khỏe học đường”.
6.2. Phương pháp Lấy mẫu (Sampling Methods)
Lý thuyết:
Mẫu ngẫu nhiên đơn giản (Simple Random Samples – SRS): Mỗi cá thể trong dân số có cùng cơ hội được chọn. Đây là “tiêu chuẩn vàng” để đảm bảo tính đại diện.
Lấy mẫu ngẫu nhiên hệ thống (Systematic Random Sampling): Chọn điểm bắt đầu ngẫu nhiên, sau đó chọn mọi cá thể thứ k.
Lấy mẫu phân tầng (Stratified Random Sampling): Chia dân số thành các nhóm (tầng) đồng nhất, sau đó lấy mẫu ngẫu nhiên đơn giản từ mỗi tầng. Hữu ích khi dân số có các nhóm con rõ rệt.
Lấy mẫu cụm (Cluster Sampling): Chia dân số thành các cụm, chọn ngẫu nhiên một số cụm, sau đó khảo sát tất cả cá thể trong các cụm đã chọn.
Sai lệch lấy mẫu (Sampling Bias): Xảy ra khi phương pháp lấy mẫu có hệ thống loại trừ một số cá thể hoặc nhóm, làm cho mẫu không đại diện cho dân số.
Ví dụ phân tích:
Để chọn SRS 50 học sinh từ 500 học sinh: Đánh số từ 1 đến 500, sau đó dùng công cụ tạo số ngẫu nhiên chọn 50 số.
Để lấy mẫu phân tầng theo giới tính: Chia học sinh thành nhóm Nam và nhóm Nữ, sau đó chọn ngẫu nhiên 25 Nam và 25 Nữ.
Thực hành:
Bạn muốn khảo sát ý kiến của sinh viên trong một trường đại học về chất lượng dịch vụ căng tin. Hãy mô tả cách bạn sẽ thực hiện lấy mẫu ngẫu nhiên đơn giản, lấy mẫu hệ thống và lấy mẫu phân tầng.
Cho ví dụ về tình huống có thể dẫn đến sai lệch lấy mẫu.
6.3. Các loại Nghiên cứu Thống kê
Lý thuyết:
Nghiên cứu quan sát (Observational Studies): Quan sát và đo lường các biến mà không cố gắng gây ảnh hưởng đến phản ứng. Chỉ có thể xác định mối liên hệ, không phải quan hệ nhân quả.
Thí nghiệm (Experiments): Cố ý áp dụng một “điều trị” (treatment) cho một nhóm cá thể và đo lường phản ứng. Mục tiêu là thiết lập quan hệ nhân quả.
Biến giải thích (Explanatory Variable): Biến được cho là gây ra sự thay đổi ở biến khác (trong thí nghiệm, đây là “điều trị”).
Biến phản ứng (Response Variable): Biến được đo lường để xem liệu có bị ảnh hưởng bởi biến giải thích không.
Nhóm kiểm soát (Control Group): Nhóm không nhận được điều trị hoặc nhận điều trị giả dược (placebo) để so sánh.
Ngẫu nhiên hóa (Randomization): Phân bổ cá thể vào các nhóm một cách ngẫu nhiên để giảm thiểu các yếu tố gây nhiễu.
Che giấu (Blinding): Người tham gia hoặc người thu thập dữ liệu không biết họ thuộc nhóm nào để tránh sai lệch.
Ví dụ phân tích:
Nghiên cứu quan sát: Nghiên cứu mối liên hệ giữa việc hút thuốc và bệnh ung thư phổi. Không thể yêu cầu người tham gia hút thuốc, chỉ có thể quan sát những người đã hút và không hút.
Thí nghiệm: Thử nghiệm một loại thuốc mới để giảm huyết áp. Chia ngẫu nhiên bệnh nhân thành nhóm dùng thuốc mới (nhóm điều trị) và nhóm dùng giả dược (nhóm kiểm soát). Sau một thời gian, đo huyết áp của cả hai nhóm.
Thực hành:
Xác định liệu nghiên cứu sau là quan sát hay thí nghiệm, và xác định biến giải thích, biến phản ứng (nếu có):
Các nhà nghiên cứu khảo sát hàng nghìn người trưởng thành để xem liệu việc uống cà phê hàng ngày có liên quan đến nguy cơ mắc bệnh tim hay không.
Một công ty thực phẩm chia ngẫu nhiên 100 người vào hai nhóm: một nhóm ăn bữa ăn ít chất béo, nhóm còn lại ăn bữa ăn thông thường, và theo dõi cân nặng của họ sau 3 tháng.
Unit 7: Xác suất (Probability)
Mục tiêu: Hiểu các nguyên tắc cơ bản và nâng cao của xác suất, là nền tảng cho suy luận thống kê.
7.1. Xác suất Đơn giản và Thực nghiệm
Lý thuyết:
Xác suất (Probability): Khả năng xảy ra một sự kiện, giá trị từ 0 (không thể xảy ra) đến 1 (chắc chắn xảy ra).
Không gian mẫu (Sample Space): Tập hợp tất cả các kết quả có thể của một thí nghiệm ngẫu nhiên.
Biến cố (Event): Một tập hợp con của không gian mẫu.
Xác suất lý thuyết: Dựa trên các giả định về sự kiện đồng khả năng (ví dụ: xác suất tung một đồng xu ra mặt sấp là 0.5).
Xác suất thực nghiệm (Experimental Probability): Dựa trên kết quả từ các lần thử nghiệm lặp lại (ví dụ: tung đồng xu 100 lần, có 52 lần sấp, xác suất thực nghiệm là 0.52).
Mô phỏng (Simulations): Sử dụng các quá trình ngẫu nhiên để mô phỏng các sự kiện thực tế và ước tính xác suất.
Ví dụ phân tích:
Tung một con xúc xắc cân đối 6 mặt.
Không gian mẫu: \{1, 2, 3, 4, 5, 6\}.
Biến cố “tung được số chẵn”: \{2, 4, 6\}.
Xác suất lý thuyết: P(\text{số chẵn}) = 3/6 = 0.5.
Nếu bạn tung một đồng xu 10 lần và được 7 lần sấp, xác suất thực nghiệm của mặt sấp là 7/10 = 0.7.
Thực hành:
Bạn có một túi chứa 3 viên bi đỏ, 2 viên bi xanh và 5 viên bi vàng.
Tính xác suất lý thuyết để rút được một viên bi đỏ.
Nếu bạn rút bi 20 lần (có hoàn lại) và có 8 lần ra bi đỏ, tính xác suất thực nghiệm của bi đỏ.
Mô phỏng 20 lần tung hai đồng xu và ghi lại số mặt sấp. Ước tính xác suất có ít nhất một mặt sấp.
7.2. Các quy tắc Xác suất và Biến cố Hợp/Giao
Lý thuyết:
Biến cố bổ sung (Complementary Events): Biến cố A và không-A. P(A) + P(\text{không-A}) = 1.
Biến cố độc lập (Independent Events): Việc xảy ra biến cố này không ảnh hưởng đến xác suất xảy ra biến cố kia. P(A \text{ và } B) = P(A) \times P(B).
Biến cố phụ thuộc (Dependent Events): Việc xảy ra biến cố này ảnh hưởng đến xác suất xảy ra biến cố kia.
Xác suất có điều kiện (Conditional Probability): Xác suất xảy ra biến cố A khi biết biến cố B đã xảy ra. Ký hiệu P(A|B). P(A|B) = P(A \text{ và } B) / P(B).
Luật cộng xác suất:
Biến cố loại trừ lẫn nhau (Mutually Exclusive Events): Không thể xảy ra cùng lúc. P(A \text{ hoặc } B) = P(A) + P(B).
Biến cố không loại trừ lẫn nhau: P(A \text{ hoặc } B) = P(A) + P(B) – P(A \text{ và } B).
Sử dụng Bảng hai chiều và Biểu đồ Venn: Để trực quan hóa và tính toán xác suất.
Ví dụ phân tích:
Độc lập: Tung hai đồng xu. P(\text{sấp đồng 1 và sấp đồng 2}) = P(\text{sấp đồng 1}) \times P(\text{sấp đồng 2}) = 0.5 \times 0.5 = 0.25.
Phụ thuộc: Rút 2 lá bài từ bộ 52 lá không hoàn lại. Xác suất rút được Át lần 2 phụ thuộc vào lá bài đầu tiên.
Có điều kiện: Cho bảng tần số hai chiều về “Giới tính” và “Sở thích đọc sách” (đã nêu ở Unit 1).
P(\text{Thích đọc sách | Nam}) = \text{Số Nam thích đọc sách} / \text{Tổng số Nam} = 30/50 = 0.6.
Thực hành:
Trong một trường học, 60% học sinh thích bóng đá, 40% thích bóng rổ, và 25% thích cả hai. Tính xác suất một học sinh được chọn ngẫu nhiên thích bóng đá hoặc bóng rổ.
Từ bộ bài 52 lá, rút một lá. Tính xác suất lá bài là “Át” nếu biết nó là “lá bích”.
Unit 8: Đếm, Hoán vị và Tổ hợp (Counting, Permutations, and Combinations)
Mục tiêu: Nắm vững các kỹ thuật đếm số lượng cách sắp xếp hoặc chọn các mục.
8.1. Nguyên lý Đếm Cơ bản
Lý thuyết:
Nguyên lý nhân (Multiplication Principle): Nếu có m cách thực hiện sự kiện A và n cách thực hiện sự kiện B, thì có m \times n cách để thực hiện cả A và B.
Ví dụ phân tích:
Bạn có 3 chiếc áo và 2 chiếc quần. Số cách phối đồ là 3 \times 2 = 6 cách.
Thực hành:
Một biển số xe gồm 3 chữ cái (A-Z) và 4 chữ số (0-9). Có bao nhiêu biển số xe có thể có nếu các chữ cái và chữ số có thể lặp lại?
8.2. Hoán vị (Permutations)
Lý thuyết:
Hoán vị: Số cách sắp xếp các mục theo một thứ tự cụ thể. Thứ tự quan trọng.
Hoán vị của n vật khác nhau: n! (n giai thừa)
Hoán vị của k vật từ n vật: P(n, k) = n! / (n-k)!
Ví dụ phân tích:
Có bao nhiêu cách sắp xếp 3 cuốn sách khác nhau trên một kệ sách? 3! = 3 \times 2 \times 1 = 6 cách.
Bạn có 5 người và muốn chọn 3 người để đứng vào 3 vị trí (đứng đầu, đứng giữa, đứng cuối). Có bao nhiêu cách? P(5, 3) = 5! / (5-3)! = 5! / 2! = (5 \times 4 \times 3 \times 2 \times 1) / (2 \times 1) = 60 cách.
Thực hành:
Có bao nhiêu cách để sắp xếp 4 lá bài (Át, K, Q, J) từ bộ bài?
Một cuộc đua có 8 vận động viên. Có bao nhiêu cách để xác định vị trí vàng, bạc, đồng?
8.3. Tổ hợp (Combinations)
Lý thuyết:
Tổ hợp: Số cách chọn các mục mà không quan tâm đến thứ tự. Thứ tự không quan trọng.
Tổ hợp chọn k vật từ n vật: C(n, k) = n! / (k! \times (n-k)!)
Ví dụ phân tích:
Bạn có 5 người và muốn chọn 3 người để tham gia một đội (vị trí không quan trọng). Có bao nhiêu cách? C(5, 3) = 5! / (3! \times (5-3)!) = 5! / (3! \times 2!) = (5 \times 4) / (2 \times 1) = 10 cách.
Thực hành:
Một lớp học có 15 học sinh. Có bao nhiêu cách để chọn một đội gồm 4 học sinh để tham gia một cuộc thi?
Một người chơi xổ số cần chọn 6 số từ 45 số. Có bao nhiêu cách để chọn?
Unit 9: Biến ngẫu nhiên (Random Variables)
Mục tiêu: Hiểu về các loại biến ngẫu nhiên, phân phối xác suất của chúng và các đại lượng đặc trưng.
9.1. Biến ngẫu nhiên Rời rạc (Discrete Random Variables)
Lý thuyết:
Biến ngẫu nhiên (Random Variable – RV): Một biến có giá trị là kết quả số của một sự kiện ngẫu nhiên.
Biến ngẫu nhiên rời rạc: Là biến có thể nhận một số hữu hạn các giá trị hoặc một chuỗi giá trị có thể đếm được (ví dụ: số mặt sấp khi tung 3 đồng xu – 0, 1, 2, 3).
Phân phối xác suất (Probability Distribution): Liệt kê tất cả các giá trị có thể của biến ngẫu nhiên và xác suất tương ứng của chúng.
Giá trị kỳ vọng (Expected Value – Mean of RV): Trung bình dài hạn của biến ngẫu nhiên nếu thí nghiệm được lặp lại nhiều lần. E(X) = \sum [x \cdot P(X=x)].
Độ lệch chuẩn của biến ngẫu nhiên rời rạc: Đo lường độ phân tán của các giá trị biến ngẫu nhiên so với giá trị kỳ vọng.
Ví dụ phân tích:
Tung 2 đồng xu, gọi X là số mặt sấp.
Giá trị X có thể: 0 (NN), 1 (SN, NS), 2 (SS).
Phân phối xác suất:
P(X=0) = 1/4
P(X=1) = 2/4 = 1/2
P(X=2) = 1/4
Giá trị kỳ vọng: E(X) = (0 \times 1/4) + (1 \times 1/2) + (2 \times 1/4) = 0 + 1/2 + 1/2 = 1. (Trung bình bạn sẽ nhận được 1 mặt sấp khi tung 2 đồng xu nhiều lần).
Thực hành:
Một người chơi game có 30% cơ hội thắng mỗi ván. Nếu người đó chơi 2 ván, gọi X là số ván thắng.
Liệt kê không gian mẫu và các giá trị có thể của X.
Tạo bảng phân phối xác suất cho X.
Tính giá trị kỳ vọng của X.
9.2. Phân phối Nhị thức (Binomial Distribution)
Lý thuyết:
Áp dụng cho các tình huống có chuỗi thử nghiệm độc lập, mỗi thử nghiệm chỉ có 2 kết quả (thành công/thất bại).
Các điều kiện của phân phối nhị thức (BIN):
Binary: Chỉ có 2 kết quả có thể (thành công hoặc thất bại).
Independent: Các lần thử nghiệm độc lập.
Number: Số lần thử nghiệm cố định (n).
Success: Xác suất thành công (p) là như nhau cho mỗi lần thử.
Công thức xác suất nhị thức: P(X=k) = C(n, k) \cdot p^k \cdot (1-p)^{(n-k)}
Giá trị kỳ vọng và độ lệch chuẩn của phân phối nhị thức: E(X) = n \cdot p, \sigma_X = \sqrt{n \cdot p \cdot (1-p)}.
Ví dụ phân tích:
Giả sử 30% học sinh thi đỗ môn X. Chọn ngẫu nhiên 5 học sinh. Gọi X là số học sinh đỗ.
Đây là phân phối nhị thức với n=5 và p=0.3.
Xác suất có đúng 2 học sinh đỗ: P(X=2) = C(5, 2) \cdot (0.3)^2 \cdot (0.7)^3 \approx 0.3087.
Giá trị kỳ vọng: E(X) = 5 \times 0.3 = 1.5. (Trung bình 1.5 học sinh sẽ đỗ).
Thực hành:
Một loại vắc xin có hiệu quả 90%. Nếu tiêm cho 10 người, tính xác suất có đúng 9 người có miễn dịch.
Tính giá trị kỳ vọng và độ lệch chuẩn cho số người có miễn dịch trong ví dụ trên.
9.3. Phân phối Hình học (Geometric Distribution)
Lý thuyết:
Áp dụng cho số lần thử nghiệm cần thiết để đạt được thành công đầu tiên.
Các điều kiện: Tương tự phân phối nhị thức nhưng số lần thử nghiệm không cố định, dừng lại khi có thành công đầu tiên.
Công thức xác suất hình học: P(X=k) = (1-p)^{(k-1)} \cdot p (X là số lần thử cho đến thành công đầu tiên).
Ví dụ phân tích:
Xác suất để một cú sút bóng vào lưới là 0.2. Gọi X là số lần sút cho đến khi ghi bàn đầu tiên.
Xác suất ghi bàn ngay cú sút đầu tiên (X=1): P(X=1) = (0.8)^0 \cdot 0.2 = 0.2.
Xác suất ghi bàn ở cú sút thứ 3 (X=3): P(X=3) = (0.8)^2 \cdot 0.2 = 0.64 \times 0.2 = 0.128.
Thực hành:
Một quảng cáo trực tuyến có tỷ lệ nhấp chuột (click-through rate) là 5%. Có bao nhiêu lần bạn cần hiển thị quảng cáo cho một người dùng để họ nhấp chuột lần đầu tiên (giá trị kỳ vọng)?
Tính xác suất một người dùng nhấp chuột vào quảng cáo ngay lần hiển thị thứ 4.
Unit 10: Phân phối Mẫu (Sampling Distributions)
Mục tiêu: Hiểu cách các thống kê mẫu (trung bình mẫu, tỷ lệ mẫu) phân phối, đặc biệt là vai trò của Định lý Giới hạn Trung tâm.
10.1. Ước lượng Không chệch và Phân phối Tỷ lệ Mẫu
Lý thuyết:
Ước lượng không chệch (Unbiased Estimator): Một thống kê mẫu mà giá trị trung bình của nó (từ nhiều mẫu khác nhau) bằng với tham số dân số. Trung bình mẫu (\bar{x}) là ước lượng không chệch cho trung bình dân số (\mu). Tỷ lệ mẫu (\hat{p}) là ước lượng không chệch cho tỷ lệ dân số (p).
Phân phối tỷ lệ mẫu (Sampling Distribution of Sample Proportions – \hat{p}): Là phân phối của tất cả các tỷ lệ mẫu có thể có được từ các mẫu ngẫu nhiên cùng kích thước từ cùng một dân số.
Điều kiện cho phân phối gần chuẩn của \hat{p}:
Ngẫu nhiên (Random): Mẫu phải là mẫu ngẫu nhiên đơn giản.
10% Condition: Kích thước mẫu (n) không quá 10% dân số.
Lớn (Large Sample Size): n \cdot p \ge 10 và n \cdot (1-p) \ge 10. Điều này đảm bảo đủ thành công và thất bại để phân phối xấp xỉ chuẩn.
Trung bình của phân phối \hat{p}: \mu_{\hat{p}} = p
Độ lệch chuẩn của phân phối \hat{p} (Standard Error of \hat{p}): \sigma_{\hat{p}} = \sqrt{p(1-p)/n}
Ví dụ phân tích:
40% sinh viên đại học thích học trực tuyến (p=0.4). Lấy mẫu ngẫu nhiên 100 sinh viên (n=100).
Điều kiện:
Ngẫu nhiên: Giả định đã chọn ngẫu nhiên.
10% Condition: 100 sinh viên nhỏ hơn 10% tổng số sinh viên đại học.
Lớn: n \cdot p = 100 \times 0.4 = 40 \ge 10. n \cdot (1-p) = 100 \times 0.6 = 60 \ge 10. Các điều kiện được thỏa mãn.
Phân phối của tỷ lệ mẫu (\hat{p}) sẽ xấp xỉ chuẩn với:
\mu_{\hat{p}} = 0.4
\sigma_{\hat{p}} = \sqrt{0.4 \times 0.6 / 100} = \sqrt{0.24 / 100} = \sqrt{0.0024} \approx 0.049.
Bạn có thể tính xác suất tỷ lệ mẫu \hat{p} lớn hơn 0.5 (tức là hơn một nửa sinh viên trong mẫu thích học trực tuyến) bằng cách sử dụng phân phối chuẩn và điểm Z.
Thực hành:
35% người trưởng thành ở thành phố X sở hữu thú cưng. Nếu lấy mẫu ngẫu nhiên 200 người trưởng thành, mô tả phân phối của tỷ lệ mẫu (trung bình và độ lệch chuẩn).
Tính xác suất tỷ lệ mẫu người sở hữu thú cưng trong mẫu này ít hơn 30%.
10.2. Phân phối Trung bình Mẫu và Định lý Giới hạn Trung tâm (Central Limit Theorem – CLT)
Lý thuyết:
Phân phối trung bình mẫu (Sampling Distribution of Sample Means – \bar{x}): Là phân phối của tất cả các giá trị trung bình mẫu có thể có được từ các mẫu ngẫu nhiên cùng kích thước từ cùng một dân số.
Định lý Giới hạn Trung tâm (CLT): Đây là một trong những định lý quan trọng nhất trong thống kê. Nó phát biểu rằng:
Nếu kích thước mẫu (n) đủ lớn (thường là n \ge 30), thì phân phối của trung bình mẫu (\bar{x}) sẽ gần với phân phối chuẩn, bất kể hình dạng của phân phối dân số ban đầu là gì.
Trung bình của phân phối \bar{x}: \mu_{\bar{x}} = \mu (Trung bình của trung bình mẫu bằng trung bình dân số).
Độ lệch chuẩn của phân phối \bar{x} (Standard Error of \bar{x}): \sigma_{\bar{x}} = \sigma / \sqrt{n} (Trong đó \sigma là độ lệch chuẩn của dân số).
Ví dụ phân tích:
Thời gian hoàn thành một bài kiểm tra có trung bình là 30 phút và độ lệch chuẩn là 8 phút. Bạn lấy ngẫu nhiên một mẫu gồm 40 học sinh.
Theo CLT (vì n=40 \ge 30):
Phân phối trung bình thời gian hoàn thành bài kiểm tra của mẫu 40 học sinh sẽ có hình dạng xấp xỉ chuẩn.
\mu_{\bar{x}} = 30 phút.
\sigma_{\bar{x}} = 8 / \sqrt{40} \approx 8 / 6.32 \approx 1.26 phút.
Bạn có thể tính xác suất trung bình thời gian hoàn thành của mẫu này nằm trong khoảng 28 đến 32 phút bằng cách sử dụng phân phối chuẩn và điểm Z.
Thực hành:
Tuổi trung bình của người dân trong một thành phố là 40 tuổi với độ lệch chuẩn 12 tuổi. Nếu bạn chọn ngẫu nhiên một mẫu 50 người, hãy mô tả phân phối trung bình mẫu của độ tuổi.
Tính xác suất trung bình tuổi của mẫu này lớn hơn 43 tuổi.
Gợi ý Thực hành Tổng hợp cho Unit 6-10
Sử dụng Python để mô phỏng:
Xác suất: Viết code Python để mô phỏng việc tung xúc xắc hoặc đồng xu hàng nghìn lần và tính xác suất thực nghiệm. So sánh với xác suất lý thuyết.
Phân phối mẫu: Viết một script để lấy nhiều mẫu ngẫu nhiên từ một tập dữ liệu lớn, tính trung bình/tỷ lệ của mỗi mẫu, sau đó vẽ histogram của các trung bình/tỷ lệ đó để thấy phân phối mẫu hình chuông (CLT).import numpy as np
import matplotlib.pyplot as plt
# Mô phỏng CLT
# Dân số không chuẩn (ví dụ: phân phối đều từ 0 đến 100)
population = np.random.uniform(0, 100, 100000)
pop_mean = np.mean(population)
pop_std = np.std(population)
print(f”Population Mean: {pop_mean:.2f}, Population Std Dev: {pop_std:.2f}”)
sample_means = []
n_samples = 1000 # Số lượng mẫu
sample_size = 30 # Kích thước mỗi mẫu
for _ in range(n_samples):
sample = np.random.choice(population, size=sample_size, replace=False)
sample_means.append(np.mean(sample))
# Vẽ histogram của các trung bình mẫu
plt.hist(sample_means, bins=30, edgecolor=’black’, density=True)
plt.title(f’Sampling Distribution of Sample Means (n={sample_size})’)
plt.xlabel(‘Sample Mean’)
plt.ylabel(‘Density’)
# Thêm đường phân phối chuẩn dự kiến
from scipy.stats import norm
x = np.linspace(min(sample_means), max(sample_means), 100)
plt.plot(x, norm.pdf(x, pop_mean, pop_std / np.sqrt(sample_size)), color=’red’, linestyle=’–‘)
plt.show()
print(f”Mean of Sample Means: {np.mean(sample_means):.2f}”)
print(f”Std Dev of Sample Means (Standard Error): {np.std(sample_means):.2f}”)
print(f”Theoretical Standard Error: {pop_std / np.sqrt(sample_size):.2f}”)
Giải bài toán xác suất và thống kê thực tế: Tìm các bài toán trên các diễn đàn như StackExchange Cross Validated hoặc trên các nền tảng học tập khác.
Thực hành kiểm tra điều kiện: Khi giải bài toán, hãy luôn kiểm tra xem các điều kiện (ví dụ: điều kiện của phân phối nhị thức, điều kiện cho CLT) có được thỏa mãn không. Đây là một kỹ năng quan trọng trong thống kê.
Unit 11: Khoảng tin cậy (Confidence Intervals)
Mục tiêu: Ước lượng một khoảng giá trị mà tham số dân số có khả năng rơi vào, thay vì chỉ đưa ra một giá trị điểm duy nhất.
11.1. Ước lượng Khoảng cho Tỷ lệ Dân số (Z-interval for Proportion)
Lý thuyết:
Khoảng tin cậy: Một khoảng giá trị được xây dựng từ dữ liệu mẫu mà chúng ta tin rằng tham số dân số thực (ví dụ: tỷ lệ dân số p) nằm trong đó với một mức độ tin cậy nhất định (ví dụ: 95%, 99%).
Mức độ tin cậy (Confidence Level): Tỷ lệ phần trăm các khoảng tin cậy được xây dựng theo cách này sẽ chứa tham số dân số thực nếu chúng ta lặp lại quá trình lấy mẫu nhiều lần.
Sai số biên (Margin of Error – ME): Nửa chiều rộng của khoảng tin cậy. Nó phản ánh độ chính xác của ước lượng. ME = z^* \times \text{Độ lệch chuẩn của phân phối mẫu}.
Giá trị tới hạn z^* (Critical Value z^*): Giá trị Z tương ứng với mức độ tin cậy mong muốn (ví dụ: z^* = 1.96 cho mức tin cậy 95%).
Công thức khoảng tin cậy cho tỷ lệ: \hat{p} \pm z^* \sqrt{\hat{p}(1-\hat{p})/n}
Điều kiện để sử dụng Z-interval cho tỷ lệ:
Ngẫu nhiên: Dữ liệu được lấy từ mẫu ngẫu nhiên đơn giản.
Độc lập: Kích thước mẫu không quá 10% dân số.
Lớn (Large Counts): Số lượng thành công (n\hat{p}) và số lượng thất bại (n(1-\hat{p})) đều phải \ge 10.
Ví dụ phân tích:
Một cuộc khảo sát ngẫu nhiên 500 người lớn cho thấy 300 người ủng hộ chính sách mới.
Tỷ lệ mẫu \hat{p} = 300/500 = 0.6.
Kiểm tra điều kiện:
Ngẫu nhiên: Đã cho là mẫu ngẫu nhiên.
Độc lập: 500 người < 10\% tổng số người lớn.
Lớn: n\hat{p} = 500 \times 0.6 = 300 \ge 10; n(1-\hat{p}) = 500 \times 0.4 = 200 \ge 10. Tất cả đều thỏa mãn.
Để xây dựng khoảng tin cậy 95%: z^* = 1.96.
Độ lệch chuẩn của \hat{p} (Standard Error – SE): SE_{\hat{p}} = \sqrt{0.6(1-0.6)/500} \approx 0.0219.
Sai số biên ME = 1.96 \times 0.0219 \approx 0.043.
Khoảng tin cậy: 0.6 \pm 0.043 \Rightarrow (0.557, 0.643).
Diễn giải: Chúng ta tự tin 95% rằng tỷ lệ thực sự của dân số ủng hộ chính sách mới nằm trong khoảng từ 55.7% đến 64.3%.
Thực hành:
Trong một cuộc thăm dò ý kiến, 150 trong số 250 cử tri được chọn ngẫu nhiên cho biết họ sẽ bỏ phiếu cho ứng cử viên A. Xây dựng khoảng tin cậy 90% cho tỷ lệ cử tri ủng hộ ứng cử viên A.
Nếu bạn muốn giảm sai số biên, bạn có thể làm gì? (Tăng kích thước mẫu hoặc giảm mức độ tin cậy).
11.2. Ước lượng Khoảng cho Trung bình Dân số (t-interval for Mean)
Lý thuyết:
Khi độ lệch chuẩn dân số (\sigma) không biết (thường là vậy), chúng ta sử dụng phân phối t (t-distribution) và độ lệch chuẩn mẫu (s) để ước lượng độ lệch chuẩn của trung bình mẫu (Standard Error of \bar{x}).
Phân phối t: Tương tự phân phối chuẩn nhưng có “đuôi” nặng hơn (phân tán hơn), đặc biệt với bậc tự do (degrees of freedom – df = n-1) nhỏ. Khi df lớn, phân phối t gần với phân phối chuẩn.
Giá trị tới hạn t^* (Critical Value t^*): Giá trị t tương ứng với mức độ tin cậy và bậc tự do.
Công thức khoảng tin cậy cho trung bình: \bar{x} \pm t^* (s/\sqrt{n})
Điều kiện để sử dụng t-interval cho trung bình:
Ngẫu nhiên: Dữ liệu được lấy từ mẫu ngẫu nhiên đơn giản.
Độc lập: Kích thước mẫu không quá 10% dân số.
Gần chuẩn: Dân số có phân phối gần chuẩn HOẶC kích thước mẫu đủ lớn (n \ge 30) để áp dụng CLT.
Ví dụ phân tích:
Thời gian hoàn thành một công việc của 25 nhân viên được chọn ngẫu nhiên có trung bình là \bar{x} = 45 phút và độ lệch chuẩn s = 10 phút.
Điều kiện:
Ngẫu nhiên: Đã cho.
Độc lập: 25 nhân viên < 10\% tổng số nhân viên.
Gần chuẩn: Giả định thời gian hoàn thành có phân phối gần chuẩn hoặc n đủ lớn. Vì n=25 < 30, chúng ta cần giả định phân phối dân số là gần chuẩn.
Bậc tự do df = 25 – 1 = 24.
Để xây dựng khoảng tin cậy 95%: tra bảng t-distribution với df=24, t^* \approx 2.064.
Độ lệch chuẩn của \bar{x} (Standard Error – SE): SE_{\bar{x}} = s/\sqrt{n} = 10/\sqrt{25} = 10/5 = 2.
Sai số biên ME = 2.064 \times 2 = 4.128.
Khoảng tin cậy: 45 \pm 4.128 \Rightarrow (40.872, 49.128).
Diễn giải: Chúng ta tự tin 95% rằng thời gian hoàn thành công việc trung bình thực sự của tất cả nhân viên nằm trong khoảng từ 40.872 đến 49.128 phút.
Thực hành:
Một mẫu gồm 16 bóng đèn LED có tuổi thọ trung bình là 10.000 giờ với độ lệch chuẩn là 500 giờ. Xây dựng khoảng tin cậy 99% cho tuổi thọ trung bình thực sự của tất cả bóng đèn LED từ nhà sản xuất này. (Giả định tuổi thọ có phân phối gần chuẩn).
Khi nào thì nên dùng z-interval thay vì t-interval, và ngược lại?
Unit 12: Kiểm định Ý nghĩa (Significance Tests / Hypothesis Testing)
Mục tiêu: Sử dụng dữ liệu mẫu để đánh giá liệu một tuyên bố về dân số có đáng tin cậy hay không.
12.1. Các Khái niệm Cơ bản về Kiểm định Giả thuyết
Lý thuyết:
Giả thuyết không (Null Hypothesis – H_0): Tuyên bố về không có sự thay đổi, không có hiệu ứng, hoặc không có sự khác biệt (ví dụ: p = 0.5, \mu = 10). Luôn chứa dấu bằng.
Giả thuyết đối (Alternative Hypothesis – H_a): Tuyên bố mà chúng ta muốn tìm bằng chứng ủng hộ (ví dụ: p \ne 0.5, \mu > 10, \mu < 10).
Giá trị P (P-value): Xác suất để thu được một kết quả mẫu (hoặc một kết quả cực đoan hơn) nếu giả thuyết không là đúng. P-value nhỏ cho thấy dữ liệu của chúng ta không phù hợp với H_0.
Mức ý nghĩa (\alpha – Significance Level): Ngưỡng để quyết định bác bỏ hay không bác bỏ H_0. Nếu P-value \le \alpha, chúng ta bác bỏ H_0. Các mức \alpha phổ biến là 0.05 hoặc 0.01.
Lỗi loại I (Type I Error): Bác bỏ H_0 khi H_0 thực sự đúng. Xác suất mắc lỗi loại I là \alpha.
Lỗi loại II (Type II Error): Không bác bỏ H_0 khi H_0 thực sự sai.
Sức mạnh của kiểm định (Power of a Test): Xác suất bác bỏ H_0 khi H_0 thực sự sai (tức là 1 – P(\text{Lỗi loại II})).
Ví dụ phân tích:
Một nhà sản xuất chip tuyên bố tỷ lệ chip bị lỗi là 5% (H_0: p = 0.05). Bạn nghi ngờ tỷ lệ lỗi cao hơn (H_a: p > 0.05).
Nếu P-value của kiểm định là 0.03 và \alpha = 0.05: Vì 0.03 \le 0.05, chúng ta bác bỏ H_0. Có bằng chứng thống kê để kết luận tỷ lệ lỗi cao hơn 5%.
Nếu P-value là 0.07 và \alpha = 0.05: Vì 0.07 > 0.05, chúng ta không đủ bằng chứng để bác bỏ H_0. Điều này không có nghĩa là H_0 đúng, chỉ là chúng ta không có đủ bằng chứng chống lại nó.
Thực hành:
Viết cặp giả thuyết H_0 và H_a cho các tình huống sau:
Một giáo viên muốn biết liệu phương pháp giảng dạy mới có làm tăng điểm trung bình của học sinh hay không.
Một công ty điện thoại tuyên bố thời lượng pin trung bình là 10 giờ, nhưng người tiêu dùng nghi ngờ nó thấp hơn.
Giải thích ý nghĩa của P-value = 0.015 trong ngữ cảnh của bài toán.
12.2. Kiểm định Z cho Tỷ lệ (Z-test for Proportion)
Lý thuyết:
Sử dụng để kiểm định giả thuyết về tỷ lệ dân số p.
Thống kê kiểm định Z (Test Statistic Z): Z = (\hat{p} – p_0) / \sqrt{p_0(1-p_0)/n}, trong đó p_0 là tỷ lệ trong H_0.
Các bước:
Xác định H_0 và H_a.
Kiểm tra các điều kiện (Ngẫu nhiên, Độc lập, Lớn – sử dụng p_0 thay vì \hat{p} cho điều kiện Large Counts: np_0 \ge 10 và n(1-p_0) \ge 10).
Tính thống kê kiểm định Z.
Tính P-value (sử dụng bảng Z hoặc máy tính).
So sánh P-value với \alpha và đưa ra kết luận.
Ví dụ phân tích:
Một nhà quảng cáo tuyên bố 20% người dùng internet nhấp vào quảng cáo của họ (H_0: p=0.20). Một mẫu ngẫu nhiên 300 người dùng cho thấy 51 người đã nhấp vào quảng cáo (\hat{p} = 51/300 = 0.17). Bạn nghi ngờ tỷ lệ thực sự thấp hơn (H_a: p < 0.20). Mức \alpha = 0.05.
Điều kiện: Thỏa mãn (giả định độc lập, 300 \times 0.20 = 60 \ge 10, 300 \times 0.80 = 240 \ge 10).
Thống kê kiểm định Z: Z = (0.17 – 0.20) / \sqrt{0.20(1-0.20)/300} = -0.03 / \sqrt{0.16/300} = -0.03 / \sqrt{0.000533} \approx -0.03 / 0.0231 \approx -1.30.
P-value: Tra bảng Z cho P(Z < -1.30) \approx 0.0968.
Kết luận: Vì P-value (0.0968) > \alpha (0.05), chúng ta không bác bỏ H_0. Không có đủ bằng chứng thống kê để kết luận tỷ lệ nhấp chuột thực sự thấp hơn 20%.
Thực hành:
Một công ty khảo sát cho rằng 75% sinh viên đại học sở hữu máy tính xách tay. Một trường đại học lấy mẫu ngẫu nhiên 120 sinh viên và thấy 80 người sở hữu máy tính xách tay. Có bằng chứng nào ở mức \alpha = 0.01 để nói rằng tỷ lệ ở trường này khác 75% không?
12.3. Kiểm định t cho Trung bình (t-test for Mean)
Lý thuyết:
Sử dụng để kiểm định giả thuyết về trung bình dân số \mu khi độ lệch chuẩn dân số \sigma không biết.
Thống kê kiểm định t (Test Statistic t): t = (\bar{x} – \mu_0) / (s/\sqrt{n}), trong đó \mu_0 là trung bình trong H_0.
Các bước: Tương tự kiểm định Z, nhưng sử dụng phân phối t với df = n-1.
Ví dụ phân tích:
Một nhà hàng tuyên bố thời gian chờ đợi trung bình là 15 phút (H_0: \mu = 15). Một khách hàng nghi ngờ và ghi lại thời gian chờ đợi của 20 lần ghé thăm ngẫu nhiên, thấy \bar{x} = 18 phút và s = 5 phút (H_a: \mu > 15). Mức \alpha = 0.05.
Điều kiện: Mẫu ngẫu nhiên, độc lập, và giả định dân số gần chuẩn (vì n=20 < 30).
Thống kê kiểm định t: t = (18 – 15) / (5/\sqrt{20}) = 3 / (5/4.472) = 3 / 1.118 \approx 2.683.
P-value: Tra bảng t-distribution với df = 19. Với t = 2.683, P-value (cho kiểm định một phía) rất nhỏ, khoảng 0.007.
Kết luận: Vì P-value (0.007) \le \alpha (0.05), chúng ta bác bỏ H_0. Có bằng chứng thống kê mạnh mẽ để kết luận thời gian chờ đợi trung bình thực sự dài hơn 15 phút.
Thực hành:
Một hãng sản xuất ô tô tuyên bố chiếc xe mới của họ đi được trung bình 40 dặm/gallon (mpg). Một tạp chí ô tô thử nghiệm 10 chiếc xe và thu được trung bình 38 mpg với độ lệch chuẩn 3 mpg. Có bằng chứng nào ở mức \alpha = 0.10 để nói rằng chiếc xe này đi được ít hơn 40 mpg không? (Giả định mức tiêu thụ nhiên liệu có phân phối gần chuẩn).
Unit 13: Suy luận Hai mẫu cho sự khác biệt giữa các nhóm (Two-sample inference)
Mục tiêu: So sánh các tham số (tỷ lệ hoặc trung bình) của hai dân số độc lập.
Lý thuyết:
Kiểm định Z/t cho sự khác biệt giữa hai tỷ lệ/trung bình: Các nguyên tắc tương tự như kiểm định một mẫu, nhưng áp dụng cho sự khác biệt giữa hai thống kê mẫu (\hat{p}_1 – \hat{p}_2 hoặc \bar{x}_1 – \bar{x}_2).
Giả thuyết không: Thường là không có sự khác biệt (p_1 = p_2 hoặc \mu_1 = \mu_2).
Độ lệch chuẩn gộp (Pooled Standard Error): Thường được sử dụng khi giả định hai dân số có phương sai bằng nhau (đối với trung bình) hoặc khi giả thuyết không là p_1 = p_2 (đối với tỷ lệ).
Ví dụ phân tích:
So sánh hiệu quả của hai loại phân bón trên năng suất cây trồng. Lấy mẫu ngẫu nhiên hai nhóm đất, mỗi nhóm dùng một loại phân bón. Tính trung bình năng suất cho mỗi nhóm và kiểm định liệu có sự khác biệt đáng kể hay không.
Thực hành:
Hai công nghệ sản xuất chip A và B. Mẫu 1000 chip từ công nghệ A có 20 chip lỗi. Mẫu 1200 chip từ công nghệ B có 15 chip lỗi. Có bằng chứng nào để nói rằng tỷ lệ lỗi của hai công nghệ là khác nhau ở mức \alpha = 0.05? (Đây là bài toán kiểm định Z hai mẫu cho tỷ lệ).
Unit 14: Suy luận cho Dữ liệu Định tính (Kiểm định Chi-bình phương – Chi-square tests)
Mục tiêu: Kiểm định mối quan hệ giữa các biến định tính hoặc kiểm tra sự phù hợp của phân phối.
14.1. Kiểm định Sự phù hợp của Hồi quy (Chi-square Goodness-of-Fit Test)
Lý thuyết:
Sử dụng để kiểm tra xem phân phối của một biến định tính có phù hợp với một phân phối lý thuyết (kỳ vọng) nhất định hay không.
Giả thuyết không (H_0): Phân phối quan sát được khớp với phân phối kỳ vọng.
Thống kê kiểm định Chi-bình phương (\chi^2): \chi^2 = \sum \frac{(\text{Quan sát} – \text{Kỳ vọng})^2}{\text{Kỳ vọng}}.
Bậc tự do (df): Số lượng danh mục – 1.
Điều kiện: Các tần số kỳ vọng phải \ge 5.
Ví dụ phân tích:
Bạn nghi ngờ con xúc xắc của mình bị lệch. Tung 60 lần, kết quả thu được: Mặt 1 (8 lần), 2 (12 lần), 3 (7 lần), 4 (15 lần), 5 (9 lần), 6 (9 lần).
H_0: Xúc xắc là cân đối (tần số kỳ vọng cho mỗi mặt là 60/6 = 10).
H_a: Xúc xắc không cân đối (phân phối quan sát khác phân phối kỳ vọng).
Tính \chi^2 và P-value để đưa ra kết luận.
Thực hành:
Một nhà sản xuất kẹo tuyên bố gói kẹo của họ có 30% màu đỏ, 20% xanh, 20% vàng, 15% cam và 15% nâu. Bạn mua một gói 100 viên kẹo và đếm số lượng mỗi màu. Thực hiện kiểm định sự phù hợp để xem liệu tỷ lệ màu sắc có khớp với tuyên bố của nhà sản xuất hay không.
14.2. Kiểm định Chi-bình phương về Độc lập (Chi-square Test for Independence)
Lý thuyết:
Sử dụng để kiểm tra xem có mối liên hệ thống kê giữa hai biến định tính trong dân số hay không (thường sử dụng bảng tần số hai chiều).
Giả thuyết không (H_0): Hai biến là độc lập (không có mối liên hệ).
Giả thuyết đối (H_a): Hai biến là phụ thuộc (có mối liên hệ).
Tần số kỳ vọng: Tần số kỳ vọng cho mỗi ô trong bảng hai chiều được tính dựa trên giả định độc lập.
Bậc tự do (df): (\text{Số hàng} – 1) \times (\text{Số cột} – 1).
Điều kiện: Các tần số kỳ vọng phải \ge 5.
Ví dụ phân tích:
Bạn muốn biết liệu có mối liên hệ giữa “giới tính” và “loại phim yêu thích” (Hành động/Hài/Kinh dị). Thu thập dữ liệu từ một mẫu người.
H_0: Giới tính và loại phim yêu thích là độc lập.
H_a: Giới tính và loại phim yêu thích là phụ thuộc.
Xây dựng bảng tần số hai chiều, tính tần số kỳ vọng, sau đó tính \chi^2 và P-value.
Thực hành:
Một nghiên cứu kiểm tra mối liên hệ giữa “tình trạng hút thuốc” (hút/không hút) và “bệnh tim” (có/không). Dữ liệu được tóm tắt trong một bảng hai chiều. Thực hiện kiểm định Chi-bình phương về độc lập để xem liệu có bằng chứng về mối liên hệ giữa hai biến này hay không.
Unit 15: Hồi quy Nâng cao (Suy luận và Biến đổi) (Advanced Regression – Inference and Transforming)
Mục tiêu: Mở rộng kiến thức về hồi quy tuyến tính bằng cách thực hiện suy luận thống kê và xem xét các biến đổi dữ liệu.
Lý thuyết:
Suy luận cho Hệ số hồi quy (Inference for Regression Coefficients): Thực hiện kiểm định giả thuyết và xây dựng khoảng tin cậy cho độ dốc và hệ số chặn của đường hồi quy dân số.
H_0: Độ dốc dân số là 0 (nghĩa là không có mối quan hệ tuyến tính giữa X và Y).
Kiểm tra điều kiện cho hồi quy tuyến tính:
Linearity (Tuyến tính): Mối quan hệ giữa X và Y là tuyến tính. (Kiểm tra bằng biểu đồ phân tán).
Independence (Độc lập): Các quan sát là độc lập.
Normality (Chuẩn): Phân phối của các phần dư (residuals) là chuẩn. (Kiểm tra bằng biểu đồ phân phối chuẩn của phần dư).
Equal Variance (Phương sai bằng nhau – Homoscedasticity): Phương sai của các phần dư là không đổi trên toàn bộ phạm vi của X. (Kiểm tra bằng biểu đồ phần dư).
Biến đổi dữ liệu (Transforming Data): Áp dụng các phép biến đổi toán học (ví dụ: logarit, căn bậc hai) cho các biến để làm cho mối quan hệ trở nên tuyến tính hơn hoặc để thỏa mãn các điều kiện của mô hình.
Ví dụ phân tích:
Bạn đã xây dựng mô hình hồi quy để dự đoán giá nhà từ diện tích. Bạn muốn biết liệu diện tích có phải là một yếu tố dự đoán đáng kể cho giá nhà hay không. Bạn sẽ thực hiện kiểm định t cho độ dốc của mô hình hồi quy.
Nếu biểu đồ phần dư cho thấy một dạng hình quạt, bạn có thể cần biến đổi biến phản ứng (ví dụ: lấy logarit của giá nhà) để đạt được phương sai bằng nhau.
Thực hành:
Với một tập dữ liệu đã có (ví dụ: giá nhà và diện tích), sử dụng phần mềm thống kê (hoặc thư viện Python như statsmodels hay scikit-learn) để chạy hồi quy tuyến tính.
Kiểm định giả thuyết rằng độ dốc của đường hồi quy bằng 0.
Vẽ biểu đồ phần dư và biểu đồ phân phối chuẩn của phần dư để kiểm tra các điều kiện. Nếu các điều kiện không được thỏa mãn, hãy thử biến đổi một trong các biến và chạy lại mô hình.
Unit 16: Phân tích Phương sai (ANOVA)
Mục tiêu: So sánh trung bình của ba hoặc nhiều nhóm để xác định xem ít nhất một cặp nhóm có trung bình khác biệt đáng kể hay không.
Lý thuyết:
ANOVA (Analysis of Variance): Mặc dù tên là “phân tích phương sai”, ANOVA được sử dụng để kiểm định sự khác biệt giữa các giá trị trung bình của nhiều nhóm. Nó làm điều này bằng cách phân tích sự biến đổi (phương sai) trong dữ liệu.
Giả thuyết không (H_0): Tất cả các giá trị trung bình nhóm đều bằng nhau (\mu_1 = \mu_2 = \dots = \mu_k).
Giả thuyết đối (H_a): Ít nhất một cặp giá trị trung bình nhóm là khác nhau.
Thống kê kiểm định F: Tỷ lệ giữa phương sai giữa các nhóm (Between-group variance) và phương sai trong nội bộ nhóm (Within-group variance).
Điều kiện:
Ngẫu nhiên: Các mẫu được lấy ngẫu nhiên và độc lập.
Chuẩn: Phân phối của dữ liệu trong mỗi nhóm là gần chuẩn.
Phương sai bằng nhau: Phương sai của các nhóm là bằng nhau.
Ví dụ phân tích:
Một nhà nghiên cứu muốn kiểm tra xem có sự khác biệt về điểm thi giữa các học sinh sử dụng 3 phương pháp học tập khác nhau.
H_0: Điểm trung bình của 3 phương pháp là như nhau.
H_a: Ít nhất một phương pháp có điểm trung bình khác biệt.
ANOVA sẽ cho biết liệu có sự khác biệt tổng thể hay không. Nếu P-value nhỏ, chúng ta bác bỏ H_0. Sau đó, nếu cần, chúng ta sẽ thực hiện các kiểm định post-hoc (ví dụ: kiểm định Tukey HSD) để xác định cụ thể cặp nhóm nào khác nhau.
Thực hành:
Giả sử bạn có dữ liệu về doanh số bán hàng của 4 cửa hàng khác nhau trong một chuỗi cửa hàng. Thực hiện phân tích ANOVA để xem liệu có sự khác biệt đáng kể về doanh số trung bình giữa các cửa hàng này hay không.
(Sử dụng Python với thư viện scipy.stats.f_oneway hoặc statsmodels.formula.api.ols để thực hiện ANOVA).
Phần còn lại: Course Challenge
Lý thuyết & Thực hành:
“Course Challenge” trên Khan Academy là bài kiểm tra tổng hợp kiến thức và kỹ năng từ tất cả các đơn vị trong khóa học. Đây là cơ hội tuyệt vời để bạn tự đánh giá mức độ hiểu biết của mình và ôn tập các chủ đề còn yếu.
Hãy xem đây là một dự án nhỏ để tổng hợp tất cả những gì bạn đã học.
Gợi ý Thực hành và Củng cố Chung
Sử dụng Python chuyên sâu hơn:
Đối với khoảng tin cậy và kiểm định giả thuyết: Sử dụng thư viện scipy.stats (cho các phân phối, giá trị tới hạn, P-value) và statsmodels (cho các kiểm định phức tạp hơn như hồi quy, ANOVA).
Ví dụ (Kiểm định t 1 mẫu bằng Python):from scipy import stats
import numpy as np
# Dữ liệu mẫu (ví dụ: thời gian chờ đợi)
data = [17, 20, 15, 22, 19, 16, 21, 18, 23, 17, 20, 18, 16, 19, 22, 17, 21, 19, 18, 20]
sample_mean = np.mean(data)
sample_std = np.std(data, ddof=1) # ddof=1 cho độ lệch chuẩn mẫu
n = len(data)
mu_0 = 15 # Giả thuyết null: thời gian chờ đợi trung bình là 15 phút
# Tính thống kê kiểm định t
t_statistic = (sample_mean – mu_0) / (sample_std / np.sqrt(n))
df = n – 1
# Tính P-value (kiểm định 1 phía bên phải: H_a: mu > 15)
p_value = stats.t.sf(t_statistic, df) # sf là survival function (1 – cdf)
print(f”Sample Mean: {sample_mean:.2f}”)
print(f”Sample Std Dev: {sample_std:.2f}”)
print(f”t-statistic: {t_statistic:.3f}”)
print(f”Degrees of Freedom: {df}”)
print(f”P-value: {p_value:.3f}”)
alpha = 0.05
if p_value <= alpha:
print(f”P-value ({p_value:.3f}) <= alpha ({alpha}), Bác bỏ H0.”)
else:
print(f”P-value ({p_value:.3f}) > alpha ({alpha}), Không bác bỏ H0.”)
Case Study và Dự án Thực tế:
Tìm các tập dữ liệu trên Kaggle (cấp độ “Intermediate” hoặc “Advanced”) và áp dụng các kỹ thuật suy luận thống kê để trả lời các câu hỏi cụ thể về dữ liệu.
Thực hành trình bày kết quả kiểm định giả thuyết một cách rõ ràng, giải thích ý nghĩa của P-value và kết luận trong bối cảnh thực tế.
Đọc và Phân tích Báo cáo Thống kê:
Đọc các bài báo khoa học, báo cáo nghiên cứu có sử dụng thống kê và cố gắng hiểu các kiểm định, khoảng tin cậy mà họ đã sử dụng. Điều này giúp bạn hiểu ứng dụng thực tế.
Việc nắm vững các kỹ thuật suy luận thống kê trong các đơn vị này sẽ biến bạn từ một người chỉ biết “đọc” dữ liệu thành một người có khả năng “đưa ra kết luận” từ dữ liệu, một kỹ năng cốt lõi của một nhà Khoa học Dữ liệu. Hãy kiên trì luyện tập và áp dụng kiến thức vào các bài toán thực tế!