From 24eb7b3b3196ed1bdc9c6bb43f908e1f47a214dd Mon Sep 17 00:00:00 2001 From: thinh Date: Sun, 21 Dec 2025 16:13:27 +0100 Subject: [PATCH] Update README.md --- README.md | 342 +++++++++++++++++++++++++++++++++++++++++++++++++++++- 1 file changed, 341 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index b09c046..36515ab 100644 --- a/README.md +++ b/README.md @@ -154,6 +154,129 @@ Y chuẩn hóa: 0.72 0.80 0.85 0.75 0.85 0.60 0.65 0.68 0.90 0.85 0.55 0.60 --- +### **Các phương pháp chuẩn hóa khác** + +#### **Phương pháp 2: Min-Max Normalization (Chuẩn hóa Min-Max)** + +**Công thức:** `x' = (x - min) / (max - min)` + +Kết quả nằm trong khoảng [0, 1] + +##### **Chuẩn hóa X** + +- Min(X) = 4.5 +- Max(X) = 9.1 +- Range = 9.1 - 4.5 = 4.6 + +**Tính toán chi tiết:** + +| Giá trị gốc | Công thức | Kết quả | +|-------------|-----------|---------| +| 7.0 | (7.0 - 4.5) / 4.6 | 0.543 | +| 8.5 | (8.5 - 4.5) / 4.6 | 0.870 | +| 8.6 | (8.6 - 4.5) / 4.6 | 0.891 | +| 6.7 | (6.7 - 4.5) / 4.6 | 0.478 | +| 6.5 | (6.5 - 4.5) / 4.6 | 0.435 | +| 7.0 | (7.0 - 4.5) / 4.6 | 0.543 | +| 6.0 | (6.0 - 4.5) / 4.6 | 0.326 | +| 5.5 | (5.5 - 4.5) / 4.6 | 0.217 | +| 7.0 | (7.0 - 4.5) / 4.6 | 0.543 | +| 9.1 | (9.1 - 4.5) / 4.6 | 1.000 | +| 4.5 | (4.5 - 4.5) / 4.6 | 0.000 | +| 5.3 | (5.3 - 4.5) / 4.6 | 0.174 | + +**Kết quả:** +``` +X gốc: 7.0 8.5 8.6 6.7 6.5 7.0 6.0 5.5 7.0 9.1 4.5 5.3 +X Min-Max: 0.543 0.870 0.891 0.478 0.435 0.543 0.326 0.217 0.543 1.000 0.000 0.174 +``` + +--- + +##### **Chuẩn hóa Y** + +- Min(Y) = 5.5 +- Max(Y) = 9.0 +- Range = 9.0 - 5.5 = 3.5 + +**Kết quả:** +``` +Y gốc: 7.2 8.0 8.5 7.5 8.5 6.0 6.5 6.8 9.0 8.5 5.5 6.0 +Y Min-Max: 0.486 0.714 0.857 0.571 0.857 0.143 0.286 0.371 1.000 0.857 0.000 0.143 +``` + +--- + +#### **Phương pháp 3: Z-Score Normalization (Chuẩn hóa Z-Score)** + +**Công thức:** `x' = (x - μ) / σ` + +Trong đó: +- μ = trung bình (mean) +- σ = độ lệch chuẩn (standard deviation) + +Kết quả có trung bình = 0 và độ lệch chuẩn = 1 + +##### **Chuẩn hóa X** + +Từ câu 1a và 1e, ta có: +- μ_x = 6.81 +- σ_x = 1.398 (từ tính toán correlation) + +**Tính toán chi tiết:** + +| Giá trị gốc | Công thức | Kết quả | +|-------------|-----------|---------| +| 7.0 | (7.0 - 6.81) / 1.398 | 0.136 | +| 8.5 | (8.5 - 6.81) / 1.398 | 1.209 | +| 8.6 | (8.6 - 6.81) / 1.398 | 1.280 | +| 6.7 | (6.7 - 6.81) / 1.398 | -0.079 | +| 6.5 | (6.5 - 6.81) / 1.398 | -0.222 | +| 7.0 | (7.0 - 6.81) / 1.398 | 0.136 | +| 6.0 | (6.0 - 6.81) / 1.398 | -0.579 | +| 5.5 | (5.5 - 6.81) / 1.398 | -0.937 | +| 7.0 | (7.0 - 6.81) / 1.398 | 0.136 | +| 9.1 | (9.1 - 6.81) / 1.398 | 1.638 | +| 4.5 | (4.5 - 6.81) / 1.398 | -1.652 | +| 5.3 | (5.3 - 6.81) / 1.398 | -1.080 | + +**Kết quả:** +``` +X gốc: 7.0 8.5 8.6 6.7 6.5 7.0 6.0 5.5 7.0 9.1 4.5 5.3 +X Z-Score: 0.136 1.209 1.280 -0.079 -0.222 0.136 -0.579 -0.937 0.136 1.638 -1.652 -1.080 +``` + +--- + +##### **Chuẩn hóa Y** + +Từ câu 1a và 1e, ta có: +- μ_y = 7.33 +- σ_y = 1.177 + +**Kết quả:** +``` +Y gốc: 7.2 8.0 8.5 7.5 8.5 6.0 6.5 6.8 9.0 8.5 5.5 6.0 +Y Z-Score: -0.110 0.569 0.993 0.144 0.993 -1.130 -0.705 -0.450 1.417 0.993 -1.555 -1.130 +``` + +--- + +### **So sánh các phương pháp chuẩn hóa** + +| Phương pháp | Công thức | Khoảng giá trị | Ưu điểm | Nhược điểm | Khi nào dùng | +|-------------|-----------|----------------|---------|------------|--------------| +| **Decimal Scaling** | x' = x / 10^j | (-1, 1) | Đơn giản, nhanh | Không sử dụng hết khoảng giá trị | Khi cần chuẩn hóa nhanh | +| **Min-Max** | x' = (x-min)/(max-min) | [0, 1] | Giữ nguyên phân phối, dễ hiểu | Nhạy cảm với outliers | Khi biết giới hạn min/max rõ ràng | +| **Z-Score** | x' = (x-μ)/σ | (-∞, +∞) | Không bị ảnh hưởng bởi scale, chuẩn thống kê | Khó diễn giải | Khi dữ liệu có phân phối chuẩn | + +**Ví dụ so sánh cho X = 9.1 (giá trị max):** +- Decimal Scaling: 0.91 (91% của max có thể) +- Min-Max: 1.00 (100% - giá trị lớn nhất) +- Z-Score: 1.638 (cách trung bình 1.638 độ lệch chuẩn) + +--- + ### d. Làm trơn dữ liệu bằng phương pháp Bin Means (Equal-width) **Tham số:** Số bin = 4, phương pháp: Equal-width (chiều rộng bằng nhau) @@ -189,7 +312,125 @@ X sau làm trơn: 7.0 8.73 8.73 6.4 6.4 7.0 6.4 5.1 7.0 8.73 5.1 5.1 --- -#### **Làm trơn Y** +#### **Các phương pháp làm trơn khác cho X** + +##### **Phương pháp 2: Bin Boundaries (Làm trơn theo biên)** + +Thay thế mỗi giá trị bằng giá trị biên gần nhất (min hoặc max của bin). + +**Quy tắc:** So sánh khoảng cách đến Min và Max của bin, chọn giá trị gần hơn. + +| Bin | Khoảng | Giá trị | Min | Max | Làm trơn | +|-----|--------|---------|-----|-----|----------| +| 1 | [4.5, 5.65) | 4.5 | 4.5 | 5.5 | 4.5 (khoảng cách = 0) | +| 1 | [4.5, 5.65) | 5.3 | 4.5 | 5.5 | 5.5 (0.2 < 0.8) | +| 1 | [4.5, 5.65) | 5.5 | 4.5 | 5.5 | 5.5 (khoảng cách = 0) | +| 2 | [5.65, 6.8) | 6.0 | 6.0 | 6.7 | 6.0 (khoảng cách = 0) | +| 2 | [5.65, 6.8) | 6.5 | 6.0 | 6.7 | 6.7 (0.2 < 0.5) | +| 2 | [5.65, 6.8) | 6.7 | 6.0 | 6.7 | 6.7 (khoảng cách = 0) | +| 3 | [6.8, 7.95) | 7.0 | 7.0 | 7.0 | 7.0 (tất cả bằng nhau) | +| 4 | [7.95, 9.1] | 8.5 | 8.5 | 9.1 | 8.5 (khoảng cách = 0) | +| 4 | [7.95, 9.1] | 8.6 | 8.5 | 9.1 | 8.5 (0.1 < 0.5) | +| 4 | [7.95, 9.1] | 9.1 | 8.5 | 9.1 | 9.1 (khoảng cách = 0) | + +**Kết quả:** +``` +X gốc: 7.0 8.5 8.6 6.7 6.5 7.0 6.0 5.5 7.0 9.1 4.5 5.3 +X smoothed (boundaries): 7.0 8.5 8.5 6.7 6.7 7.0 6.0 5.5 7.0 9.1 4.5 5.5 +``` + +--- + +##### **Phương pháp 3: Bin Medians (Làm trơn theo trung vị)** + +Thay thế mỗi giá trị bằng trung vị của bin. + +| Bin | Khoảng | Giá trị (đã sắp xếp) | Trung vị | +|-----|--------|----------------------|----------| +| 1 | [4.5, 5.65) | 4.5, 5.3, 5.5 | 5.3 (giá trị giữa) | +| 2 | [5.65, 6.8) | 6.0, 6.5, 6.7 | 6.5 (giá trị giữa) | +| 3 | [6.8, 7.95) | 7.0, 7.0, 7.0 | 7.0 (giá trị giữa) | +| 4 | [7.95, 9.1] | 8.5, 8.6, 9.1 | 8.6 (giá trị giữa) | + +**Kết quả:** +``` +X gốc: 7.0 8.5 8.6 6.7 6.5 7.0 6.0 5.5 7.0 9.1 4.5 5.3 +X smoothed (medians): 7.0 8.6 8.6 6.5 6.5 7.0 6.5 5.3 7.0 8.6 5.3 5.3 +``` + +--- + +**So sánh 3 phương pháp làm trơn:** + +| Phương pháp | Ưu điểm | Nhược điểm | +|-------------|---------|------------| +| **Bin Means** | Giảm nhiễu tốt, mượt mà | Có thể tạo giá trị không tồn tại trong dữ liệu gốc | +| **Bin Boundaries** | Giữ giá trị thực tế từ dữ liệu gốc | Ít mượt mà, dễ bị ảnh hưởng bởi outliers | +| **Bin Medians** | Kháng nhiễu tốt (robust), giá trị thực tế | Trung bình giữa 2 phương pháp trên | + +--- + +#### **Phương pháp phân bin: Equal-Frequency (Tần suất bằng nhau)** + +Khác với Equal-Width (chiều rộng bằng nhau), phương pháp Equal-Frequency chia dữ liệu sao cho **mỗi bin có số lượng phần tử gần bằng nhau**. + +##### **Ví dụ với X (4 bins, Equal-Frequency)** + +**Bước 1:** Sắp xếp dữ liệu +``` +X sorted: 4.5, 5.3, 5.5, 6.0, 6.5, 6.7, 7.0, 7.0, 7.0, 8.5, 8.6, 9.1 +``` + +**Bước 2:** Tính số phần tử mỗi bin +``` +n = 12 điểm dữ liệu +Số bins = 4 +Số phần tử/bin = 12/4 = 3 phần tử +``` + +**Bước 3:** Phân chia thành 4 bins với 3 phần tử mỗi bin + +| Bin | Phần tử | Khoảng | Trung bình | +|-----|---------|--------|------------| +| 1 | 4.5, 5.3, 5.5 | [4.5, 5.5] | 5.10 | +| 2 | 6.0, 6.5, 6.7 | (5.5, 6.7] | 6.40 | +| 3 | 7.0, 7.0, 7.0 | (6.7, 7.0] | 7.00 | +| 4 | 8.5, 8.6, 9.1 | (7.0, 9.1] | 8.73 | + +**Kết quả (Bin Means):** +``` +X gốc (sorted): 4.5 5.3 5.5 6.0 6.5 6.7 7.0 7.0 7.0 8.5 8.6 9.1 +X smoothed (equal-freq): 5.1 5.1 5.1 6.4 6.4 6.4 7.0 7.0 7.0 8.73 8.73 8.73 +``` + +--- + +**So sánh Equal-Width vs Equal-Frequency:** + +| Phương pháp | Cách chia | Ưu điểm | Nhược điểm | Khi nào dùng | +|-------------|-----------|---------|------------|--------------| +| **Equal-Width** | Chiều rộng giá trị bằng nhau | Đơn giản, trực quan | Bins có thể rỗng hoặc quá đông | Dữ liệu phân phối đều | +| **Equal-Frequency** | Số phần tử mỗi bin bằng nhau | Mỗi bin có đại diện, cân bằng | Bins có thể có khoảng giá trị khác nhau nhiều | Dữ liệu có outliers hoặc phân phối lệch | + +**Ví dụ so sánh với X:** + +*Equal-Width:* +- Bin 1: [4.5, 5.65) → 3 phần tử +- Bin 2: [5.65, 6.8) → 3 phần tử +- Bin 3: [6.8, 7.95) → 3 phần tử +- Bin 4: [7.95, 9.1] → 3 phần tử +- Chiều rộng: 1.15 (đều nhau) + +*Equal-Frequency:* +- Bin 1: [4.5, 5.5] → 3 phần tử (width = 1.0) +- Bin 2: (5.5, 6.7] → 3 phần tử (width = 1.2) +- Bin 3: (6.7, 7.0] → 3 phần tử (width = 0.3) +- Bin 4: (7.0, 9.1] → 3 phần tử (width = 2.1) +- Số phần tử: 3 (đều nhau) + +--- + +#### **Làm trơn Y (Bin Means - Equal-Width)** **Bước 1:** Xác định khoảng giá trị - Min = 5.5 @@ -320,6 +561,105 @@ r = 0.672 --- +## Tổng Kết Câu 1: Các Kỹ Thuật Tiền Xử Lý Dữ Liệu + +### **1. Thống kê mô tả (Descriptive Statistics)** + +| Chỉ số | X | Y | Ý nghĩa | +|--------|---|---|---------| +| Mean (Trung bình) | 6.81 | 7.33 | Giá trị trung tâm của dữ liệu | +| Median (Trung vị) | 6.85 | 7.35 | Giá trị giữa, kháng nhiễu | +| Mode (Yếu vị) | 7.0 | 8.5 | Giá trị xuất hiện nhiều nhất | +| Min | 4.5 | 5.5 | Giá trị nhỏ nhất | +| Max | 9.1 | 9.0 | Giá trị lớn nhất | +| Q1 | 5.75 | 6.25 | 25% dữ liệu ≤ Q1 | +| Q3 | 7.75 | 8.5 | 75% dữ liệu ≤ Q3 | +| IQR | 2.0 | 2.25 | Đo độ phân tán | + +--- + +### **2. Phương pháp Chuẩn hóa (Normalization)** + +| Phương pháp | Công thức | Khoảng giá trị | Đặc điểm | Ứng dụng | +|-------------|-----------|----------------|----------|----------| +| **Decimal Scaling** | x' = x/10^j | (-1, 1) | Đơn giản, nhanh | Chuẩn hóa nhanh, dữ liệu đơn giản | +| **Min-Max** | (x-min)/(max-min) | [0, 1] | Giữ phân phối | Neural networks, khi biết min/max | +| **Z-Score** | (x-μ)/σ | (-∞, +∞) | Chuẩn hóa thống kê | Phát hiện outliers, so sánh nhiều biến | + +**Khi nào dùng phương pháp nào:** +- **Decimal Scaling:** Khi cần nhanh, dữ liệu đơn giản +- **Min-Max:** Khi cần giá trị trong [0,1], biết rõ min/max, dùng cho neural networks +- **Z-Score:** Khi dữ liệu có phân phối chuẩn, cần so sánh nhiều biến có đơn vị khác nhau + +--- + +### **3. Phương pháp Phân Bin (Binning)** + +#### **3.1. Cách phân bin:** + +| Phương pháp | Nguyên tắc | Ưu điểm | Nhược điểm | +|-------------|------------|---------|------------| +| **Equal-Width** | Chiều rộng bằng nhau | Đơn giản, trực quan | Bins có thể rỗng/quá đông | +| **Equal-Frequency** | Số phần tử bằng nhau | Cân bằng, tránh bins rỗng | Chiều rộng không đều | + +#### **3.2. Cách làm trơn trong bin:** + +| Phương pháp | Cách thay thế | Ưu điểm | Nhược điểm | +|-------------|---------------|---------|------------| +| **Bin Means** | Thay = trung bình bin | Mượt mà, giảm nhiễu tốt | Tạo giá trị mới | +| **Bin Medians** | Thay = trung vị bin | Kháng nhiễu, giá trị thực | Trung bình | +| **Bin Boundaries** | Thay = min/max gần nhất | Giữ giá trị gốc | Ít mượt, nhạy outliers | + +**Workflow làm trơn dữ liệu:** +1. Sắp xếp dữ liệu +2. Phân bin (Equal-Width hoặc Equal-Frequency) +3. Làm trơn (Means, Medians, hoặc Boundaries) + +--- + +### **4. Phân tích tương quan (Correlation)** + +**Hệ số tương quan Pearson: r = 0.67** + +**Cách tính:** +- **Phương pháp 1:** Công thức trực tiếp +- **Phương pháp 2:** r = Cov(X,Y) / (σx × σy) + +**Diễn giải:** +- r = 0.67 → Tương quan dương khá mạnh +- Khi X tăng, Y có xu hướng tăng theo +- Mức độ: |r| < 0.3 (yếu), 0.3-0.7 (trung bình), > 0.7 (mạnh) + +--- + +### **5. Quy trình tổng quát tiền xử lý dữ liệu** + +``` +Dữ liệu thô + ↓ +[1] Thống kê mô tả + - Tính mean, median, mode + - Vẽ boxplot + - Phát hiện outliers + ↓ +[2] Làm sạch dữ liệu + - Xử lý missing values + - Xử lý outliers + - Làm trơn (binning) + ↓ +[3] Chuẩn hóa + - Min-Max / Z-Score / Decimal Scaling + - Đưa về cùng thang đo + ↓ +[4] Phân tích mối quan hệ + - Correlation analysis + - Feature selection + ↓ +Dữ liệu đã xử lý +``` + +--- + ## Câu 2: Thuật Toán Apriori và Luật Kết Hợp ### Dữ liệu giao dịch