diff --git a/cheat-sheet_reconcile.md b/cheat-sheet_reconcile.md new file mode 100644 index 0000000..9c21f74 --- /dev/null +++ b/cheat-sheet_reconcile.md @@ -0,0 +1,190 @@ +# 📋 CHEAT SHEET - Công Thức Khai Phá Dữ Liệu + +## 📊 TIỀN XỬ LÝ DỮ LIỆU + +### Thống Kê Mô Tả + +**Mean:** `x̄ = Σxi / n` +Ví dụ: [4,5,6] → 15/3 = **5** + +**Median:** Giá trị giữa sau khi sắp xếp +Ví dụ: [4,5,6] → **5** | [4,5,6,7] → (5+6)/2 = **5.5** + +**Mode:** Giá trị xuất hiện nhiều nhất +Ví dụ: [4,5,5,6] → **5** + +--- + +### Boxplot + +**Quartiles:** +``` +Q1 = Median(nửa dưới) +Q2 = Median +Q3 = Median(nửa trên) +IQR = Q3 - Q1 +``` +Ví dụ: [1,2,3,4,5,6,7,8,9] → Q1=2.5, Q2=5, Q3=7.5, IQR=5 + +**Outliers:** +``` +Lower fence = Q1 - 1.5×IQR +Upper fence = Q3 + 1.5×IQR +``` + +--- + +### Chuẩn Hóa + +**1. Decimal Scaling:** `x' = x / 10^j` +Ví dụ: 91 → 91/100 = **0.91** + +**2. Min-Max:** `x' = (x-min)/(max-min) × (b-a) + a` +Ví dụ: [4,7,10] về [0,1]: 7 → (7-4)/6 = **0.5** + +**3. Z-Score:** `x' = (x-μ)/σ` với `σ = √[Σxi²/n - x̄²]` +Ví dụ: [4,7,10] → x̄=7, σ=2.45: 7 → (7-7)/2.45 = **0** + +**4. Modified Z-Score:** `x' = 0.6745×(x-median)/MAD` +MAD = `median(|xi-median|)` +Ví dụ: [1,2,3,4,100] → Median=3, MAD=1: 100 → 0.6745×97 = **65.43** + +--- + +### Binning + +**Equal-Width:** `Width = (Max-Min) / số bins` +Ví dụ: [1-9] → 3 bins → Width=2.67 + +**Smoothing:** +- **Means:** Thay = Trung bình bin. Ví dụ: [1,2,3] → [2,2,2] +- **Medians:** Thay = Trung vị bin. Ví dụ: [1,2,3] → [2,2,2] +- **Boundaries:** Thay = Min/Max gần nhất. Ví dụ: [1,2,3] → [1,1,3] + +--- + +### Correlation + +**Computational (Khuyến nghị):** +``` +Cov(X,Y) = Σ(xi·yi)/n - x̄·ȳ +σx = √[Σxi²/n - x̄²] +σy = √[Σyi²/n - ȳ²] +r = Cov(X,Y) / (σx × σy) +``` +Ví dụ: X=[1,2,3], Y=[2,4,6] +Σ(xi·yi)=28, Σxi²=14, Σyi²=56, n=3 +→ Cov=1.33, σx=0.82, σy=1.63 → r=**1.0** + +**Definitional:** +``` +r = Σ[(xi-x̄)(yi-ȳ)] / √[Σ(xi-x̄)² × Σ(yi-ȳ)²] +``` + +--- + +## 🔍 THUẬT TOÁN + +### Apriori + +**Support:** `Count(X) / Total` +Ví dụ: {A,B} trong 3/10 giao dịch → **30%** + +**Confidence:** `Support(X∪Y) / Support(X)` +Ví dụ: Sup({A,B})=30%, Sup({A})=50% → **60%** + +**Lift:** `Confidence(X→Y) / Support(Y)` +Ví dụ: Conf=60%, Sup(B)=40% → **1.5** + +--- + +### ID3 + +**Entropy:** `E(S) = -Σ pi × log₂(pi)` +Ví dụ: 9 Yes, 5 No → p₁=9/14=0.643, p₂=5/14=0.357 +E = -(0.643×log₂0.643 + 0.357×log₂0.357) = **0.940** + +**Gain:** `Gain(S,A) = E(S) - Σ(|Sv|/|S|)×E(Sv)` +Ví dụ: E(S)=0.940, E(Sunny)=0.971, E(Rain)=0 +Gain = 0.940 - [(5/14)×0.971 + (4/14)×0] = **0.246** + +--- + +### K-means + +**Euclidean Distance:** `d(p,q) = √[Σ(pi-qi)²]` +Ví dụ: p(2,3), q(5,7) → √[(2-5)²+(3-7)²] = √25 = **5** + +**SSE:** `Σ distance²(điểm, tâm)` +Ví dụ: Tâm(3,3), A(2,3), B(4,5) → SSE = 1+5 = **6** + +**Centroid:** `(Trung bình xi, Trung bình yi)` +Ví dụ: (2,3), (4,5), (6,7) → **(4,5)** + +--- + +## 🔑 CÔNG THỨC QUAN TRỌNG + +1. **Mean:** x̄ = Σxi/n +2. **Median:** Giá trị giữa +3. **Min-Max:** (x-min)/(max-min)×(b-a)+a +4. **Z-Score:** (x-μ)/σ +5. **Modified Z-Score:** 0.6745×(x-median)/MAD +6. **σ:** √[Σxi²/n - x̄²] +7. **Cov:** Σ(xi·yi)/n - x̄·ȳ +8. **r:** Cov(X,Y)/(σx×σy) +9. **Support:** Count/Total +10. **Confidence:** Sup(X∪Y)/Sup(X) +11. **Entropy:** -Σ pi×log₂(pi) +12. **Distance:** √[Σ(pi-qi)²] + +--- + +## 📊 BẢNG NHANH + +### Normalization + +| Method | Formula | Use | +|--------|---------|-----| +| Decimal | x/10^j | Nhanh | +| Min-Max | (x-min)/(max-min) | [0,1] | +| Z-Score | (x-μ)/σ | Phân phối chuẩn | +| Modified Z | 0.6745×(x-med)/MAD | Có outliers | + +### Correlation + +| \|r\| | Mức độ | +|------|--------| +| <0.3 | Yếu | +| 0.3-0.7 | Trung bình | +| >0.7 | Mạnh | + +### Outliers + +| Method | Threshold | +|--------|-----------| +| IQR | x < Q1-1.5×IQR hoặc x > Q3+1.5×IQR | +| Z-Score | \|z\| > 3 | +| Modified Z | \|z'\| > 3.5 | + +--- + +## 💡 GHI NHỚ + +**Computational vs Definitional:** +- Computational = Nhanh (dùng Σxi², Σ(xi·yi)) +- Definitional = Dễ hiểu (dùng (xi-x̄)) + +**Binning:** +- Equal-Width = Chiều rộng đều +- Equal-Frequency = Số phần tử đều + +**Interval Notation:** +- [a,b] = bao gồm a VÀ b +- [a,b) = bao gồm a, KHÔNG b + +**ID3:** Chọn attribute có **Gain cao nhất** + +**K-means:** Gán về **cluster gần nhất** + +**Apriori:** Lift>1 → X,Y liên quan \ No newline at end of file