Add cheat-sheet_reconcile.md

This commit is contained in:
2025-12-22 05:31:20 +01:00
parent a4cd53eb85
commit 92e7e50e84

190
cheat-sheet_reconcile.md Normal file
View File

@@ -0,0 +1,190 @@
# 📋 CHEAT SHEET - Công Thức Khai Phá Dữ Liệu
## 📊 TIỀN XỬ LÝ DỮ LIỆU
### Thống Kê Mô Tả
**Mean:** `x̄ = Σxi / n`
Ví dụ: [4,5,6] → 15/3 = **5**
**Median:** Giá trị giữa sau khi sắp xếp
Ví dụ: [4,5,6] → **5** | [4,5,6,7] → (5+6)/2 = **5.5**
**Mode:** Giá trị xuất hiện nhiều nhất
Ví dụ: [4,5,5,6] → **5**
---
### Boxplot
**Quartiles:**
```
Q1 = Median(nửa dưới)
Q2 = Median
Q3 = Median(nửa trên)
IQR = Q3 - Q1
```
Ví dụ: [1,2,3,4,5,6,7,8,9] → Q1=2.5, Q2=5, Q3=7.5, IQR=5
**Outliers:**
```
Lower fence = Q1 - 1.5×IQR
Upper fence = Q3 + 1.5×IQR
```
---
### Chuẩn Hóa
**1. Decimal Scaling:** `x' = x / 10^j`
Ví dụ: 91 → 91/100 = **0.91**
**2. Min-Max:** `x' = (x-min)/(max-min) × (b-a) + a`
Ví dụ: [4,7,10] về [0,1]: 7 → (7-4)/6 = **0.5**
**3. Z-Score:** `x' = (x-μ)/σ` với `σ = √[Σxi²/n - x̄²]`
Ví dụ: [4,7,10] → x̄=7, σ=2.45: 7 → (7-7)/2.45 = **0**
**4. Modified Z-Score:** `x' = 0.6745×(x-median)/MAD`
MAD = `median(|xi-median|)`
Ví dụ: [1,2,3,4,100] → Median=3, MAD=1: 100 → 0.6745×97 = **65.43**
---
### Binning
**Equal-Width:** `Width = (Max-Min) / số bins`
Ví dụ: [1-9] → 3 bins → Width=2.67
**Smoothing:**
- **Means:** Thay = Trung bình bin. Ví dụ: [1,2,3] → [2,2,2]
- **Medians:** Thay = Trung vị bin. Ví dụ: [1,2,3] → [2,2,2]
- **Boundaries:** Thay = Min/Max gần nhất. Ví dụ: [1,2,3] → [1,1,3]
---
### Correlation
**Computational (Khuyến nghị):**
```
Cov(X,Y) = Σ(xi·yi)/n - x̄·ȳ
σx = √[Σxi²/n - x̄²]
σy = √[Σyi²/n - ȳ²]
r = Cov(X,Y) / (σx × σy)
```
Ví dụ: X=[1,2,3], Y=[2,4,6]
Σ(xi·yi)=28, Σxi²=14, Σyi²=56, n=3
→ Cov=1.33, σx=0.82, σy=1.63 → r=**1.0**
**Definitional:**
```
r = Σ[(xi-x̄)(yi-ȳ)] / √[Σ(xi-x̄)² × Σ(yi-ȳ)²]
```
---
## 🔍 THUẬT TOÁN
### Apriori
**Support:** `Count(X) / Total`
Ví dụ: {A,B} trong 3/10 giao dịch → **30%**
**Confidence:** `Support(XY) / Support(X)`
Ví dụ: Sup({A,B})=30%, Sup({A})=50% → **60%**
**Lift:** `Confidence(X→Y) / Support(Y)`
Ví dụ: Conf=60%, Sup(B)=40% → **1.5**
---
### ID3
**Entropy:** `E(S) = -Σ pi × log₂(pi)`
Ví dụ: 9 Yes, 5 No → p₁=9/14=0.643, p₂=5/14=0.357
E = -(0.643×log₂0.643 + 0.357×log₂0.357) = **0.940**
**Gain:** `Gain(S,A) = E(S) - Σ(|Sv|/|S|)×E(Sv)`
Ví dụ: E(S)=0.940, E(Sunny)=0.971, E(Rain)=0
Gain = 0.940 - [(5/14)×0.971 + (4/14)×0] = **0.246**
---
### K-means
**Euclidean Distance:** `d(p,q) = √[Σ(pi-qi)²]`
Ví dụ: p(2,3), q(5,7) → √[(2-5)²+(3-7)²] = √25 = **5**
**SSE:** `Σ distance²(điểm, tâm)`
Ví dụ: Tâm(3,3), A(2,3), B(4,5) → SSE = 1+5 = **6**
**Centroid:** `(Trung bình xi, Trung bình yi)`
Ví dụ: (2,3), (4,5), (6,7) → **(4,5)**
---
## 🔑 CÔNG THỨC QUAN TRỌNG
1. **Mean:** x̄ = Σxi/n
2. **Median:** Giá trị giữa
3. **Min-Max:** (x-min)/(max-min)×(b-a)+a
4. **Z-Score:** (x-μ)/σ
5. **Modified Z-Score:** 0.6745×(x-median)/MAD
6. **σ:** √[Σxi²/n - x̄²]
7. **Cov:** Σ(xi·yi)/n - x̄·ȳ
8. **r:** Cov(X,Y)/(σx×σy)
9. **Support:** Count/Total
10. **Confidence:** Sup(XY)/Sup(X)
11. **Entropy:** -Σ pi×log₂(pi)
12. **Distance:** √[Σ(pi-qi)²]
---
## 📊 BẢNG NHANH
### Normalization
| Method | Formula | Use |
|--------|---------|-----|
| Decimal | x/10^j | Nhanh |
| Min-Max | (x-min)/(max-min) | [0,1] |
| Z-Score | (x-μ)/σ | Phân phối chuẩn |
| Modified Z | 0.6745×(x-med)/MAD | Có outliers |
### Correlation
| \|r\| | Mức độ |
|------|--------|
| <0.3 | Yếu |
| 0.3-0.7 | Trung bình |
| >0.7 | Mạnh |
### Outliers
| Method | Threshold |
|--------|-----------|
| IQR | x < Q1-1.5×IQR hoặc x > Q3+1.5×IQR |
| Z-Score | \|z\| > 3 |
| Modified Z | \|z'\| > 3.5 |
---
## 💡 GHI NHỚ
**Computational vs Definitional:**
- Computational = Nhanh (dùng Σxi², Σ(xi·yi))
- Definitional = Dễ hiểu (dùng (xi-x̄))
**Binning:**
- Equal-Width = Chiều rộng đều
- Equal-Frequency = Số phần tử đều
**Interval Notation:**
- [a,b] = bao gồm a VÀ b
- [a,b) = bao gồm a, KHÔNG b
**ID3:** Chọn attribute có **Gain cao nhất**
**K-means:** Gán về **cluster gần nhất**
**Apriori:** Lift>1 → X,Y liên quan