Phương pháp dự đoán

Hybrid Stats + AI — minh bạch hoàn toàn, mọi công thức + data + backtest đều công khai.

Pipeline tổng quan

Mỗi trận đi qua 5 layer: 3 mô hình thống kê → aggregator → AI updater → kết quả cuối.

Input
Trận: Đội A vs Đội B
3 mô hình thống kê chạy song song
ELO Rating
47.980 trận lịch sử
K-factor theo giải · MOV multiplier · Host boost
→ P(W/D/L)
Poisson Model
6.000 trận major
α attack, δ defense per team · Time decay
→ λ_A, λ_B, top scores
WC Overlay
1.069 trận WC
WCOI · Conf×Stage matrix · Stage params
→ adjustments
Aggregator
Weighted ensemble
Elo 35% · Poisson 35% · Conf×Stage 20% · WCOI 10%
→ P_baseline + expected score
Layer định tính
Gemini 2.5 Flash · Bayesian Updater
Constraint: P_final ∈ baseline ±15%
(±25% nếu có lý do định tính rõ ràng: chấn thương, treo giò, motivation, tactical)
Kết quả cuối
Xác suất 3 chiều · Tỉ số · Confidence · Phân tích VN

Backtest WC2018 + WC2022 (leak-free)

Rebuild Elo + Poisson chỉ với data TRƯỚC mỗi trận, predict 128 trận của 2 kỳ WC gần nhất.

1. Elo Rating (35% weight)

FIFA-style Elo update sau mỗi trận của 47.980 trận quốc tế 1872-2025. K-factor theo mức độ quan trọng giải đấu.

R'_A = R_A + K × m × (W_actual - W_expected)
W_expected = 1 / (1 + 10^((R_B - R_A)/400))
K = 55 (WC) | 45 (Euro/Copa) | 35 (WC qualifier) | 20 (friendly)
m = log(|GD| + 1) × damp(rating_diff) (margin of victory)
Host boost: +200 Mexico Azteca, +100-150 USA/Canada venues

2. Poisson Goal Model (35% weight)

Cho mỗi đội, fit attack (α) và defense (δ) strength so với mean toàn cầu. λ = expected goals.

λ_home = α_home × δ_away × home_boost × global_avg
λ_away = α_away × δ_home × global_avg
P(score=i,j) = Poisson(i; λ_home) × Poisson(j; λ_away)
α > 1 → ghi nhiều hơn TB. δ < 1 → thủ tốt hơn TB.
Data: 6.028 trận major tournaments 2014+. Time-decay exp(-0.10 × age).

3. Confederation × Stage Matrix (20% weight)

Lịch sử WC cho thấy các liên đoàn không bình đẳng tại WC. Matrix trích từ 1.069 trận WC 1930-2022.

4. WCOI — WC Overperformance Index (10% weight)

Đo: 1 đội có "đá hay hơn bình thường" khi vào WC không?

WCOI = WC_win_rate − All_time_win_rate

5. LLM Layer — Gemini 2.5 Flash as Bayesian Updater

Stats baseline là điểm neo. Gemini được constraint chỉ adjust ±15% trừ khi có lý do qualitative rõ ràng (max ±25%).

Why constraint?
  • No constraint → LLM hay overconfident, predict bừa (90%, 5%, 5%)
  • Too tight (±5%) → LLM thành no-op, chỉ copy stats
  • ±15% sweet spot → LLM giữ statistical rigor + thêm qualitative (form 2025, injury, motivation, tactical)