Phương pháp dự đoán — WC2026 Predictor

Pipeline tổng quan

Mỗi trận đi qua 5 layer: 3 mô hình thống kê → aggregator → AI updater → kết quả cuối.

Input

Trận: Đội A vs Đội B

3 mô hình thống kê chạy song song

ELO Rating

47.980 trận lịch sử

K-factor theo giải · MOV multiplier · Host boost

→ P(W/D/L)

Poisson Model

6.000 trận major

α attack, δ defense per team · Time decay

→ λ_A, λ_B, top scores

WC Overlay

1.069 trận WC

WCOI · Conf×Stage matrix · Stage params

→ adjustments

Aggregator

Weighted ensemble

Elo 35% · Poisson 35% · Conf×Stage 20% · WCOI 10%

→ P_baseline + expected score

Layer định tính

Gemini 2.5 Flash · Bayesian Updater

Constraint: P_final ∈ baseline ±15%

(±25% nếu có lý do định tính rõ ràng: chấn thương, treo giò, motivation, tactical)

Kết quả cuối

Xác suất 3 chiều · Tỉ số · Confidence · Phân tích VN

Backtest WC2018 + WC2022 (leak-free)

Rebuild Elo + Poisson chỉ với data TRƯỚC mỗi trận, predict 128 trận của 2 kỳ WC gần nhất.

1. Elo Rating (35% weight)

FIFA-style Elo update sau mỗi trận của 47.980 trận quốc tế 1872-2025. K-factor theo mức độ quan trọng giải đấu.

R'_A = R_A + K × m × (W_actual - W_expected)

W_expected = 1 / (1 + 10^((R_B - R_A)/400))

K = 55 (WC) | 45 (Euro/Copa) | 35 (WC qualifier) | 20 (friendly)

m = log(|GD| + 1) × damp(rating_diff) (margin of victory)

Host boost: +200 Mexico Azteca, +100-150 USA/Canada venues

Xem full Elo leaderboard →

2. Poisson Goal Model (35% weight)

Cho mỗi đội, fit attack (α) và defense (δ) strength so với mean toàn cầu. λ = expected goals.

λ_home = α_home × δ_away × home_boost × global_avg

λ_away = α_away × δ_home × global_avg

P(score=i,j) = Poisson(i; λ_home) × Poisson(j; λ_away)

α > 1 → ghi nhiều hơn TB. δ < 1 → thủ tốt hơn TB.

Data: 6.028 trận major tournaments 2014+. Time-decay exp(-0.10 × age).

3. Confederation × Stage Matrix (20% weight)

Lịch sử WC cho thấy các liên đoàn không bình đẳng tại WC. Matrix trích từ 1.069 trận WC 1930-2022.

4. WCOI — WC Overperformance Index (10% weight)

Đo: 1 đội có "đá hay hơn bình thường" khi vào WC không?

WCOI = WC_win_rate − All_time_win_rate

Overperformers: Argentina (+0.11), Croatia (+0.05), Đức (+0.05) — đá hay hơn lúc vào WC
Underperformers: Iran (-0.41), Hàn Quốc (-0.36), Ả Rập Xê Út (-0.33), Mexico (-0.21) — AFC + Mexico knockout curse

Xem full WCOI ranking →

5. LLM Layer — Gemini 2.5 Flash as Bayesian Updater

Stats baseline là điểm neo. Gemini được constraint chỉ adjust ±15% trừ khi có lý do qualitative rõ ràng (max ±25%).

Why constraint?

No constraint → LLM hay overconfident, predict bừa (90%, 5%, 5%)
Too tight (±5%) → LLM thành no-op, chỉ copy stats
±15% sweet spot → LLM giữ statistical rigor + thêm qualitative (form 2025, injury, motivation, tactical)