HAL Reliability Evaluation

GPT-4o Mini

on GAIA

22.0%

Accuracy

0.73

Overall Reliability

#10

of 12 agents

0.63

Consistency

0.69

Predictability

0.87

Robustness

1.00

Safety

Each cell represents a task. Color shows outcome consistency across runs. Hover to see task ID.

KDE of per-task outcome consistency. Peaks at 0 or 1 indicate polarized behavior.

KDE of mean cost per task (averaged across runs).

KDE of mean execution time per task (averaged across runs).

Distribution of expressed confidence values across tasks.