ref-hallucination-arena

Installation

SKILL.md

Reference Hallucination Arena Skill

Evaluate how accurately LLMs recommend real academic references using the OpenJudge RefArenaPipeline:

Load queries — from JSON/JSONL dataset
Collect responses — BibTeX-formatted references from target models
Extract references — parse BibTeX entries from model output
Verify references — cross-check against Crossref / PubMed / arXiv / DBLP
Score & rank — compute verification rate, per-field accuracy, discipline breakdown
Generate report — Markdown report + visualization charts

# Install OpenJudge
pip install py-openjudge

Related skills

Installs

Repository

GitHub Stars

602

First Seen

Mar 7, 2026

Security Audits