Neo-Classic · 古典诗词 LLM 评测基准

这个项目是什么

NEO-CLASSIC 是一个古典诗词的大模型评测基准，被 ACL 2026 录用为 Oral Presentation。它的核心问题是：大语言模型在诗词任务上的高分，到底是因为它真的「理解」了格律和美学，还是因为它把唐诗三百首背下来了？

我们的做法是用 30 位当代诗人的 1,406 首作品构建了一个「样本外」测试集——这些诗严格遵守古典格律，但从未出现在任何训练语料中。模型在这些「没见过」的诗上表现如何，才是它真实推理能力的体现。结果是：所有 SOTA 模型在当代诗上的表现比历史诗下降了 20–50%，在律诗排序任务上更是几乎全军覆没。

为什么做这个

这个项目的起点其实不是一个学术假设，而是南洋吟游首页的猜诗小游戏。

2025 年 11 月，我给诗歌网站做了一套互动游戏来促活：猜作者、猜词牌、完形填空、诗句排序、上下句匹配——六种玩法，社员上课摸鱼玩得很开心。做完之后我忽然意识到：这套题目格式直接拿给模型做，不就是一个现成的 LLM 评测框架吗？

正面是给人类玩家的小游戏，背面是用来测模型的 benchmark。

另一个现实是——我们手头有这个数据。国学社「南洋吟游」平台运营了四年，积累了 30 位当代诗人的大量严格遵循格律的原创作品。这些诗不在任何公开语料库里，天然就是最干净的 out-of-sample 测试集。有了数据，想办法讲一个好故事发 paper，就是顺理成章的事了。

我做了什么

这个项目里我既是产品经理也是 researcher。

评测框架设计上，五类探针任务（猜作者、猜词牌、填空、联句匹配、诗句排序）对应古典诗词从风格到篇章的不同约束层级。其中排序任务要求模型把打乱的律诗八句还原正确顺序——随机正确率只有 1/40320 ≈ 0.002%，是对全局结构规划能力的极端测试。

数据建设上，要说服 30 位诗人授权自己的作品用于 AI 评测，这件事比写代码更需要信任基础。大部分诗人因为和社团的长期关系，授权很顺利。但也有例外：有一位作者明确拒绝授权任何作品，我们尊重其决定，将其全部作品从 benchmark 中剔除；还有一位作者非常担心 LLM 会把自己的风格「学走」——这个担忧和画师群体对 AI 绘画的焦虑如出一辙，只不过发生在了诗词领域。

实验执行上，跑了 8 个模型（含 API 和本地部署），41 个子任务变体，每个 2,500 题。还设计了人类专家和人类普通玩家的对照实验。

过程中的思考

做这个研究最有意思的发现，是排序任务中模型和人类截然相反的失败模式。

我们把律诗排序的正确性拆解成三个层次：韵脚正确、对仗对正确、语义顺序正确。结果发现：模型最大的瓶颈在格律约束——最强的 Gemini 也只有 59% 的韵脚通过率、55% 的对仗识别率。但一旦模型把格律部分做对了，它的语义排序能力其实不比人类差。

人类专家恰好反过来：格律约束对他们来说是肌肉记忆（86% 韵脚、80% 对仗），但他们反而更容易在语义连贯性上犯错——比如搞混首联和尾联，因为这两联押同样的韵，格律上完全等价，区分它们纯靠对诗意起承转合的理解。

四个模型还各有各的「认知人格」：Gemini 是刻板的规则执行者，Qwen 是反复自我怀疑的递归验证者，GPT 是口若悬河但胡编乱造的演说家，DeepSeek 是语言功底深厚但缺乏全局规划的混沌分析师。每个模型的推理链读起来都像在看一个性格鲜明的考生答卷。

另一个让我感触很深的变化是模型能力的飞速进步。2024 年的模型在这些任务上基本和随机猜差不多，但到了 2025 年，Gemini-3-Pro 在专家级律诗排序提示词下做对了 36%——这是一个惊人的飞跃。模型确实在肉眼可见地变强。这篇论文衡量的是「理解」这一面；关于 AI 诗词「创作」能力的故事，那是另一个项目里要聊的了。

Q&A

Q: 用当代诗人的作品做测试集，怎么确保没有数据泄漏？

我们做了 7-gram 和 14-gram 的相似度检测，对比了 chinese-poetry 历史语料库。7-gram 只命中 9 次（63 个字符，占总量 0.09%），来自偶尔引用的经典典故；14-gram 零命中。当代诗人的作品虽然遵循古典格律，但遣词造句和意象选择都是现代的，和唐宋诗词的重合度极低。

Q: 这个项目和南洋吟游诗歌网站是什么关系？

可以说 NEO-CLASSIC 是南洋吟游生态的一个「副产品」——但这个副产品比主站还先发了顶会。网站首页的猜诗游戏提供了评测框架的原型，平台积累的诗人作品提供了数据基础，格律校验引擎提供了自动化标注能力。这些基础设施都不是为了发论文而建的，但它们恰好在对的时间凑齐了。

Q: 「供给侧决定」的研究路线靠谱吗？

说实话，这个项目的起点确实是「我们手头有什么数据」而不是「学术界缺什么研究」。但我觉得这反而是它的优势——真实场景下积累的高质量数据，比为了发论文刻意构造的数据集更有说服力。当代诗人的作品是活的、有温度的语料，不是合成数据或人工标注的产物。reviewer 也认可了这一点：数据的独特性和不可替代性本身就是 contribution。

Q: 做完这个研究，你觉得 AI 离真正「读懂」古典诗词还有多远？

比我一年前想象的要近，但「近」的方向和我预期的不一样。我原以为模型的短板在语义理解——读不懂诗在写什么。但实验告诉我，模型对语义的把握其实还行，真正的瓶颈在形式约束：平仄、押韵、对仗这些看起来「机械」的规则，反而是模型最搞不定的部分。这挺反直觉的——人类觉得最「死记硬背」的东西，模型反而学不会；人类觉得最需要「灵感」的语义连贯，模型反而做得不错。