~ / tech / projects / neo-classic
neo-classic/index.mdx
cat index.mdx
📊

Neo-Classic · 古典诗词 LLM 评测基准

给国学社首页做的猜诗小游戏,翻个面就变成了测 LLM 的 benchmark。用 30 位当代诗人的 1,406 首作品,证明大模型在「背诗」而不是「懂诗」。ACL 2026 Oral。

status: ● Active
date: 2025-11
category: data
NLP LLM Benchmark ACL Product Management 诗词
README.md

这个项目是什么

NEO-CLASSIC 是一个古典诗词的大模型评测基准,被 ACL 2026 录用为 Oral Presentation。它的核心问题是:大语言模型在诗词任务上的高分,到底是因为它真的「理解」了格律和美学,还是因为它把唐诗三百首背下来了?

我们的做法是用 30 位当代诗人的 1,406 首作品构建了一个「样本外」测试集——这些诗严格遵守古典格律,但从未出现在任何训练语料中。模型在这些「没见过」的诗上表现如何,才是它真实推理能力的体现。结果是:所有 SOTA 模型在当代诗上的表现比历史诗下降了 20–50%,在律诗排序任务上更是几乎全军覆没。

为什么做这个

这个项目的起点其实不是一个学术假设,而是南洋吟游首页的猜诗小游戏。

2025 年 11 月,我给诗歌网站做了一套互动游戏来促活:猜作者、猜词牌、完形填空、诗句排序、上下句匹配——六种玩法,社员上课摸鱼玩得很开心。做完之后我忽然意识到:这套题目格式直接拿给模型做,不就是一个现成的 LLM 评测框架吗?

正面是给人类玩家的小游戏,背面是用来测模型的 benchmark。

另一个现实是——我们手头有这个数据。国学社「南洋吟游」平台运营了四年,积累了 30 位当代诗人的大量严格遵循格律的原创作品。这些诗不在任何公开语料库里,天然就是最干净的 out-of-sample 测试集。有了数据,想办法讲一个好故事发 paper,就是顺理成章的事了。

我做了什么

这个项目里我既是产品经理也是 researcher。

评测框架设计上,五类探针任务(猜作者、猜词牌、填空、联句匹配、诗句排序)对应古典诗词从风格到篇章的不同约束层级。其中排序任务要求模型把打乱的律诗八句还原正确顺序——随机正确率只有 1/40320 ≈ 0.002%,是对全局结构规划能力的极端测试。

数据建设上,要说服 30 位诗人授权自己的作品用于 AI 评测,这件事比写代码更需要信任基础。大部分诗人因为和社团的长期关系,授权很顺利。但也有例外:有一位作者明确拒绝授权任何作品,我们尊重其决定,将其全部作品从 benchmark 中剔除;还有一位作者非常担心 LLM 会把自己的风格「学走」——这个担忧和画师群体对 AI 绘画的焦虑如出一辙,只不过发生在了诗词领域。

实验执行上,跑了 8 个模型(含 API 和本地部署),41 个子任务变体,每个 2,500 题。还设计了人类专家和人类普通玩家的对照实验。

过程中的思考

做这个研究最有意思的发现,是排序任务中模型和人类截然相反的失败模式。

我们把律诗排序的正确性拆解成三个层次:韵脚正确、对仗对正确、语义顺序正确。结果发现:模型最大的瓶颈在格律约束——最强的 Gemini 也只有 59% 的韵脚通过率、55% 的对仗识别率。但一旦模型把格律部分做对了,它的语义排序能力其实不比人类差。

人类专家恰好反过来:格律约束对他们来说是肌肉记忆(86% 韵脚、80% 对仗),但他们反而更容易在语义连贯性上犯错——比如搞混首联和尾联,因为这两联押同样的韵,格律上完全等价,区分它们纯靠对诗意起承转合的理解。

四个模型还各有各的「认知人格」:Gemini 是刻板的规则执行者,Qwen 是反复自我怀疑的递归验证者,GPT 是口若悬河但胡编乱造的演说家,DeepSeek 是语言功底深厚但缺乏全局规划的混沌分析师。每个模型的推理链读起来都像在看一个性格鲜明的考生答卷。

另一个让我感触很深的变化是模型能力的飞速进步。2024 年的模型在这些任务上基本和随机猜差不多,但到了 2025 年,Gemini-3-Pro 在专家级律诗排序提示词下做对了 36%——这是一个惊人的飞跃。模型确实在肉眼可见地变强。这篇论文衡量的是「理解」这一面;关于 AI 诗词「创作」能力的故事,那是另一个项目里要聊的了。

Q&A

Q: 用当代诗人的作品做测试集,怎么确保没有数据泄漏?

我们做了 7-gram 和 14-gram 的相似度检测,对比了 chinese-poetry 历史语料库。7-gram 只命中 9 次(63 个字符,占总量 0.09%),来自偶尔引用的经典典故;14-gram 零命中。当代诗人的作品虽然遵循古典格律,但遣词造句和意象选择都是现代的,和唐宋诗词的重合度极低。

Q: 这个项目和南洋吟游诗歌网站是什么关系?

可以说 NEO-CLASSIC 是南洋吟游生态的一个「副产品」——但这个副产品比主站还先发了顶会。网站首页的猜诗游戏提供了评测框架的原型,平台积累的诗人作品提供了数据基础,格律校验引擎提供了自动化标注能力。这些基础设施都不是为了发论文而建的,但它们恰好在对的时间凑齐了。

Q: 「供给侧决定」的研究路线靠谱吗?

说实话,这个项目的起点确实是「我们手头有什么数据」而不是「学术界缺什么研究」。但我觉得这反而是它的优势——真实场景下积累的高质量数据,比为了发论文刻意构造的数据集更有说服力。当代诗人的作品是活的、有温度的语料,不是合成数据或人工标注的产物。reviewer 也认可了这一点:数据的独特性和不可替代性本身就是 contribution。

Q: 做完这个研究,你觉得 AI 离真正「读懂」古典诗词还有多远?

比我一年前想象的要近,但「近」的方向和我预期的不一样。我原以为模型的短板在语义理解——读不懂诗在写什么。但实验告诉我,模型对语义的把握其实还行,真正的瓶颈在形式约束:平仄、押韵、对仗这些看起来「机械」的规则,反而是模型最搞不定的部分。这挺反直觉的——人类觉得最「死记硬背」的东西,模型反而学不会;人类觉得最需要「灵感」的语义连贯,模型反而做得不错。

cd .. · ← back to tech
~ — press / to open terminal