吴语计算语言学与语音学研究综述

A Survey of Computational Linguistics and Phonetics Research on Wu Chinese

摘要

吴语（Wu Chinese）是汉语七大方言之一，主要分布在上海、浙江、江苏南部及周边地区，使用人口约八千万，是世界上使用人数最多的非官方汉语方言之一。尽管使用者众多，吴语在计算语言学和语音技术领域长期处于”低资源”状态。近年来，随着深度学习、自监督预训练模型和大语言模型（LLM）的发展，吴语的语音合成（TTS）、语音识别（ASR）、方言分类、机器翻译、声学语音学分析等方面的研究取得了显著进展。本文系统综述 2008 年至 2026 年间吴语计算语言学与语音学的主要研究成果，涵盖语音技术、声学分析、自然语言处理、数据资源建设和产业应用等方面，力图为研究者提供全面的文献参考。

1. 引言

1.1 吴语的语言学地位

吴语是汉语族中历史最为悠久、内部多样性极为丰富的方言之一。根据《中国语言地图集》的分类，吴语可细分为太湖片、台州片、瓯江片、婺州片、处衢片、宣州片等六个片区（Wurm et al., 1987）。吴语以其独特的浊音声母系统、复杂的连读变调（tone sandhi）机制、以及声域（register）对立为显著特征，在类型学上具有重要的研究价值。

然而，随着普通话推广和城市化进程的加速，吴语的使用空间日益萎缩，尤其是年轻一代的使用能力显著下降。这一现实赋予了吴语计算语言学研究双重意义：既是语言技术服务方言使用者的现实需求，也是利用现代技术手段保存和记录濒危语言变体的学术使命。

1.2 研究现状概览

相比于粤语、闽语等其他汉语方言，吴语在语音技术和自然语言处理方面的系统性资源建设起步较晚。截至 2024 年，公开可用的吴语标注语音数据仅有 MagicData-Shanghai 提供的 4.19 小时上海话会话语料（MagicHub, n.d.）。但 2025—2026 年间，以 WenetSpeech-Wu 为代表的大规模语料库的发布，标志着吴语语音处理研究进入了新阶段（Wang et al., 2026）。

2. 语音技术

2.1 自动语音识别（ASR）

2.1.1 综述性工作

Li et al.（2024）在 Artificial Intelligence Review 上发表了中文方言语音识别的综合综述，从方言的区域分类出发，分析了方言关键声学特征（特有元音和声调模式），总结了现有方言语音语料库及其构建方法，并梳理了从混合 ANN-HMM 到端到端（E2E）的方言识别方法演进。该综述指出，由于地理分布、人口迁移等因素，中国各方言的语音识别研究进展和实际应用水平参差不齐，吴语因其浊音声母和复杂变调系统，一直是方言 ASR 的难点之一。

Li, Q., Mai, Q., Wang, M., & Ma, M. (2024). Chinese dialect speech recognition: A comprehensive survey. Artificial Intelligence Review, 57, 25.

2.1.2 WenetSpeech-Wu：吴语语音处理的里程碑

Wang et al.（2026）发布了 WenetSpeech-Wu，这是首个大规模、多维度标注的开源吴语语音语料库，包含约 8000 小时的多样化语音数据，覆盖八个吴语子方言片区。同时发布的 WenetSpeech-Wu-Bench 是首个标准化的吴语语音处理评测基准，涵盖 ASR、吴语-普通话翻译（AST）、说话人属性预测、语音情感识别、TTS 合成和指令式 TTS 等多项任务。这一资源的发布极大地改变了吴语”低资源”的局面。

Wang, C., Shao, M., Hu, J., et al. (2026). WenetSpeech-Wu: Datasets, benchmarks, and models for a unified Chinese Wu dialect speech processing ecosystem. arXiv preprint, arXiv:2601.11027.

2.1.3 温州话语音到普通话文本的转换

Gao et al.（2025）针对温州话——吴语中与普通话差异最大、最难以理解的方言之一——构建了包含温州话语音和对应普通话文本的平行数据集，并以 TeleSpeech-ASR1.0 和 Wav2Vec2-XLS-R 两个自监督预训练模型进行微调，建立了温州话语音到普通话文本转换的基准模型。这项工作发表于 LoResMT 2025 工作坊，是将吴语方言视为低资源语言进行跨语言转换的重要尝试。

Gao, Z., Tamura, A., & Kato, T. (2025). Wenzhou dialect speech to Mandarin text conversion. In Proceedings of LoResMT 2025, pp. 36–43.

2.1.4 Seed-ASR：基于 LLM 的方言语音识别

字节跳动提出的 Seed-ASR（2024）是一个基于大语言模型的语音识别系统，支持普通话及 13 种中国方言（包括吴语/上海话）。该模型在超过 2000 万小时的语音数据上训练，在公开测试集上相比端到端基线模型实现了 10–40% 的 CER 降低。

2.1.5 Dolphin：面向东方语言的大规模 ASR 模型

清华大学语音与音频技术实验室联合海天瑞声推出的 Dolphin 模型（2025），在超过 20 万小时语音数据上训练，支持 40 种东方语言和 22 种中国方言（含吴语）。Dolphin-small 在三个测试集上相比 Whisper-large-v3 平均 WER 降低 54.1%。

2.1.6 大规模预训练与方言识别

TeleSpeech-ASR 是中国电信发布的方言自监督学习模型，在 30 万小时无标注语音上进行预训练，支持包括上海话、温州话在内的 30 余种方言识别。

FireRedASR 是小红书团队推出的工业级语音识别系统，其 FireRedASR2 版本支持普通话及 20 余种方言（包括上海话、吴语），在 19 个方言测试集上取得了 11.55% 的平均字符错误率（CER），超越了 Doubao-ASR（15.39%）、Qwen3-ASR-1.7B（11.85%）等竞品模型。

2.1.7 跨方言语义语音嵌入

Chang et al.（2026）提出了面向中文方言的综合语义语音嵌入方法，通过在 34,000 小时覆盖普通话、粤语、吴语、闽语、客家语和湘语的数据上训练 Zipformer 语音编码器实现跨方言语义对齐。该工作覆盖 78 个方言点，横跨七大方言区，贡献了 YuBao 基准——一个基于中国语言资源保护工程数据的方言语音-语音检索评测数据集。

2.2 语音合成（TTS）

2.2.1 上海话 TTS 与连读变调处理

Chen（2023）针对上海话 TTS 中连读变调处理不佳的问题进行了实验性探索。上海话的左向主导型连读变调（left-dominant tone sandhi, LD）是多音节词的核心韵律特征。研究发现，Apple VoiceOver 等现有 TTS 系统在 LD 处理上表现欠佳，提出通过在文本预处理阶段引入词分割来改善变调产出。需指出，该工作是一项概念验证性实验研究，并未发布可用的 TTS 模型。

2.2.2 Bailing-TTS：中国方言语音合成基础模型

Di et al.（2024）提出了 Bailing-TTS，采用混合专家（MoE）架构和持续半监督表征策略，在约 20 万小时标注语音数据上训练。论文声称支持多种方言，但实际公开展示的方言语音仅限于河南话等少数方言，上海话/吴语的支持情况未得到充分验证。

2.2.3 Qwen-TTS：工业级方言语音合成

阿里通义团队开发的 Qwen-TTS 是目前唯一经验证可用的上海话工业级 TTS 系统，提供名为 “Jada”（上海-阿珍）的上海话女声音色。但需注意，该系统本质上是带有上海口音的中文 TTS，而非真正的吴语方言 TTS——其前端处理仍基于普通话文本输入，无法处理吴语特有的词汇和语法结构。

2.2.4 “小沪”上海话 AI 数字人

上海大学中文系团队于 2024 年 11 月发布了**“小沪”（Xiao Hu）**上海话 AI 数字人系统，集成了语音识别、大语言模型文本生成和上海话 TTS，基于方言专家钱乃荣教授的语料库构建，是方言保护与 AI 技术结合的典范案例。

2.2.5 社区驱动的吴语 TTS 项目

在开源社区中，CjangCjengh 基于 VITS 模型构建了上海话 TTS 系统，Snow-White-995 基于 Bert-VITS2 架构也构建了上海话 TTS Demo。这些社区项目展示了端到端方言 TTS 在开源生态中的可行性。

3. 声学语音学与音韵学研究

3.1 声调系统与连读变调

吴语声调系统的核心特征是阴阳二分的声域对立（register contrast），高声域声调与清声母、模态嗓音共现，低声域声调与浊声母、气嗓音共现。Chen（2000）的专著 Tone Sandhi: Patterns across Chinese Dialects 是该领域的标准参考文献。

镇海吴语（Rose, 1990）：最早的系统性声学研究之一，在 6 个单字调的双音节组合中识别出 20 种不同的变调形式。

丽水吴语（Lan, Chen & Zhang, 2023, ICPhS）：发现青年说话者的变调与单字调之间的相似度高于老年说话者，表明变调系统正在经历代际变化。

龙游吴语（2023, J. East Asian Linguistics）：提出以声域（Register）和曲拱（Contour）特征表征声调。

苏州吴语（Zhu, 2023, NLLT）：首次对苏州话入声变调模式进行系统性声学分析，提出用双音节扬抑格和双莫拉扬抑格两种韵律脚解释变调模式。

黄岩吴语（Ying, 2024, LSA）：报告了双音节词的复杂变调类型——右向主导、左向主导、双变和不变等多种类型共存。

瓯江吴语（Phil Rose）：长期从事温州、文成等地声调系统的声学分析和音韵重建，揭示了声域-声母清浊对应关系在文成话中被打破的现象。

3.2 发声态与嗓音质量

上海话非模态发声（Kuang & Tian, 2021, JIPA）：通过 52 名说话者的同步音频和电声门仪录音，确认非周期噪音在非模态发声实现中的角色远比频谱度量重要，建议将上海话非模态发声定性为”耳语嗓音”（whispery voice）。

苏州话气嗓音变化（Ge et al., 2023, J. Phonetics）：产出研究表明年轻说话者所有低声域声调中的气嗓音都在减弱。

苏州话声调感知（Ge & Mok, 2024, J. Phonetics）：尽管年轻说话者在产出中减少了气嗓音，但气嗓音仍被年轻听者用于声调感知——感知通道比产出通道更为保守。

上海话声调感知交互（Gao, Hallé & Draxler, 2020, Language and Speech）：气嗓音的消失并非由感知误判驱动，而是反映了普通话日益增强的影响——这一音变案例是由产出而非感知引领的。

4. 方言分类、心理语言学与 NLP

4.1 声调变调的心理语言学

上海话变调的心理表征（Yan, Chien & Zhang, 2021, Laboratory Phonology）：标准形式和变调扩展形式均产生启动效应，但表面形式不产生——支持底层形式和变调变体均被存储在心理词典中。

变调的加工速度（Kuang & Tian, 2019, ICPhS）：说话者产出变调形式的速度快于单字调形式，表明变调形式在心理词典中是直接存取的。

结构依赖性变调（Chen, 2016, J. Phonetics）：提供了句法-韵律接口在上海话中运作的经验声学证据。

4.2 方言识别与分类

DialectMoE（2024, CCL）：端到端多方言语音识别模型，采用 MoE 架构通过动态路由实现方言特定处理。

吴语方言识别（Yue, Miao & Ding, 2025, Applied Sciences）：构建了覆盖苏州、上海、宁波、温州、丽水等核心吴语区的语料库 WXDPC，DialectBERT 模型在方言识别上达到 93.5% 的准确率。

4.3 机器翻译

Yu et al.（2024, WMT）引入了 FLORES+ 数据集作为现代吴语机器翻译评测基准，开源了人工翻译数据集和吴语规范化/分词的初步工具。

4.4 大语言模型与吴语

Wen-Yi et al.（2025）的评估发现，中国开源 LLM 的开发可能更多是出于国际竞争展示，而非服务本地用户的实际需求——间接说明了方言在当前 LLM 生态中的边缘地位。

4.5 正字法与书写系统

吴语有大量独特词汇”无字可写”——词源本字或过于古僻，或确已失传。社区区分三类用字：本字（词源正确）、正字（现代合理）、别字（同音替代）。吴语维基百科（wuu.wikipedia.org）已积累约 46,000 余篇条目，是目前最大的自然产生的吴语文本语料库。

5. 工具与方法

5.1 Tone2Vec

Yang et al.（2024, EMNLP Findings）提出了基于音高的声调相似度表征方法 Tone2Vec，集成在 ToneLab 工具包中，面向汉藏语系声调语言的自动化田野调查。

5.2 方言音素标注

基于自适应时间注意力和特征解耦结构的中文方言音素标注方法，使用 GAN 将音素特征从声调等其他特征中分离。

6. 数据资源

资源名称	规模	方言覆盖	可获取性
WenetSpeech-Wu	~8000h	8 个吴语子方言	开源
MagicData-Shanghai	4.19h	上海话	开源
MagicHub Shanghai TTS	20h	上海话	开源
Datatang 苏州话	~176h	苏州话	商业
WXDPC	~21h	苏沪甬温丽	未明确
FLORES+ 吴语	评测集	现代吴语	开源
YuBao 基准	评测集	78 方言点	开源
吴语维基百科	~46,000 条	综合吴语	开放

复旦大学陶寰教授主持的 2020 年国家社科基金重大项目《吴语语料库建设和吴语比较研究》选取吴语六个片区共计 50 个方言点进行系统调查。

7. 普通话→吴语 TTS 的关键链路：正字转写

7.1 问题定义

实现”普通话输入→吴语语音输出”的完整链路，核心瓶颈在于正字转写。当前仅有的吴语 TTS 系统本质上是”带上海口音的中文 TTS”——输入普通话文本只会得到普通话句子的上海口音朗读，而非地道的上海话表达。完整链路为：

普通话文本 → [正字转写] → 吴语正字文本 → [TTS/Jada] → 吴语语音

7.2 LLM 作为正字转写引擎

我们实测了 Qwen-Plus + Qwen3-TTS-Flash(Jada) 的端到端流水线：

普通话输入	LLM 输出（吴语正字）	评估
你好，欢迎来到上海，今天天气很好。	侬好，欢迎来上海，今朝天气老好。	优
这个小笼包很好吃，你吃过吗？	只小笼包邪气好吃，侬吃过了伐？	优
现在年轻人说上海话越来越少了	现在小辈讲上海话越来越少了	良
这件衣服多少钱？太贵了	这件衣裳几钿？忒贵哉，阿能便宜点？	优

当前瓶颈：正字覆盖不完整（低频词不稳定）、语法转换深度不足（部分句式保留普通话语序）、TTS 前端仍基于普通话音韵系统。

7.3 改进方向

从吴语维基百科等来源构建普通话-上海话平行语料
LLM 微调或 RAG 增强（接入正字词典）
核心正字替换规则编码为确定性前处理模块
训练端到端方言 TTS，绕过普通话音韵前端

8. 产业应用与方言保护

8.1 智能语音助手

阿里 Qwen-TTS（9 种方言 49+ 音色）、中国电信星辰语音大模型（30+ 方言）、科大讯飞星火（288 个地级市 202 种方言）、小红书 FireRedASR2、字节 Seed-ASR 等均已支持吴语。

8.2 方言保护

UNESCO 将吴语评估为”脆弱”至”明确濒危”。一项调查显示 50% 的 18 岁以下受访者在与年长家庭成员交流时使用普通话，仅 21.74% 使用上海话。

科大讯飞 2018-2021 年”AI 苏州方言保护计划”中，22,000 名志愿者贡献了 57,000 条苏州话录音。2015 年启动的”语保工程”是全球最大的语言资源数据库建设项目。

9. 挑战与展望

文本层面数据稀缺：语音数据已大幅改善，但 NLP 训练数据、平行语料仍严重匮乏
内部多样性：温州话与上海话的差异超过某些”不同语言”之间的差距
连读变调建模：左向主导、右向主导、双变、不变等多种类型共存
发声态与声调交互：如何同时建模 f0 和发声态信息仍是开放问题
代际变化：吴语正在经历快速语音变化（如气嗓音消失），训练数据中存在系统性代际差异

本综述基于 2026 年 4 月 27 日的文献检索，涵盖 Web of Science、Google Scholar、arXiv、ACL Anthology、IEEE Xplore 等学术数据库。完整参考文献列表含 39 条文献，详见原文。