~ / tech / blog / wu-chinese-computational-survey
wu-chinese-computational-survey.mdx
📝

吴语计算语言学与语音学研究综述

系统综述 2008-2026 年间吴语 ASR、TTS、声学语音学、方言分类、机器翻译及数据资源建设的主要研究成果。

date: 2026-04
吴语NLP语音学综述方言
content

A Survey of Computational Linguistics and Phonetics Research on Wu Chinese

摘要

吴语(Wu Chinese)是汉语七大方言之一,主要分布在上海、浙江、江苏南部及周边地区,使用人口约八千万,是世界上使用人数最多的非官方汉语方言之一。尽管使用者众多,吴语在计算语言学和语音技术领域长期处于”低资源”状态。近年来,随着深度学习、自监督预训练模型和大语言模型(LLM)的发展,吴语的语音合成(TTS)、语音识别(ASR)、方言分类、机器翻译、声学语音学分析等方面的研究取得了显著进展。本文系统综述 2008 年至 2026 年间吴语计算语言学与语音学的主要研究成果,涵盖语音技术、声学分析、自然语言处理、数据资源建设和产业应用等方面,力图为研究者提供全面的文献参考。


1. 引言

1.1 吴语的语言学地位

吴语是汉语族中历史最为悠久、内部多样性极为丰富的方言之一。根据《中国语言地图集》的分类,吴语可细分为太湖片、台州片、瓯江片、婺州片、处衢片、宣州片等六个片区(Wurm et al., 1987)。吴语以其独特的浊音声母系统、复杂的连读变调(tone sandhi)机制、以及声域(register)对立为显著特征,在类型学上具有重要的研究价值。

然而,随着普通话推广和城市化进程的加速,吴语的使用空间日益萎缩,尤其是年轻一代的使用能力显著下降。这一现实赋予了吴语计算语言学研究双重意义:既是语言技术服务方言使用者的现实需求,也是利用现代技术手段保存和记录濒危语言变体的学术使命。

1.2 研究现状概览

相比于粤语、闽语等其他汉语方言,吴语在语音技术和自然语言处理方面的系统性资源建设起步较晚。截至 2024 年,公开可用的吴语标注语音数据仅有 MagicData-Shanghai 提供的 4.19 小时上海话会话语料(MagicHub, n.d.)。但 2025—2026 年间,以 WenetSpeech-Wu 为代表的大规模语料库的发布,标志着吴语语音处理研究进入了新阶段(Wang et al., 2026)。


2. 语音技术

2.1 自动语音识别(ASR)

2.1.1 综述性工作

Li et al.(2024)在 Artificial Intelligence Review 上发表了中文方言语音识别的综合综述,从方言的区域分类出发,分析了方言关键声学特征(特有元音和声调模式),总结了现有方言语音语料库及其构建方法,并梳理了从混合 ANN-HMM 到端到端(E2E)的方言识别方法演进。该综述指出,由于地理分布、人口迁移等因素,中国各方言的语音识别研究进展和实际应用水平参差不齐,吴语因其浊音声母和复杂变调系统,一直是方言 ASR 的难点之一。

Li, Q., Mai, Q., Wang, M., & Ma, M. (2024). Chinese dialect speech recognition: A comprehensive survey. Artificial Intelligence Review, 57, 25.

2.1.2 WenetSpeech-Wu:吴语语音处理的里程碑

Wang et al.(2026)发布了 WenetSpeech-Wu,这是首个大规模、多维度标注的开源吴语语音语料库,包含约 8000 小时的多样化语音数据,覆盖八个吴语子方言片区。同时发布的 WenetSpeech-Wu-Bench 是首个标准化的吴语语音处理评测基准,涵盖 ASR、吴语-普通话翻译(AST)、说话人属性预测、语音情感识别、TTS 合成和指令式 TTS 等多项任务。这一资源的发布极大地改变了吴语”低资源”的局面。

Wang, C., Shao, M., Hu, J., et al. (2026). WenetSpeech-Wu: Datasets, benchmarks, and models for a unified Chinese Wu dialect speech processing ecosystem. arXiv preprint, arXiv:2601.11027.

2.1.3 温州话语音到普通话文本的转换

Gao et al.(2025)针对温州话——吴语中与普通话差异最大、最难以理解的方言之一——构建了包含温州话语音和对应普通话文本的平行数据集,并以 TeleSpeech-ASR1.0 和 Wav2Vec2-XLS-R 两个自监督预训练模型进行微调,建立了温州话语音到普通话文本转换的基准模型。这项工作发表于 LoResMT 2025 工作坊,是将吴语方言视为低资源语言进行跨语言转换的重要尝试。

Gao, Z., Tamura, A., & Kato, T. (2025). Wenzhou dialect speech to Mandarin text conversion. In Proceedings of LoResMT 2025, pp. 36–43.

2.1.4 Seed-ASR:基于 LLM 的方言语音识别

字节跳动提出的 Seed-ASR(2024)是一个基于大语言模型的语音识别系统,支持普通话及 13 种中国方言(包括吴语/上海话)。该模型在超过 2000 万小时的语音数据上训练,在公开测试集上相比端到端基线模型实现了 10–40% 的 CER 降低。

2.1.5 Dolphin:面向东方语言的大规模 ASR 模型

清华大学语音与音频技术实验室联合海天瑞声推出的 Dolphin 模型(2025),在超过 20 万小时语音数据上训练,支持 40 种东方语言和 22 种中国方言(含吴语)。Dolphin-small 在三个测试集上相比 Whisper-large-v3 平均 WER 降低 54.1%。

2.1.6 大规模预训练与方言识别

TeleSpeech-ASR 是中国电信发布的方言自监督学习模型,在 30 万小时无标注语音上进行预训练,支持包括上海话、温州话在内的 30 余种方言识别。

FireRedASR 是小红书团队推出的工业级语音识别系统,其 FireRedASR2 版本支持普通话及 20 余种方言(包括上海话、吴语),在 19 个方言测试集上取得了 11.55% 的平均字符错误率(CER),超越了 Doubao-ASR(15.39%)、Qwen3-ASR-1.7B(11.85%)等竞品模型。

2.1.7 跨方言语义语音嵌入

Chang et al.(2026)提出了面向中文方言的综合语义语音嵌入方法,通过在 34,000 小时覆盖普通话、粤语、吴语、闽语、客家语和湘语的数据上训练 Zipformer 语音编码器实现跨方言语义对齐。该工作覆盖 78 个方言点,横跨七大方言区,贡献了 YuBao 基准——一个基于中国语言资源保护工程数据的方言语音-语音检索评测数据集。

2.2 语音合成(TTS)

2.2.1 上海话 TTS 与连读变调处理

Chen(2023)针对上海话 TTS 中连读变调处理不佳的问题进行了实验性探索。上海话的左向主导型连读变调(left-dominant tone sandhi, LD)是多音节词的核心韵律特征。研究发现,Apple VoiceOver 等现有 TTS 系统在 LD 处理上表现欠佳,提出通过在文本预处理阶段引入词分割来改善变调产出。需指出,该工作是一项概念验证性实验研究,并未发布可用的 TTS 模型。

2.2.2 Bailing-TTS:中国方言语音合成基础模型

Di et al.(2024)提出了 Bailing-TTS,采用混合专家(MoE)架构和持续半监督表征策略,在约 20 万小时标注语音数据上训练。论文声称支持多种方言,但实际公开展示的方言语音仅限于河南话等少数方言,上海话/吴语的支持情况未得到充分验证。

2.2.3 Qwen-TTS:工业级方言语音合成

阿里通义团队开发的 Qwen-TTS 是目前唯一经验证可用的上海话工业级 TTS 系统,提供名为 “Jada”(上海-阿珍)的上海话女声音色。但需注意,该系统本质上是带有上海口音的中文 TTS,而非真正的吴语方言 TTS——其前端处理仍基于普通话文本输入,无法处理吴语特有的词汇和语法结构。

2.2.4 “小沪”上海话 AI 数字人

上海大学中文系团队于 2024 年 11 月发布了**“小沪”(Xiao Hu)**上海话 AI 数字人系统,集成了语音识别、大语言模型文本生成和上海话 TTS,基于方言专家钱乃荣教授的语料库构建,是方言保护与 AI 技术结合的典范案例。

2.2.5 社区驱动的吴语 TTS 项目

在开源社区中,CjangCjengh 基于 VITS 模型构建了上海话 TTS 系统,Snow-White-995 基于 Bert-VITS2 架构也构建了上海话 TTS Demo。这些社区项目展示了端到端方言 TTS 在开源生态中的可行性。


3. 声学语音学与音韵学研究

3.1 声调系统与连读变调

吴语声调系统的核心特征是阴阳二分的声域对立(register contrast),高声域声调与清声母、模态嗓音共现,低声域声调与浊声母、气嗓音共现。Chen(2000)的专著 Tone Sandhi: Patterns across Chinese Dialects 是该领域的标准参考文献。

镇海吴语(Rose, 1990):最早的系统性声学研究之一,在 6 个单字调的双音节组合中识别出 20 种不同的变调形式。

丽水吴语(Lan, Chen & Zhang, 2023, ICPhS):发现青年说话者的变调与单字调之间的相似度高于老年说话者,表明变调系统正在经历代际变化。

龙游吴语(2023, J. East Asian Linguistics):提出以声域(Register)和曲拱(Contour)特征表征声调。

苏州吴语(Zhu, 2023, NLLT):首次对苏州话入声变调模式进行系统性声学分析,提出用双音节扬抑格和双莫拉扬抑格两种韵律脚解释变调模式。

黄岩吴语(Ying, 2024, LSA):报告了双音节词的复杂变调类型——右向主导、左向主导、双变和不变等多种类型共存。

瓯江吴语(Phil Rose):长期从事温州、文成等地声调系统的声学分析和音韵重建,揭示了声域-声母清浊对应关系在文成话中被打破的现象。

3.2 发声态与嗓音质量

上海话非模态发声(Kuang & Tian, 2021, JIPA):通过 52 名说话者的同步音频和电声门仪录音,确认非周期噪音在非模态发声实现中的角色远比频谱度量重要,建议将上海话非模态发声定性为”耳语嗓音”(whispery voice)。

苏州话气嗓音变化(Ge et al., 2023, J. Phonetics):产出研究表明年轻说话者所有低声域声调中的气嗓音都在减弱。

苏州话声调感知(Ge & Mok, 2024, J. Phonetics):尽管年轻说话者在产出中减少了气嗓音,但气嗓音仍被年轻听者用于声调感知——感知通道比产出通道更为保守。

上海话声调感知交互(Gao, Hallé & Draxler, 2020, Language and Speech):气嗓音的消失并非由感知误判驱动,而是反映了普通话日益增强的影响——这一音变案例是由产出而非感知引领的。


4. 方言分类、心理语言学与 NLP

4.1 声调变调的心理语言学

上海话变调的心理表征(Yan, Chien & Zhang, 2021, Laboratory Phonology):标准形式和变调扩展形式均产生启动效应,但表面形式不产生——支持底层形式和变调变体均被存储在心理词典中。

变调的加工速度(Kuang & Tian, 2019, ICPhS):说话者产出变调形式的速度快于单字调形式,表明变调形式在心理词典中是直接存取的。

结构依赖性变调(Chen, 2016, J. Phonetics):提供了句法-韵律接口在上海话中运作的经验声学证据。

4.2 方言识别与分类

DialectMoE(2024, CCL):端到端多方言语音识别模型,采用 MoE 架构通过动态路由实现方言特定处理。

吴语方言识别(Yue, Miao & Ding, 2025, Applied Sciences):构建了覆盖苏州、上海、宁波、温州、丽水等核心吴语区的语料库 WXDPC,DialectBERT 模型在方言识别上达到 93.5% 的准确率。

4.3 机器翻译

Yu et al.(2024, WMT)引入了 FLORES+ 数据集作为现代吴语机器翻译评测基准,开源了人工翻译数据集和吴语规范化/分词的初步工具。

4.4 大语言模型与吴语

Wen-Yi et al.(2025)的评估发现,中国开源 LLM 的开发可能更多是出于国际竞争展示,而非服务本地用户的实际需求——间接说明了方言在当前 LLM 生态中的边缘地位。

4.5 正字法与书写系统

吴语有大量独特词汇”无字可写”——词源本字或过于古僻,或确已失传。社区区分三类用字:本字(词源正确)、正字(现代合理)、别字(同音替代)。吴语维基百科(wuu.wikipedia.org)已积累约 46,000 余篇条目,是目前最大的自然产生的吴语文本语料库。


5. 工具与方法

5.1 Tone2Vec

Yang et al.(2024, EMNLP Findings)提出了基于音高的声调相似度表征方法 Tone2Vec,集成在 ToneLab 工具包中,面向汉藏语系声调语言的自动化田野调查。

5.2 方言音素标注

基于自适应时间注意力和特征解耦结构的中文方言音素标注方法,使用 GAN 将音素特征从声调等其他特征中分离。


6. 数据资源

资源名称规模方言覆盖可获取性
WenetSpeech-Wu~8000h8 个吴语子方言开源
MagicData-Shanghai4.19h上海话开源
MagicHub Shanghai TTS20h上海话开源
Datatang 苏州话~176h苏州话商业
WXDPC~21h苏沪甬温丽未明确
FLORES+ 吴语评测集现代吴语开源
YuBao 基准评测集78 方言点开源
吴语维基百科~46,000 条综合吴语开放

复旦大学陶寰教授主持的 2020 年国家社科基金重大项目《吴语语料库建设和吴语比较研究》选取吴语六个片区共计 50 个方言点进行系统调查。


7. 普通话→吴语 TTS 的关键链路:正字转写

7.1 问题定义

实现”普通话输入→吴语语音输出”的完整链路,核心瓶颈在于正字转写。当前仅有的吴语 TTS 系统本质上是”带上海口音的中文 TTS”——输入普通话文本只会得到普通话句子的上海口音朗读,而非地道的上海话表达。完整链路为:

普通话文本 → [正字转写] → 吴语正字文本 → [TTS/Jada] → 吴语语音

7.2 LLM 作为正字转写引擎

我们实测了 Qwen-Plus + Qwen3-TTS-Flash(Jada) 的端到端流水线:

普通话输入LLM 输出(吴语正字)评估
你好,欢迎来到上海,今天天气很好。侬好,欢迎来上海,今朝天气老好。
这个小笼包很好吃,你吃过吗?只小笼包邪气好吃,侬吃过了伐?
现在年轻人说上海话越来越少了现在小辈讲上海话越来越少了
这件衣服多少钱?太贵了这件衣裳几钿?忒贵哉,阿能便宜点?

当前瓶颈:正字覆盖不完整(低频词不稳定)、语法转换深度不足(部分句式保留普通话语序)、TTS 前端仍基于普通话音韵系统。

7.3 改进方向

  1. 从吴语维基百科等来源构建普通话-上海话平行语料
  2. LLM 微调或 RAG 增强(接入正字词典)
  3. 核心正字替换规则编码为确定性前处理模块
  4. 训练端到端方言 TTS,绕过普通话音韵前端

8. 产业应用与方言保护

8.1 智能语音助手

阿里 Qwen-TTS(9 种方言 49+ 音色)、中国电信星辰语音大模型(30+ 方言)、科大讯飞星火(288 个地级市 202 种方言)、小红书 FireRedASR2、字节 Seed-ASR 等均已支持吴语。

8.2 方言保护

UNESCO 将吴语评估为”脆弱”至”明确濒危”。一项调查显示 50% 的 18 岁以下受访者在与年长家庭成员交流时使用普通话,仅 21.74% 使用上海话。

科大讯飞 2018-2021 年”AI 苏州方言保护计划”中,22,000 名志愿者贡献了 57,000 条苏州话录音。2015 年启动的”语保工程”是全球最大的语言资源数据库建设项目。


9. 挑战与展望

  1. 文本层面数据稀缺:语音数据已大幅改善,但 NLP 训练数据、平行语料仍严重匮乏
  2. 内部多样性:温州话与上海话的差异超过某些”不同语言”之间的差距
  3. 连读变调建模:左向主导、右向主导、双变、不变等多种类型共存
  4. 发声态与声调交互:如何同时建模 f0 和发声态信息仍是开放问题
  5. 代际变化:吴语正在经历快速语音变化(如气嗓音消失),训练数据中存在系统性代际差异

本综述基于 2026 年 4 月 27 日的文献检索,涵盖 Web of Science、Google Scholar、arXiv、ACL Anthology、IEEE Xplore 等学术数据库。完整参考文献列表含 39 条文献,详见原文。

cd .. · ← back to tech
~ — press / to open terminal