郑方
清华大学信息技术研究院副院长
郑方,清华大学语音和语言技术中心主任、研究员,博士生导师,清华大学信息技术研究院副院长,博士。从1988年开始,从事语音和语言处理方面研究,在国内外知名刊物和学术会议上发表了210余篇学术论文,出版专著11本,拥有9项发明专利和1项实用新型专利。
人物经历
教育经历
1985.09-1990.06,清华大学,本科
1990.09-1992.06,清华大学,硕士
1994.09-1997.05,清华大学,博士
工作经历
1994.12-1997.06,清华大学计算机系讲师
1997.07-2004.11,清华大学计算机系党委副书记/信息技术研究院副院长
2001.09-2002.03,Weniwen Technologies Limited(香港特别行政区)研发副总裁,参加香港政府“优秀人才输入计划”
2002.04-2003.08,北京得意音通技术有限责任公司董事长
2004.12-2019.10.31,清华大学信研院语音与语言中心主任
2019.11.01至今,清华大学北京信息科学与技术国家研究中心智能科学研究部常务副主任(2019.12-)
社会任职
现任国际中文语言资源联盟理事长、中文语音交互技术标准工作组声纹识别专题组组长、全国人机语音通讯学术会议常设机构委员会主席、中国计算机学会人工智能与模式识别专业委员会委员、中文信息学报编委、Speech 传播学编委、IEEE高级会员、中国计算机学会(中国计算机学会夏培肃奖)高级会员、东方COCOSDA(语音数据库及输入输出评估方法国际协调与标准化委员会)核心成员、ISCA会员、APSIPA(亚太区信号与信息处理联合会)会员、中国中文信息学会理事、中国声学学会理事等等。
主要成就
主要贡献
先后主持并参与研发过30余项国家重点项目和国际合作项目,在国内外知名刊物和学术会议上发表了150多篇学术论文,并多次应邀出国访问和做学术报告。
研究概况
语音识别方面:
1.提出了一种改进的特征提取方法FBE-MFCC(基于频带能量的美化倒谱),在利用人类的听觉特性进行分析时考虑了频带能量,提高了所提取特性的可区分性以及噪音鲁棒性。
2.提出了汉语扩展声韵集概念、声学精细建模方法、上下文相关加权方法等,在声学层面给出了语音识别中随意发音及口音问题的解决方案。
3.提出了用以描述词汇内在关系的WST(词搜索树)结构,从结构上解决了连续语音识别中的词解码问题,从而在语言层面给出了汉语语音识别中口音问题的解决方案。
4.提出了汉语音节映射的概念以及声学校正器模型,用很少的方言背景数据库,就可以直接从普通话识别器中得到含方言背景的普通话识别器,为低资源语言的声学模型训练提供了方便。
语言理解方面:
5.提出了口语对话系统框架方法,包括鲁棒的语义分析器、基于主题数森林结构的对话管理器、文本生成器等可配置模块,使口语对话系统的定制化实现变得可行和高效。
声纹识别方面:
6.提出了基于Cohort的说话人模型合成算法,以解决跨信道问题。
7.构建了一个用于研究声纹时变特性的数据库,即人和音都相同仅时间不同(时间跨度为5年以上,间隔为1周),在此基础上,研究并提出了根据说话人区分度与时间区分度之比去确定不同频段的频率分辨率的特征提取方法,解决了声纹的时变问题。
8.提出双谱分析(信号域)、基于F-ratio的特征选择(特征域),以及多模型融合(模型域)方法,综合地解决了声纹识别的录音重放攻击的检测问题。
9.提出基于音素类的超短语音声纹识别方法,可在保证声纹识别性能不变的情况下用户发音长度由20秒缩短至1~2秒,提供了用户体验。
可信身份认证方面:
10.提出基于生物特征的可信身份认证必须至少满足三个技术要求的理念,即精准生物特征识别、防假体攻击能力,以及用户真实意图检测能力。
11.利用语音信号的特点,提出并实现基于声纹的身份认证中防假体攻击的方法,包括:声纹识别的同时对系统随机产生的密码文本进行语音识别、用户对密码文本的读音可自己定义,以及检测语音是否经过了录音重放。
12.提出并实现综合利用语音识别、情感识别和语义理解进行真实意图检测的方法。
学术论文
[1]孙哲南,赫然,王亮,等.生物特征识别学科发展报告[J].中国图象图形学报,2021,26(6):1254-1329.
[2]刘林泉,郑方,吴文虎基于小数据量的方言普通话语音识别声学建模[J].清华大学学报(自然科学版),2008,48(4):604-607.DOI:10.3321/j.issn:1000-0054.2008.04.040.
[3]刘建,郑方,吴文虎.基于幅度差平方和函数的基音周期提取算法[J].清华大学学报(自然科学版),2006,46(1):74-77.DOI:10.3321/j.issn:1000-0054.2006.01.020.
[4]刘建,郑方,邓菁,等.基于混合幅度差函数的基音提取算法[J].电子学报,2006,34(10):1925-1928.DOI:10.3321/j.issn:0372-2112.2006.10.039.
[5]熊振宇,郑方,宋战江,等.基于树形通用背景模型的高效说话人辨认[J].清华大学学报(自然科学版),2006,46(7):1305-1308.DOI:10.3321/j.issn:1000-0054.2006.07.032.
[6]邓菁,郑方,刘建,等.Mel子带谱质心和高斯混合相关性在鲁棒话者识别中的应用[J].声学学报,2006,31(5):471-475.DOI:10.3321/j.issn:0371-0025.2006.05.012.
[7]孙辉,郑方,吴文虎基于上下文相关置信度打分的语音确认方法[J].清华大学学报(自然科学版),2006,46(1):94-97.DOI:10.3321/j.issn:1000-0054.2006.01.025.
[8]李净,郑方,张继勇,等.汉语连续语音识别中上下文相关的声韵母建模[J].清华大学学报(自然科学版),2004,44(1):61-64.DOI:10.3321/j.issn:1000-0054.2004.01.016.
[9]邬晓钧,郑方,徐明星.基于主题森林结构的对话管理模型[J].自动化学报,2003,29(2):275-283.
[10]张国亮,徐明星,李净,等.语音识别中基于两层词法树的跨词搜索算法[J].清华大学学报(自然科学版),2003,43(7):981-984.DOI:10.3321/j.issn:1000-0054.2003.07.033.
[11]王帆,郑方,吴文虎基于多尺度分形维数的汉语语音声韵切分[J].清华大学学报(自然科学版),2002,42(1):68-71.DOI:10.3321/j.issn:1000-0054.2002.01.021.
[12]黄寅飞,郑方,苏毅,等.口语对话系统EasyNav中的省略分析[J].清华大学学报(自然科学版),2002,42(1):88-91.DOI:10.3321/j.issn:1000-0054.2002.01.026.
[13]燕鹏举,郑方.口语对话系统中的词类概率模型和知识表示[J].清华大学学报(自然科学版),2001,41(1):69-72.DOI:10.3321/j.issn:1000-0054.2001.01.018.
[14]宋战江,郑方,徐明星,等.汉语连续语音识别系统与知识导引的搜索策略研究[J].自动化学报,2000,26(4):470-477.
[15]张继勇,郑方,杜术,等.连续汉语语音识别中基于归并的音节切分自动机[J].软件学报,1999,10(11):1212-1215.
[16]刘乐,陈伟,张济国,等.声纹识别:一种无需接触、不惧遮挡的身份认证方式[J].中国安全防范技术与应用,2020(1):32-40.DOI:10.3969/j.issn.1672-1470.2020.01.008.
[17]刘乐,邬晓钧,郑方.金融领域中的声纹识别应用[J].中国安全防范技术与应用,2020(5):21-26.DOI:10.3969/j.issn.1672-1470.2020.05.005.
[18]艾斯卡尔·肉孜,王东,李蓝天,等.说话人识别中的分数域语速归一化[J].清华大学学报(自然科学版),2018,58(4):337-341.DOI:10.16511/j.cnki.qhdxxb.2018.25.028.
[19]郑方,程星亮.声纹识别:走出实验室,迈向产业化[J].中国信息安全,2019(2):86-89.DOI:10.3969/j.issn.1674-7844.2019.02.031.
[20]艾斯卡尔·肉孜,殷实,张之勇,等.THUYG-20:免费的维吾尔语语音数据库[J].清华大学学报(自然科学版),2017,57(2):182-187.DOI:10.16511/j.cnki.qhdxxb.2017.22.012.
[21]梁维谦,郑方,陈朝阳,等.基于GSPAP的子带自适应声反馈消除算法[J].清华大学学报(自然科学版),2017,57(7):707-712.DOI:10.16511/j.cnki.qhdxxb.2017.25.026.
[22]唐国瑜,夏云庆,张民,等.基于词义类簇的文本聚类[J].中文信息学报,2013,27(3):113-119.DOI:10.3969/j.issn.1003-0077.2013.03.015.
[23]梁维谦,郑方,郑佳春,等.一种改善言语清晰度的子带自适应降噪算法[J].清华大学学报(自然科学版),2016,56(11):1173-1178.DOI:10.16511/j.cnki.qhdxxb.2016.26.007.
[24]唐国瑜,夏云庆,张民,等.基于跨语言广义向量空间模型的跨语言文档聚类方法[J].中文信息学报,2012,26(2):116-120.DOI:10.3969/j.issn.1003-0077.2012.02.021.
[25]蔡莲红,贾珈,郑方.言语信息处理的进展[J].中文信息学报,2011,25(6):137-141.DOI:10.3969/j.issn.1003-0077.2011.06.017.
[26]王静帆,邬晓钧,夏云庆,等.中文信息检索系统的模糊匹配算法研究和实现[J].中文信息学报,2007,21(6):59-64.DOI:10.3969/j.issn.1003-0077.2007.06.009.
[27]钟良伍,郑方.基于中文机构名简称的检索方法研究[J].中文信息学报,2007,21(1):38-42.DOI:10.3969/j.issn.1003-0077.2007.01.006.
[28]梁奇,郑方,徐明星,等.基于trigram语体特征分类的语言模型自适应方法[J].中文信息学报,2006,20(4):68-74.DOI:10.3969/j.issn.1003-0077.2006.04.010.
[29]刘智博,MICHAEL BRASSER,郑方,等.一个基于文本输入的口语对话系统的新的实现策略[J].计算机科学,2006,33(11):205-209.DOI:10.3969/j.issn.1002-137X.2006.11.059.
[30]张欣研,王帆,郑方,等.基于子带信息的鲁棒语音特征提取框架[J].中文信息学报,2002,16(1):19-24.DOI:10.3969/j.issn.1003-0077.2002.01.004.
[31]吴根清,郑方,金凌,等.一种在线递增式语言模型自适应方法[J].中文信息学报,2002,16(1):60-65.DOI:10.3969/j.issn.1003-0077.2002.01.011.
[32]黄寅飞,郑方,燕鹏举,等.校园导航系统EasyNav的设计与实现[J].中文信息学报,2001,15(4):35-40.DOI:10.3969/j.issn.1003-0077.2001.04.006.
[33]金凌,吴文虎,郑方,等.距离加权统计语言模型及其应用[J].中文信息学报,2001,15(6):47-52.DOI:10.3969/j.issn.1003-0077.2001.06.008.
[34]张超,刘轶,郑方.面向多口音语音识别的声学模型重构[J].清华大学学报(自然科学版),2011,51(9):1161-1166.
[35]王刚,邬晓钧,郑方,等.基于参考说话人模型和双层结构的说话人辨认[J].清华大学学报(自然科学版),2011,51(9):1261-1266.
[36]郑方.人工智能时代的信息安全[J].信息安全研究,2017,3(11):966-967.DOI:10.3969/j.issn.2096-1057.2017.11.002.
[37]陈德锋,郑方,吴文虎,等.动态调整直方图剪枝PDA声控拨号器的应用与实现[J].电声技术,2005(12):38-43.DOI:10.3969/j.issn.1002-8684.2005.12.011.
[38]郑方,杨奇勇.从体育场馆到公共中心——国家游泳中心赛后设计与运营[J].世界建筑,2013(8):52-59.DOI:10.3969/j.issn.1002-4832.2013.08.006.
[39]郑方.透明的大空间[J].城市建筑,2011(5):24-25.DOI:10.3969/j.issn.1673-0232.2011.05.007.
[40]李银国,蒲甫安,郑方.基于统计阈值的鲁棒性语音识别[J].重庆邮电大学学报(自然科学版),2012,24(2):127-132.DOI:10.3979/j.issn.1673-825X.2012.02.001.
[41]黄镭,李银国,郑方.利用不匹配帧比例加权N-Best候选的置信度方法[J].重庆邮电大学学报(自然科学版),2011,23(5):607-611.DOI:10.3979/j.issn.1673-825X.2011.05.021.
[42]康健,陈一峰,张路峰,等.研究型设计"主题沙龙[J].城市建筑,2017(28):10-17.
[43]唐国瑜,夏云庆,张民,等.基于词义类簇的文本表示模型[C].//第六届全国青年计算语言学会议论文集.2012:128-134.
[44]唐国瑜,夏云庆,张民,等.基于跨语言广义向量空间模型的跨语言文档聚类方法[C].//第十一届全国计算语言学学术会议论文集.2011:462-467.
[45]蔡莲红,贾珈,郑方.言语信息处理的进展[C].//中国中文信息学会成立三十周年学术年会论文集.2011:137-141.
[46]侯,刘轶,郑方,等.基于VP树结构的多层匹配算法在哼唱识别中的应用[C].//第十届全国人机语音通讯学术会议论文集.2009:1-6.
[47]张合,邬晓钧,王晓东,等.一种基于句子分割的文法自动推导算法[C].//第十届全国人机语音通讯学术会议论文集.2009:47-52.
[48]曹犟,邬晓钧,夏云庆,等.基于拼音索引的中文模糊匹配算法[J].清华大学学报(自然科学版),2009, (S1):1328-1332.
[49]曹文晓,刘轶,郑方,等.用于哼唱识别精确匹配的线性伸缩动态规划算法[J].清华大学学报(自然科学版),2009, (S1):1402-1407.
[50]侯珏,刘轶,郑方,等.基于VP树结构的多层匹配算法在哼唱识别中的应用[J].清华大学学报(自然科学版),2009, (S1):1419-1424.
[51]郝博一,夏云庆,邬晓钧,等.基于泛化和繁殖的自举式意见目标抽取方法[J].清华大学学报(自然科学版),2009, (S1):1333-1338.
[52]郝博一,夏云庆,郑方.OPINAX:一个有效的产品属性挖掘系统[C].//第四届全国信息检索与内容安全学术会议论文集.2008:281-290.
[53]王静帆,夏云庆,郑方,等.二阶段招聘信息检索方法[C].2007.
[54]郑方.汉语口语语言处理的发展趋势[J].国际学术动态,2001(6):36-37.
[55]徐明星,郑方,吴文虎,等.连续语音关键词识别系统的拒识方法研究[J].清华大学学报(自然科学版),1998, (S1):92-94.
[56]郑方,吴文虎,方棣棠,等.汉语语音听写机中语音识别模型的研究[J].清华大学学报(自然科学版),1997, (9):39-42.
[57]郑方.连续无限制语音流中关键词识别方法研究[D].北京:清华大学,1997.
[58]郑方.DSP芯片的算法与结构特点[J].电子产品世界,1996, (9):111.
[59]郑方.中关村科学城地区更新与城市设计研究[D].北京:清华大学,1996.
[60]贾臻,郑方.煤粉浓缩燃烧机理的初步探讨及应用[J].福建能源开发与节约,1994, (4):25-30.
[61]李建民,赵彤青,郑方,等.基于汉语语音特点的大词表语音识别系统的研究[J].计算机学报,1992, (5):364-370.
[62]郑方.非特定人连续数字识别方法与汉语语音数据库的研究[D].北京:清华大学,1992.
[63]郑方,吴文虎汉语连续语音识别中音节自动切分的研究[C].//第四届全国汉字及汉语语音识别学术会议论文集.:中国中文信息学会基础理论专业委员会, :285~289页.
[64]Tongxu Li, Hui Zhang, Thomas Fang Zheng, “The Voiceprint Recognition Technology and Its Applications in Unsupervised Identity Authentication,” 8(9): 46-54, 2018, Chinese Association for Artificial Intelligence Transactions (in Chinese)
[65]Lantian Li, Dong Wang, Chenhao Zhang, and Thomas Fang Zheng, "Improving short utterance speaker recognition by modeling speech unit classes," IEEE/ACM Trans. on Audio, Speech, and Language Processing, pp. 1129-1139, vol. 24, no. 6, June 2016
[66]Linlin Wang, Jun Wang, Lantian Li, Thomas Fang Zheng, Frank K. Soong, “Improving speaker verification 表演 against long-term speaker variability,” Speech 传播学, 79 (2016), 14-29, Mar. 2016
[67]Miao Fan, Qiang Zhou, Thomas Fang Zheng, Ralph Grishman. “Distributed Representation Learning for Knowledge Bases with Entity Descriptions,” Pattern Recognition Letters, DOI: 10.1016/j.patrec.2016.09.005, Elsevier.
[68]Miao Fan, Qiang Zhou, Andrew Abel, Thomas Fang Zheng, Ralph Grishman, “Probabilistic Belief Embedding for Large-Scale Knowledge 种群,” Cognitive Computation, December 2016, Volume 8, Issue 6, pp. 1087-1102
[69]Meng Sun, Xiongwei Zhang, Hugo Van hamme, and Thomas Fang Zheng, "Unseen noise estimation using separable deep auto encoder for speech enhancement," IEEE/ACM Transactions on Audio, Speech, and Language Processing, pp. 93-104, Vol. 24, No. 1, Jan. 2016 (DOI 10.1109/TASLP.2015.2498101)
[70]Guoyu Tang, Yunqing Xia, Erik Cambria, Peng Jin, Thomas Fang Zheng, “Document representation with statistical word senses in cross-lingual document clustering,” Vol. 29, No. 2 (2015), International Journal of Pattern Recognition and Artificial Intelligence, World Scientific Publishing Company
[71]Shi Yin, Chao Liu, Zhiyong Zhang, Yiye Lin, Dong Wang, Javier Tejedor, Thomas Fang Zheng and Yingguo Li, “Noisy Training for Deep Neural Networks in Speech Recognition,” EURASIP Journal on Audio, Speech, and Music Processing, 2015, 2015:2
[72]Dong Wang, Ravichander Vipperla, Nicholas Evans, Thomas Fang Zheng, “Online Non-Negative Convolutive Pattern Learning for Speech Signals,” IEEE Trans. on Signal Processing, 61(1): 44-56, Jan. 1, 2013
[73]Mijit Ablimit, Sardar Parhat, Askar Hamdulla, Thomas Fang Zheng, “Multilingual Stemming and Term Extraction for Uyghur, Kazak and Kirghiz,” the 10th APSIPA Annual Summit and Conference (APSIPA ASC 2018), November 12-15, 2018, 587-590, Hawaii, USA
[74]Thomas Fang Zheng, “Speech Signal for Unsupervised Identity Authentication,” APSIPA 10th Anniversary Magazine, pp. 26-28, Nov. 2018, Hawaii, USA
[75]Lantian Li, Zhiyuan Tang, Dong Wang, Thomas Fang Zheng, “Full-Info Training for Deep Speaker Feature Learning,” International Conference on Acoustics, Speech and Signal Processing (ICASSP’18), pp. 5369-5373, Apr. 15-20, 2018, Calgary, Alberta, Canada
[76]Lantian Li, 越南盾 Wang, Yixiang Chen, Ying Shi, Zhiyuan Tang, Thomas Fang Zheng, “Deep Factorization for Speech Signal,” International Conference on 声学, Speech and Signal Processing (ICASSP’18), pp. 5094-5098, Apr. 15-20, 2018, Calgary, Alberta, Canada
[77]Xingliang Cheng, Xiaotong Zhang, Mingxing Xu, and Thomas Fang Zheng, “MMANN: Multimodal Multilevel Attention Neural Network for Horror Clip Detection,” the 10th APSIPA Annual Summit and Conference (APSIPA ASC 2018), November 12-15, 2018, 329-334, Hawaii, USA
[78]Xiaotong Zhang, Xingliang Cheng, Mingxing Xu, Thomas Fang Zheng, “Imbalance Learning-based Framework for Fear Recognition in the MediaEval Emotional Impact of Movies Task,” pp.3678-3682, Interspeech 2018, 2-6 Sepember 2018, Hyderabad, India, DOI: 10.21437/Interspeech.2018-1744
专利成果
拥有16项发明专利(包括一项国际发明专利)和1项实用新型专利。近年所获代表性专利如下:
(1)基于分布式神经网络的语言模型训练方法及其系统、2014100679169、2014.02.27、中国
(2)语音密码的认证方法及系统、2017100532098、2017.01.22、中国
(3)基于动态密码语音的身份确认系统及方法、ZL 201310123555.0、2013.10.12、中国
(4)一种基于动态数字验证码的语音门禁系统、ZL 201620119381.X、2016、中国
(5)声纹模型自动重建的方法和装置、ZL 201510061721.8、2015.10.06、中国
(6)指纹与声纹双认证方法、ZL 201510047966.5、2015.10.04、中国
获得荣誉
获得教育部(委)、科技部(委)、北京市奖励和其他奖励10余次。
1.1997年北京市爱国立功标兵
2.1999年全国霍英东教育基金会优秀青年教师奖
3.2000年北京市高等教育教学成果一等奖
4.2001年北京市科技进步二等奖
5.2007年国家公安部科学技术奖三等奖
6.2009年中国产学研合作创新奖
7.2020年12月,荣获2020AI领军人物奖。
参考资料
郑方.北京信息科学与技术国家研究中心.2022-01-26
郑方.万方数据知识服务平台.2022-01-26
荣获2020AI领军人物奖.中国人工智能年会在京举行 50多家企业获金雁奖.
目录
概述
人物经历
教育经历
工作经历
社会任职
主要成就
主要贡献
研究概况
学术论文
专利成果
获得荣誉
参考资料