投稿指南
来稿应自觉遵守国家有关著作权法律法规,不得侵犯他人版权或其他权利,如果出现问题作者文责自负,而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件,作者必须保证本刊的独立发表权。 一、投稿方式: 1、 请从 我刊官网 直接投稿 。 2、 请 从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。 二、稿件著作权: 1、 投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我刊所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我刊所投之作品不得同时向第三方投送,即不允许一稿多投。 5、 投稿人授予我刊享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 第5条所述之网络是指通过我刊官网。 7、 投稿人委托我刊声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

微软汉语拼音及自动字音转换问题初论

来源:自动化应用 【在线投稿】 栏目:期刊导读 时间:2020-09-10
作者:网站采编
关键词:
摘要:当前,汉语作为第二语言教学的教材,以及我们在编写面向外国留学生学习汉语的资料时,为了让不熟悉汉字、不易把握汉字读音的汉语学习者更好地掌握汉语,需要给汉字依次注音。

当前,汉语作为第二语言教学的教材,以及我们在编写面向外国留学生学习汉语的资料时,为了让不熟悉汉字、不易把握汉字读音的汉语学习者更好地掌握汉语,需要给汉字依次注音。在进行汉字注音的过程中发现,汉语拼音标注的实践远比理论复杂得多,在对其进行批量处理时,当前的office word 2003/2007等自动标音系统存在很多不尽完善之处。比如,汉语的轻声词很多,且存在轻声与不轻声两可的情况,还有变调等等,这些在计算机的自动处理中都存在不同程度的问题。本文基于大量实例对此试做论述。 一、有关汉语拼音的几个问题 关于汉语拼音的规范问题似乎已经十分明确,但在具体的实际操作中我们发现,汉语拼音仍有很多棘手的问题。先看看辞书中有关注音的几条原则[1]: 1.条目中的轻声字,注音不标调号,而是在注音前加圆点,如:【衣服】yī·fu;【桌子】zhuō·zi。 2.一般轻读、间或重读的字,注音上标调号,注音前再加圆点,如:【因为】yīn·wèi,表示“因为”的“为”字一般轻读,有时也可以读去声。 3.插入其他成分时,语音上有轻重变化的词语,标上调号和圆点,再加斜的双短横,如【看见】注作kàn//·jiàn,【起来】注作qǐ//·lái,表示在“看见”、“起来”中,“见”字“来”字轻读,在“看得见、看不见”、“起得来、起不来”中,“见”字“来”字重读。 【起来】还有//qǐ//·lái的注法,表示用在动词、形容词后做补语时,如“举起来”、“好起来”等,“起来”两字都有轻重的变化。在“举起来”里,“起来”两字都轻读,插入“得、不”以后,如“举得起来、举不起来”,“起来”两字都重读。“起来”两字之间再加宾语,如“举得起手来”,“举不起手来”,“起”字重读,“来”字轻读。“上来”、“上去”、“下来”、“下去”、“出来”、“出去”等都可以有同样的变化,注音也用同样的方式。 4.辞书一般不注变调。如两个上声相连,在实际语流中第一个上声字变读阳平,但这种临时语流音变不在静态的词典中呈现。但是一部分重叠式词语,如“沉甸甸、热腾腾”,照实际读法注作chén diāndiān、rè tēnɡtēnɡ。 5.对于儿化音的注法,在基本形式后面加“r”,如【今儿】jīnr,不标语音上的实际变化。 6.在多音节词的注音中,音节界限有混淆可能的,加隔音号(’)。如【答案】dá’àn,【木偶】mù’ǒu。前一音节是鼻音n或ng,后一音节是元音开头,中间要加隔音号,如【恩爱】ēn’ài,【名额】mínɡ’é。 以上是《现代汉语词典》及众多语文辞书中的注音原则。《现代汉语规范词典》在注音说明时比较简略,一般按《汉语拼音方案》的规定处理。这些原则是针对于辞书编纂领域的。实际上,汉语拼音看起来十分简单,具体处理起来并非如此,而对拼音的自动处理就更非易事。比如说,上面面向人的6条原则中,第2条就属于两可的情况,但对于计算机的自动处理和标音只能是唯一性的(二值逻辑),这就要求自动标音系统做出合适的选择。 另外,就面向人际系统的字词标音来说,具体而言,又可以分为面向母语者还是非母语者。众所周知,汉语学习的难点一是汉字,二是声调。出于外国人学习汉语准确把握声调的考虑,所有汉语学习用的教材及读物其标音都要考虑字词的实际读音。主要是“一”和“不”的变调、轻声、儿化音、叠音变调、隔音号等。上声及其他变读暂不予标注。如: 我  不 认识 那 个 人, 她 叫 什么 ? Wǒ bú rènshi nà ɡe rén, tā jiào shénme?[2]18 我 来 中国  的 时候 一 句汉语 也 不会 Wǒ lái Zhōnɡɡuó de shíhou yí jù hànyǔ yě bú huì 说。 shuō。[2]108 你 看看, 这 几种  怎么样? Nǐ kànkɑn,zhè jǐzhǒnɡ zěnmeyànɡ ?[2]83 以上三个例句中斜体部分就包含了“一”和“不”的变调、轻声、动词重叠等,当然在大规模文本中还会遇到更复杂的情况。不过,在讨论Microsoft Office Word自动标音系统之前我们必须明确,在动态文本中,除了轻声、动词重叠的尾字要像辞书那样必须处理以外,还必须处理“一”和“不”的变调、趋向补语的轻声变调以及隔音符号等问题。 关于隔音符号,“a、o、e”开头的音节连接在其他音节后面的时候,如果音节的界限发生混淆,就要用隔音符号(’)隔开,如[3]: Ku’ai(酷爱)——kuai(快) shang’e(上腭)——shange(山歌) Xi’an(西安)——xian(先) dang’an(档案)——dangan(单干) 这是《现代汉语》教材中的说明,其实这项说明并没将汉语拼音隔音符号的使用阐释清楚,只是强调了“如果音节的界限发生混淆”才添加隔音符号。问题是,汉语中大量的多音节词中的零声母尾字跟前面的辅音并不构成实质的音节混淆,但辞书也已全部增添隔音符号。如“可能”,普通话中只有kě/nénɡ,而不存在kěn/énɡ,后者类似于自动分词领域的伪歧义字段。再如“答案”,普通话中只有“dá/àn”,而不存在其他形式,但辞书也都添加了隔音符号。所以,从目前辞书的处理来看,凡是尾字为零声母,前面音节的韵尾是n或ng以及前面的音节为元音韵母的都要添加隔音符号。 以上列举了汉语拼音标注规范的一些细节问题,我们认为,只有将面向人际系统的普通辞书的标音准则弄清楚了,才能进一步开展面向机器自动处理的标音问题。 二、微软自动标音系统的不足 通过对大规模真实文本加注拼音发现,Microsoft Office Word自动标音系统存在以下有待解决的问题。 1. Microsoft Office Word自动标音系统处理能力有限,尤其缺乏批量处理功能。通过对大量字词加注拼音的实验,发现word系统一次最多只能给50个左右的汉字标音,拼音的音节形式有的简单有的复杂,但字母的数量集中在140个左右。如果一次选中过多的汉字,后面的部分将不会被处理。试看下面的截图: 2.对变调、轻声等的处理不周遍,不彻底,随意性强。Word能给部分“一”“不”进行正确的变调,但或许因规则不强,造成大量错误,如“不去”标成“bù(bù分)qù(qù分)”。轻声也是如此,如“喜欢”和“部分”正确标为“xǐ huɑn”和“bù fen”,但“糟践”、“消息”等则没有标为轻声。“辈子”正确标为“bèi zi”,“半辈子”则标成了“bàn bèi zǐ”。汉语ABB中BB的变调较为特殊,普通语文性辞书多采用两种标注,如“黑洞洞”[hēi dònɡ dònɡ](口语中也读hēi dōnɡ dōnɡ)。Word对此标准不严,有的ABB变调,有的不变,如将“汗淋淋”标成变调的“hàn līn līn”,“明晃晃”和“沉甸甸”则标原调。当然,这个问题不能完全归罪于标音系统,因为汉语在这方面本身的规则就不周遍,笔者查阅资料发现,曾有专文(尹海良2008)调查统计过ABB的变调情况,转录于此以观察其复杂性: 《现代汉语词典》不同版本叠音BB读音分布比例[4]《现汉》版次读原调个数 比例读阴平个数 比例原调阴平两可个数 比例ABB总数1987年第2版3 9.09%26 78.79%4 12.12%年第3版15 38.46%24 61.54%0 0.00%年第5版27 65.85%4 9.76%10 24.39%41 3.标音系统不能给具有歧义理解的词语加注隔音符。现代汉语双音节词中有大量后音节为零声母的情况,这时通常需要加注隔音符以便准确识读,但word不具有自动标注功能。如“公安局”标为,应为“”。再如“棉袄”标为“”,应为“”。 4.word文档文字加注拼音后不能单独查找替换某个汉字或汉字串,不能根据每行首字进行升序或降序排序,不能统一替换其中的某个汉语拼音。另外,word不能对加注汉语拼音的整个汉字文档进行一次性去除汉语拼音,在字号的编辑上较繁琐,汉字和拼音字号变化不同步,需分别改变,费时费力。 三、当前一些拼音自动标注软件调查 由于word在标音方面存在诸多的问题,因此一些公司或个人纷纷开发适合自己使用的相关软件,这些软件有些是可以下载安装使用的单机版,有些是在线自动进行字音转换。笔者通过调查发现,这些软件最大的特点是批量处理能力非常强,但距离使用者所追求的理想目标仍有相当的差距。 首先提供几个在线的汉字注音软件: 1.快典网多音字自动识别, 2.中文全文注音器, 3.桃源世界在线, 通过网络调查发现,“快典网多音字自动识别”使用度较高,据称该在线系统支持繁体中文和GBK汉字,对多音字的识别率已经达到98%,可以处理长篇文章,有几种注音方式可供选择。并且,快典网的标音基础是“词本位”,能够进行“一”和“不”的变调处理,对多音字的判定也较为准确。中文全文注音器是基于“字本位”,只是进行单个汉字和拼音的对应转换,对变调、多音字等的处理错误率相当高,如“进行综合处理”该系统输出的拼音形式为“jìn háng zōng hé chù lǐ”,多音词“行”和“处”判断标注有误。“桃源世界在线工具”的字音转换系统则只能输出没有声调的拼音形式,实用性较低。 关于下载安装的单机版汉语拼音标注软件,笔者经过多次搜索查询,已找到几款,现在分别予以介绍。 1.实用汉字转拼音V4.8。这款软件的功能比较多,具体可选项如下: 拼音转换输出选项其他实用功能 □包括声调[数字]□只是拼音 □首字母大写□屏幕抓词 □包括声调[注音]□上拼音下汉字□全小写 □支持繁体字 □支持分词 □只是汉字的拼音□上汉字下拼音□全大写 □日语注音 □加上空格 □左汉字右拼音□只是首字母□输出粤语拼音□注音符号 □a->av->ü□左拼音右汉字□编辑多音字□检测剪贴板 □输出五笔编码 但该软件依然不能很好地处理“一”和“不”的变调,趋向补语、助词的轻声变调以及隔音符号等。如“吃不得”标为“chī bù dé”,应标为“chī bu de”。再如“棉袄”标为“mián ǎo”,应标为“mián’ǎo”。更不能有效判定难度较大的多音字,如“忙得不得了”标成了“mánɡ dé bu dé liǎo”,应标为“mánɡ de bù dé liǎo”。 2.一款作者为“大漠雪”的汉字注音软件,仅能为汉字输出拼音,汉字和拼音分列两栏,不匹配在一起,最大的问题是该软件不具有任何变调等智能功能。如“一般”标为“yī bān”,“椅子”标为“yǐ zǐ”,如果说对于国人词典无需变调而言前者的标注是规范的,那么后者无论对国人还是对外国人用的词典或学习材料而言都是错误的。 3.另有一个可以嵌入word系统内的小插件,名为“拼音居士”,安装后会在word工具栏中找到“拼音居士->汉字拼音”。该插件能在word里对大规模的文本进行批量加注汉语拼音,但实践发现,拼音加注的错误率太高,多音字标注的错误率高达70%以上。如“系统”标成“jì tǒnɡ”,“符号”标成“fú háo”。再如: 这个孩子很喜欢听故事。 [zhè gè hái zǐ hěn xǐ huān tīng gù shì。] 问题的答案过于简略,不好。 [wèn tí de dá àn guò yú jiǎn luè,bú hǎo。] 另外,该插件的处理速度偏低。但该插件具备多音字自检功能,也就是对全部的多音字都从头至尾以对话框的形式出现进行人机交互予以人工辅助做出选择。 综合来看,实用汉字转拼音V4.8是相对较为理想的,批量处理能力强,速度快,精确率也较高,但对word文字编辑和检索等用户需求来说,由于导向不同,该软件还存在不少需要改进的地方。在字音布局上,无论是在线还是单机软件,汉字和拼音都是各自占据一行,一般为上下配列,但是如果将其粘贴至word就会发现,这些配列对齐性不够,最大的问题在于,一旦用户对word中的文本进行增减编辑处理,那么字音就会出现严重的错位,也不能同时对某个汉字进行字音的同时替换,这些都是需要改进的。 四、完善拼音自动标注系统的策略 目前,信息处理领域一般倾向于采取“大词库、小规则”的处理策略,因为在计算机技术已十分成熟的今天,词典大小对于处理速度几乎没有什么影响,计算机可存储的信息量也几乎不会成为词典大小的制约。但是,由于规则的使用必须在词典之后,这样就大大降低了机器的处理速度,而且规则之间也难以保证没有冲突,一招不慎就可能导致整个系统的崩溃。[5]也就是说,多音字正确识别的策略首先是尽量扩大机器多音词词表,其次才是给以规则。 如同今天非常成熟的汉字拼音输入法一样,自动标音系统必须采取“词本位”或“短语本位”以最大限度地识别多音字。如上文提到的“系统”“符号”如果采用“词本位”去处理,“系”和“号”就成了“伪多音”。一些较小的软件出于系统开支的考虑主要采用了“字本位”,即汉字数量有限且较为固定,词汇量则是巨大的,以字去统领词,但这样做的结果是导致大量多音字标注错误,实用性大大降低。  还可以采取统计的方法以降低“伪多音”的误标。如前文提到的“累得不得了”这个短语,尽管客观上其中的“得”和“不”有轻声和非轻声两种读音,但在具体的语境中似乎只有“……de bù dé liǎo”。我们在2600余万字的现代汉语平衡语料库中统计到103个“……得不得了”结构,其读音全部为“……de bù dé liǎo”。因此,我们可以基于大规模真实文本通过正向匹配和逆向匹配相结合的方式去发现“多音字段”,通过统计的手段消除“伪多音”。再如类词缀“率”,后附时一定为“lǜ”,“shuài”多体现在词汇层面。 关于轻声问题,如果是词汇级轻声就采用词库的办法予以解决,如果是短语级的轻声就采用规则的办法加以解决。短语级的轻声如“动+趋向补语(下去/上来/出去/过来…)”。如果一个多音字同时涉及词汇级和短语级(如“我的、打的”、“取得”、“冻得”),则词汇级优先,如没有匹配再调用短语规则。 关于隔音符号,将《现代汉语词典》等多部辞书中全部带有隔音符号的词语加入词表并予以标注即可实现。 最后,拼音自动标注最好能以插件的形式嵌入word,这样便于进行文本的编辑和其他如查找替换、排序等处理。 五、结 语 本文从word运用实际出发查检了自动标音系统的诸多问题,从汉语拼音自身复杂性的角度分析了造成标音系统出现问题的客观因素。实际调查了多种在线和单机版字音转换软件,并对其特性进行介绍,指出存在的问题。最后从统计和规则的角度初步指出了未来自动标音系统进一步完善的策略。具体实现环节将是今后重要而艰巨的工作。

文章来源:《自动化应用》 网址: http://www.zdhyyzz.cn/qikandaodu/2020/0910/692.html



上一篇:彝语自动词与使动词探析 ——以黔西北彝语乌
下一篇:中英语境中的歧义消解探析

自动化应用投稿 | 自动化应用编辑部| 自动化应用版面费 | 自动化应用论文发表 | 自动化应用最新目录
Copyright © 2018 《自动化应用》杂志社 版权所有
投稿电话: 投稿邮箱: