文档库 最新最全的文档下载
当前位置:文档库 › 中文广播新闻语料库

中文广播新闻语料库

中文广播新闻语料库
中文广播新闻语料库

中文广播新闻语料库

MATBN 中文广播新闻语料库简介民国90年至93年间,国内从事语音研究之

相关学校及研究单位联合向国科会中提出一语料搜集计画,『中文自发性语音语料

库之建立』Spontaneous Mandarin Speech: Corpus and Processing;计画编

号:NSC-92-2213-E-009-021,参与的单位共有国立交通大学电信工程学系、国立台湾大学电机工程学系、国立清华大学电机工程学系、国立成功大学电机工程学系、中央研究院资讯研究所、工研院前瞻研究中心及中华电信研究所。在该项『中文自发性语音语料库之建立』计画中收录了新闻语音资料,语料来源由公共电视台之新闻,计画中并对所搜集之197个小时节目之语音资料做人工文字标注(转

记;transcription)处理。会让该项成果可与国内外从事国语语音研究之单位分

享,今将申请将上述之研究成果申请技转中华名国计算语言学会The Association for

Computational Linguistics and Chinese Language Processing ACLCLP。 1. 授权语音资料库共包含197个小时之语音资讯及其内容之转记与语音资讯之标注资料;共五片DVD光碟。 2. 录制语料的相关资讯: ?? 所有的新闻语音都在公视录制的,在第一甓燃苹葱兄醯氖鲈孪冉懈飨钭急腹ぷ鳎档缡蛹肮悴ス厩?甘谌ā?急副曜?硖濉?龆ū曜?绞降取,牍驳缡忧?负螅油馐谌ㄎ颐鞘褂闷湫挛沤谀浚?ㄒ槲颐遣捎谩

汗有挛派疃缺ǖ肌唤谀考霸敢庑颐锹家簦ㄓ埃家艄ぷ髯?0 年11月7日起正式展开。『公视新闻深度报肌混睹恐芤恢廖逋砑?1:00-22:00播出一个小时,自91年7月起,变更节目名称为『公视晚间新闻』,自91年9月起,播出时间改为晚间

21:00-21:45,播出45分钟,另於21:45-22:00播出15分钟的『公视手语新

闻』,92年1月31日起,『公视晚间新闻』移至19:00-20:00播出,21:00-

21:45则播出『公视全球现场』,21:45-22:00仍播出『公视手语新闻』。自90年

11月7日起至92年2 月底止,录音时间固定为21:00-22:00,92年 3月起,录音时间则包括19:00-20:00及21:00-22:00两个时段。本计画录音工作进行至92年6月底结束,共收录约300个小时的新闻节目,主要内容为国内新闻,也有一小部分为国际新闻。语料己转为windows PCM的声音档,其规格为为16kHz、16 bit、单轨声音档。 2. 语料资料之人工文字标注资料语音的标注是由受过训练的专任助理进行较准确的文字标注,并做cross checking,此部分工作由中央研究院资讯所王新民博士统筹规划及负责推动。我们采用LDC Linguistic Data Consortium 提供的Transcriber系统来标注电视新闻录音资料,请参考图一。首先,将公视取回的DAT数位录音带,经USB介面直接将录音带内的数位信号读进PC内转为格式为44.1kHz、16bit、stereo的声音档 windows PCM、.wav,并烧录於光碟中以便保存。然后,将档案转成标注使用的声音档,因考量档案传输及读取速度的问题,将原始的档案,利用声音编辑软体— CoolEdit 2000 将己转为windows PCM的声音档进行格式转换。转换为16kHz、16 bit、mono后,为便利日后管理及利用,每周的公视新闻深度报导,每月的公视演讲厅、客家新闻杂志分别储存於同一光碟中保存。图一:利用Transcriber标注新闻语音的实例在标注过程中,举凡杂讯、背景环境、发音不标准、方言、说话者性别、主播/记者/被采访者等资讯都尽量钜细靡遗标注下来,标注的结果以XML档案储存,请参考图二。图二:Transcriber的XML标注档案标注重点主要分为四大部分,分别为: ?? 段落主题 ?? 说话者名称 ?? 背景声音 ?? 插入事件『公视新闻深度报导』於Transcriber系统大致上之基本架构包含: nontrans-空白 nontrans-广告

filler-间隔音乐 filler-节目重点内容介绍 report-新闻主题 . . 数则新闻 . report-新闻主题

filler-节目重点内容介绍 nontrans-广告 report-新闻主题 . . 数则新闻 . report-新闻

主题 report-气象预报 filler-结尾 filler-片尾音乐 nontrans-广告nontrans-空白图三

图四图五图六图七

相关文档