语音库

（文学 | 语言文字）

语音库（speech corpus），文学-语言文字-语音学-[仪器与分析技术]，按照一定目的与原则收集的语音信号（还可包括相关的物理信号）及其标注、元数据和技术文档的集合。又称语音语料库。语音库的制作全过程大致分为9个步骤：①针对具体任务，制定语音库制作规范。②语音库收集准备工作。③语音库预收集。④语音库预评价。⑤语音库正式收集。⑥语音库标注。⑦生成电子发音词典、词频词典等。⑧有关机构的评价。⑨发布。但实际操作中，有一些步骤并非必须，例如是否统计词典，是否需要发布等环节，可以根据需要进行选择。语音库的分类可以按照语音录制信道、语体风格、交际模式、用途、语种、发音人社会属性、特定语音类别等多种方式进行分类。