元数据抽取(metadata extraction),管理学-图书馆学-数字图书馆-数字图书馆技术,针对文档的结构化或半结构化对象描述信息(如HTML文档中的label和body等结构标志信息)进行抽取,生成元数据记录的方法。针对数字化工程所要抽取的元数据应包含:①用于检索的元数据,例如支持常规检索的关键词等。②用于快速定位的结构元素,例如支持文献内容导航和准确定位于某一页、章、节等的元素。元数据抽取主要通过两条技术路线实现:①基于规则进行抽取。借助结构、句法、语法等信息制定规则进行元数据抽取。该类方法实现简单,抽取结果通常较为精确,但适应性较差。②基于机器学习进行抽取。将元数据信息抽取看作模式识别问题,根据给定的训练样本计算出文本与元数据信息之间依赖关系的估计,使模型能够对未知文本的元数据信息做出尽可能准确的预测。该类方法能够取得良好的抽取效果,但同时带来了人工标注、训练时间过长等额外开销。