行业动态数据管理

数据治理。应用收集爬虫对象从分歧目的当局网站中采集获取的网页是海量且无序的,还应对其实行整顿、分类、著录、编目、判定等数据治理操作,实现信息的规矩排序,使其具备增值的潜能,为后续的资本存储和拜访应用奠基基本。

起首,资本分类。依据采集网页资本的特色,可以依照起源机构、资本主题、格局类型等分类尺度,将个中具有某种配合属性特点的网页资本进行归类和整合,树立规范同一的当局网站网页资本分类系统,经由过程分歧类其余属性特点来对海量的当局网页内容进行区分。其次,编目著录。对分类后的网页资本还应基于同一的元数据尺度对其内容及构造、起源、配景等特点进行揭示和描写,并在相干元数据之间树立接洽,形成当局网站网页资本目次系统,实现对海量无序网页信息的序化组织。最后,判定整顿。当局网页的判定整顿重要包含内容的辨认以及内容的可用性断定,个中内容的辨认就是确保实现当局网页历久可存取的元数据、保留策略等信息要素齐备。

内容的可用性断定等于经由过程人工干涉来对当局网页的形成配景、内容质量、主要水平等属性特点进行周全剖析,并依据保管刻日表对要归档的当局网页标志响应的判定标识。

相關文章: