新闻动态网页分析技术


跟着信息技巧的快速成长, 我国沾染病防控工作也日益依附于信息技巧的先辈性和高效性。2003年SARS暴发后, 中国疾病预防掌握中间研发了中国疾病预防掌握信息体系 (以下简称“中疾控体系”) , 内含26个子体系, 笼罩我国各级各类医疗卫活力构和卫生行政部分, 旨在将沾染病疫情产生情形实时从医疗机构泉源采集上报至各级疾病预防掌握中间, 实现沾染病防控快速响应、精确决议计划、有用干涉的目标, 有用遏制重年夜沾染病疫情及群体性不明原因疾病的暴发[1]。但各级体系用户只能作为应用者介入体系的运用, 被动地熟习和控制体系现有的功效, 未能获得任何个性化定制权限, 无法使相干功效加倍契合现实工作须要。
今朝, 体系的省级治理员知晓突发公共卫闹事件产生情形的方法有以下2种:经由过程查询“中疾控体系”中的突发公共卫闹事件信息治理体系 (以下简称“突发体系”) ;经由过程下级疾控机构疫情治理员德律风或者短信上报。疫情接报的时光直接影响疾控部分对事宜干涉和处置的进度。是以, 工资准时存眷体系中突发事宜申报与及时监控比拟, 当时效性可能存在较年夜差距。为此, 设计开辟一套突发公共卫闹事件治理帮助软件, 实现盘算机取代人工进行及时在线主动监控和采集“突发体系”中事宜的根本信息并实时提示, 可增进沾染病疫情日常监控治理工作的信息化和智能化, 有用进步疫谍报告信息处理效力。
1 重要做法及法式设计思绪
“突发体系”是B/S架构的Web运用体系, 各级疾病预防掌握中间的营业治理员依据分歧的权限可以查询到所属辖区内申报的突发公共卫闹事件的汇总及个案明细信息。斟酌不依托“中疾控体系”开辟商供给数据或办事接口的前提, 采取MicroSoft.Net平台下的WebBrowser阅读器控件, 开辟一个可以实现对体系中相干数据页面进行主动监控和数据采集的运用法式软件, 改良了基于B/S架构的Web运用法式在用户端“弱掌握”的不足。基于信息平安和安排方便性的需求, 本软件采取C/S架构, 应用MicroSoft.Net平台下的C#说话编写开辟, 集成WebBrowser、Office API、短信平台等多种成熟技巧, 实现对“突发体系”症结页面的数据抓取和运用。
1.1 设计思绪
本软件经由过程WebBrowser阅读器控件对“突发体系”的页面进行操作和掌握, 应用准时器设置准时每隔60秒模仿触发页面上的查询按钮[2], 以实现对事宜治理页面数据的主动刷新, 同时避免因历久无操作导致体系认证超时。当页面加载履行完毕后, 依据软件法式中默认的文档清算算法, 解析HTML网页格局文档, 对当前页面上所有的突发事宜根本信息进行抓取, 然后以突发事宜名称和事宜ID两个字段作为结合主键, 逐条与当地数据库中的已有记载进行比对, 断定是否属于新发的突发事宜。同时启动巡检函数, 查询到数据库中的信息提示字段标注为未提示的突发事宜, 则对用户进行法式弹窗或者短信提示。如未发明新事宜, 软件则主动履行轮回履行以上操作直至发明新事宜, 以此来实现不间断的在线监控。最后, 经由过程挪用Office API, 抽取突发事宜的症结字段信息对预先植入WORD申报模板的书签进行匹配更新, 即可主动、快速地生成申报格局文档。
1.2 可行性剖析
经由过程对页面源文件的剖析, 发明突发公共卫闹事件列表页面文档为尺度化的HTML文档格局, 须要监控和采集数据的页面由查询前提区域和数据显示区域构成, 具备页面剖析和数据采集应用的可能性。经由过程对页面元素进行剖析, 发明须要获取的信息元素均集中在数据显示区域事宜列表的TABLE元素中, 包括有:突发公共卫闹事件级别、事宜名称、申报地域、状况、创立时光、比来修正、发病数、逝世亡数、审核状况等字段。上述所有字段信息均存在页面中每一个<tr></tr>记载行标签内, 每一个症结字段占用一个<td></td>单位格, 须要抓取的症结信息字段均以文本和占位符情势存储在单位格内部[3]。
2 重要功效和成效
依据上述设计思绪, 软件开辟进程中重要实现了单点登录、页面主动刷新、页面数据抓取、申报主动生成四个方面的功效, 重要技巧要点和实现方法具体列举如下:
2.1 单点登录
“中疾控体系”登录门户现已实施数字证书认证登录, 插入证书介质后只须要在页面上输入证书口令即可实现登录。在完成页面加载后, 在法式中进行轮回查找, 定位到ID或者NAME属性值为“UserPwd”的INPUT标签[4], 然后将用户的数字证书口令进行赋值, 并在法式内部经由过程WebBrowser对页面进行掌握, 挪用页面表单提交函数, 完成对“登录”按钮提交事宜函数的模仿人工触发, 经由过程暗码验证后即可登录体系。
2.2 主动刷新查询
突发公共卫闹事件查询页面上设置有“查询”按钮, 用于查询申报的突发事宜信息。依据主动查询的需求, 需应用法式模仿人工触发该按钮。页面中该按钮应用的是INPUT标签, VALUE属性值为“查询”, onclick事宜挪用JS查询函数。应用该元素的独一属性值筛选过滤失落其他标签元素, 再逐层嵌套轮回查找, 应用GetAttribute (“value”) 属性在页面中独一定位该按钮元素, 然后在法式内部挪用单击查询函数, 完成对“查询”按钮的模仿人工触发。完成操作后会显示响应时光段内的所有突发公共卫闹事件列表。
2.3 页面元素抓取
突发公共卫闹事件症结根本信息全体集中存储于页面中的TABLE标签内部, 因页面中存在多个TABLE标签, 可以独一定位到目的是CLASS属性值为“tbMain”的TABLE标签, 然后依次轮回查询CLASS属性值为“tbMain_data”的TR行标签, 截取行标签内部所有单位格TD的内容, 最后应用正则表达式或者其他预设好的文档清洗算法对内容进行筛拔取值, 直至读取到当前TABLE停止标签后完成所有事宜信息的采集。
2.4 主动填写生成事宜申报
突发公共卫闹事件申报需由营业人员依据事宜症结信息填写生成WORD文档并打印审批, 经由过程在突发事宜申报模板中对须要赋值的地位插入对应信息的书签标识, 让法式应用Office API的相干办法, 找到模板中的书签名, 并在书签处写入要插入的数据, 操作完成后便可在指定操作体系路径下主动生成以事宜名称定名的WORD文档。
3 评论辩论
该帮助软件经广西疫情治理人员在现实工作中测试和应用, 极年夜地减轻了体系营业治理员的工作量。如:改良了工资监控模式存在的弊病, 实现了及时数据采集和剖析、主动预警新发事宜, 有用地缓解值班工作人员压力;可快速、精确地生成突发公共卫闹事件申报, 既能削减工资手工操作发生的毛病, 又能极年夜地进步工作效力。该软件固然实现了对“突发体系”进行主动监控和数据采集的目标, 但依附于对页面HTML格局标签文本的辨认和抓取, 如体系开辟商因营业工作须要对相干页面进行了变革, 那么软件也要做响应的调剂, 能力包管信息获取精确。
基于WebBrowser的突发公共卫闹事件信息治理体系主动监控和告警运用软件开辟, 经由过程多种成熟信息技巧的整合应用, 有用改良了工作模式, 进步了工作效力。据统计, 广西现有省、市、县级疾病预防掌握中间120余家, 各地疾病预防掌握机构营业工作人员均有相似的工作需求。该软件针对性强、操作简略, 具备年夜规模推广应用的需乞降可能性。同时, 这种基于网页数据采集的软件设计思绪为公共卫生和医疗行业各类年夜型收集信息体系数据采集和二次开辟运用供给了根据。

相關文章: