新闻动态深度优先搜索策略

深度优先搜刮策略是比拟常用的一种搜刮办法,该办法的最终目的就是沿着网站中的一个超链接进行深层遍历直至无链接。

深度优先搜刮策略根本进程为,爬虫法式从初始种子网页动身,获取当前网页的超链接聚集后,任选一个超链接进行爬取,这时爬虫在此偏向树立并反复上述的进程,当爬虫法式在一条偏向上无法再进步爬取时本条偏向停止,并返回上一层页面另一超链接路径持续采集进程。

当爬虫再也找不到另一个超链接爬行时则爬虫停止,搜刮爬取完成。深度优先搜刮策略在选定某一超链接后则一向爬取到底,全部爬取是一个递归进程。

相關文章: