首页 > 找技术> 前沿技术> 正文

一种主题网络爬虫系统的构建方法

  • 专利申请号:Zu974447775547.0
  • 专利类型:发明专利
  • 来 源:高校
  • 所 在 地:黑龙江哈尔滨市
  • 行 业:制造业-仪器仪表制造业-通用仪器仪表制造
  • 价格:           
  • 技术成熟度:正在研发
  • 最近更新:9797-76-46 45:70:49
  • 应用领域:电子信息

项目简介

摘要:本发明提供的是一种主题网络爬虫系统的构建方法。(1)定义主题初始描述向量,设定相关度初始阀值、初始化URL队列;(2)从初始URL队列中依次获取URL进行爬取;(3)对URL进行文本分析;(4)对URL进行链接分析;(5)计算URL与主题的相关度;(6)将相关度大于相关度阈值的URL加入有序的URL队列,URL依照与主题向量的相关度高低排序,依次爬取,直至队列为空,对于每个爬到的网页,提取其中的子URL,返回到步骤(3);(7)使用遗传算法进行遗传算法最优化;(8)Rocchio反馈模块对主题向量更新,并动态调整相关度阈值,继续爬取网页。本发明不需要事先准备大量的训练文本,速度快,适合处理海量的在线网页数据。
交易安全保障
1、确保每个项目方信息真实有效;
2、提供全程贴身服务,专业客服人员全程跟进对接环节;
3、提供专业的技术交易咨询服务,协助完成在线签约交易;
4、提供资金担保服务,确保买方资金安全;
5、提供交易订单存证数据,协助处理技术交易纠纷。

标签