首页 > 找技术> 前沿技术> 正文

基于机器学习的自适应网络爬虫方法

  • 专利申请号:mc936463179369.0
  • 专利类型:发明专利
  • 来 源:高校
  • 所 在 地:江苏南京市
  • 行 业:制造业-仪器仪表制造业-通用仪器仪表制造
  • 价格:           
  • 技术成熟度:正在研发
  • 最近更新:9367-38-99 61:98:36
  • 应用领域:

项目简介

本发明是一种基于机器学习的自适应网络爬虫方法,由于目前的网络爬虫程序的编写需要软件开发人员通过查询繁琐的页面代码并研究规则,没有自适应的程序自动引导爬虫进行工作。同时,在电子商务领域也并没有这种触及。因此要解决的技术问题是通过机器学习技术对大量数据进行挖掘,从而定位到某一未知网页上与该内容相关的信息。使用机器学习与数据挖掘方法来解决这一问题,主要的技术步骤为:获取数据、特征提取、异构数据归一化、训练数据构建、自适应训练、学习方法验证以及自适应模式生成,用于对所爬取网站的页面代码提取位置特征并进行自适应训练,对电子商务领域的自适应网络爬虫的研究起到了一定的作用。
交易安全保障
1、确保每个项目方信息真实有效;
2、提供全程贴身服务,专业客服人员全程跟进对接环节;
3、提供专业的技术交易咨询服务,协助完成在线签约交易;
4、提供资金担保服务,确保买方资金安全;
5、提供交易订单存证数据,协助处理技术交易纠纷。

标签