信息抽取-技术-科技项目-科易网

当前位置：首页 > 标签列表 > 正文

找到4项技术成果数据。

多信息块Web页面的信息抽取
成熟度：-
技术类型：-
应用行业：信息传输、软件和信息技术服务业
技术简介
以往的包装器主要针对仅含有一个数据块的Web页面，而对含有多个信息块的Web页面，简称MIB(Multiple Information Block)Web页面无法处理。该文提出了一个新的抽取规则，结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点，能够有效地抽取MIB Web页面中的信息。
一种全程化Web信息抽取集成方法
成熟度：正在研发
技术类型：发明
应用行业：制造业
技术简介
本发明涉及一种Web信息抽取集成方法，属于计算机技术领域。该方法包括网页浏览导航、网页数据抽取、数据集成处理步骤，能够应用于各种不同的Web信息采集和挖掘分析应用，具有网页自动浏览导航能力和抽取数据的集成处理能力，因此采用本发明后，可以满足人们从Web中挖掘有价值的数据信息、完成深度价值发现的愿望。
互联网信息采集系统
成熟度：正在研发
技术类型：软件著作权
应用行业：信息传输、软件和信息技术服务业
技术简介
互联网信息采集系统是为挖掘和分析互联网数据提供大量格式化数据的采集系统，系统提供了采集网站入口地址管理、网页增量抓取、BBS信息抽取模板设置、网页正文信息抽取、网页元数据（发布时间、标题、关键词等）抽取、索引建立、格式化网页数据存储（XML）、采集状态浏览等功能，实现了采集制定网站集合的网页，并抽取出网页中的各种元数据存储为XML文件，便于挖掘和分析。系统主要为各种互联网信息分析与检索系统提供格式化数据。系统采用JAVA语言开发，不受操作系统限制；在网页抓取阶段采用了先进的链接分析算法，有效提高了采集速度；在信息抽取阶段采用文本密度结合模板的方式，提高了信息抽取的精度；系统提供了基于浏览器的采集状态监视界面，可以实时了解并控制系统状态。系统可在1小时左右完成40个网站的扫描，采集指定时间段的数据。
一种数据包的快速解析方法
成熟度：正在研发
技术类型：发明
应用行业：信息传输、软件和信息技术服务业
技术简介
一种数据包的快速解析方法　　本发明公开了一种数据包的快速解析方法，采用基于查找表的专用集成电路实现技术，对数据包头信息进行有效的解析和抽取。其步骤为：①数据包解析及信息抽取：依据数据包头定位和信息抽取操作表，对数据包进行解析和信息抽取处理，并生成数据包信息关键字。②数据包查找关键字生成：完成数据包的解析和信息抽取之后，依据用户指定的查找关键字生成规则，生成查找关键字。本发明通过修改规则表的相应内容可以达到修改对数据包的具体解析方法和定义新的协议头类型处理方法，其灵活性和可扩展性很强。同时，采用多级流水线并行处理的方式，很大程度上减少了数据包的解析处理周期，获得了对数据报文的高速处理。