数据存储的逻辑模型异构;数据分别在不同的业务逻辑中存储和维护,从而相同意义的数据存在表现的异构;如:独立的销售系统和独立的采购系统中存在部门的编码不一致等。异构数据采集技术的原理在于通过获取软件系统的底层数据交换和网络流量包,进行包流量分析和使用仿真技术采集到应用数据,并且输出结构化数据,真正实现了各种软件数据都能采集,各种类型数据都兼容,各种行业软件都适用,各种时段数据都能抓取,无需软件厂商配合,异构数据直接采集。
爬虫工作内容
互联网作为人类历史Z大的知识仓库,是没有充分结构化的。目前互联网仅仅是一些文本等多媒体数据的聚合,内容虽然非常有价值,但是程序是无法使用那些没有结构化的数据。
在2006年左右,有专家提出的web3.0,语义互联网,知识共享。虽然现在开放API,SOA概念越来越普及,真正语义上的互联网的时代似乎还非常遥远。因此爬虫依然是Z重要的手段,一端不断解析,聚合互联网上的数据,另外一端向各种各样的的应用输送数据。
现有爬虫开发技术存在问题
从招聘市场岗位需求可以看出,近年来对爬虫工程师需求越来越强烈。
个人判断原因有两个:
信息聚合是互联网公司的基本需求。
数据时代到来,对数据更强烈的需求。