从3.0跃升至4.0阶段,在笔者看来,不单单是技术的升级。不同行业,不同场景所需要的数据是不同的,往往是难以标准化的,这样就会走向定制化,从而导致难以形成标准产品,规模化扩展。场景变化带来的技术挑战才会凸显出来,因为真是场景所需要的技术并非简单升级而是颠覆式创新。 至于未来是否会完成跳跃,之后又会是怎样的方式服务大家,现在还很难说。目前国外的import.io,dexi.io,Connotate,国内的八爪鱼,神箭手,造数都在进行自己的探索。 合法性的探讨 在互联网领域关于数据爬取合法性的问题一直存在争议,也确实有不法分子利用数据爬取工具进行黑产交易。数据爬取就像是一个锋利的双刃剑,主要来看使用者是否将其应用在有益的方面。 其实在互联网数据爬取方面主要的准则,就是Robots协议,也称为爬虫协议,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。这原先主要针对搜索引擎公司,大家自觉遵守的公约。 随着数据采集范围的扩大,逐步突破了这条协议,但也有约定俗成的规则,atv,直播,广大的数据采集公司都应该遵守。 1,采集的应该是网络公开数据,并且数据的用途不能用于复制该网站信息,或者简单的将数据贩卖。更多允许的情况是将多方采集的公开数据进行整合,分析,形成数据分析服务。 2,采集的强度不宜损害目前网站的性能,无形增加目标网站的维护成本,甚至造成损失。 此外,我国6月1日刚刚实施了《中华人民共和国网络安全法》,这是我国网络领域的基础性法律,明确加强了对个人信息的保护,打击网络诈骗。 网络安全法共有7章79条,其中针对个人信息泄露问题规定:网络产品、服务具有收集用户信息功能的,其提供者应当向用户明示并取得同意;网络运营者不得泄露、篡改、毁损其收集的个人信息;任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。这恐怕对数据采集公司更有方向的指导性。 数据采集发展至今,为什么现在会爆发? 随着云计算,大数据,人工智能的发展,数据采集作为数据的重要手段,成为广大企业的迫切需求。首当其冲的是中小企业的数据采集团队,不再需要维护完备的团队,大大降低了公司的成本,可以这些节省的费用用户数据产品的发展,提升产品的价值。而对于普通的个人,不再需要较高的门槛,就可以定制自己的数据采集方案,更多的行业,更多的场景会广泛使用。 人工智能的服务形态告诉我们,对于那些信息完备(Information-Complete)的领域,机器终将会超过并取代人类; 对于那些信息不完备(Information-Incomplete)的领域,通过人类和机器的协同,也会促进新的发展; 对于那些抽象思维(Information-Free)的领域,依旧是人类主导,机器提供一定辅助。 数据采集即是属于信息完备(Information-Complete)的领域,机器在数据采集,清洗,整合完全可以取代人类,再通过与人类的协同,进行数据分析和预测。这将是即将发生在眼前的事情。 关于智投云: 智投云(微信公众号 ID:vc-smart)是一家专业的创投机构投资管理服务提供商,帮助投资机构高效,便捷的管理投资项目,开拓优质项目来源,并提供创投数据挖掘分析服务,帮助投资经理快速获取项目,行业信息,辅助行业分析。 (责任编辑:本港台直播) |