本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:作为基础服务的数据采集,发展到哪个阶段了?

时间:2017-06-13 01:29来源:报码现场 作者:j2开奖直播 点击:
这是一个数据驱动商业发展的时代。 数据的挖掘和分析不再只是BAT大公司的专属,其正逐步成为广大中小企业的基础需求,而且日趋迫切。并且数据挖掘的技能也随着网络爬虫的普及

这是一个数据驱动商业发展的时代。

数据的挖掘和分析不再只是BAT大公司的专属,其正逐步成为广大中小企业的基础需求,而且日趋迫切。并且数据挖掘的技能也随着网络爬虫的普及,云计算的计算能力的提高,机器学习算法的发展,逐渐变得平民化。广大的中小企业也可以基于数据驱动,提供更好的服务与产品,从而取得更大的发展。

数据挖掘其实是一个很大的概念,本文主要探讨其中的“挖”,或者叫做“网络爬虫”、“网页抓取”更容易理解。因为除了少数产品具备获取海量数据之前,绝大多数企业需要从公开数据,主要是互联网,获取外部数据,以便进行市场分析、舆情监控和竞品分析等活动。

  

码报:作为基础服务的数据采集,发展到哪个阶段了?

在笔者看来,更倾向称之为“数据采集”。分为两步“采”和“集”。

对应的“采”,主要是数据的获取,可以有多种方式,网络抓取是其中主要的一种,也有数据合作,购买。

对应的“集”,则是数据的清洗,连接,整合,将价值密度低的数据转化为价值密度高的数据。

数据采集的发展阶段

根据笔者的分析,数据采集自上世纪90年代兴趣之后,相当长的时间是属于技术开发者的专项技能。但随着云计算,大数据,甚至人工智能的发展,这项技能犹如“旧时王谢堂前燕,飞入寻常百姓家”,变得简单,易用。其主要经历四个阶段

数据采集1.0 — 基于编程语言的爬取框架

熟悉爬虫的攻城狮都会想如数家珍一样说出一串:Scrapy,WebMagic,Nutch,Heritrix等等,相信在Github上大大小小也不下30个爬虫框架。他们共同的特点是:门槛较高,仅面向开发者,学习成本和维护成本较大,一个企业搭建一个成型的爬虫团队往往成本较大。

数据采集2.0— 基于软件客户端的爬取工具

用户需要下载客户端,同时需要有一定的HTML、正则表达式和CSS能力。国内出现最早的客户端叫火车头采集器,属于一代的爬取工具,对HTML、正则表达式的要求还比较高(笔者亲测)。

二代的产品如八爪鱼和集搜客GooSeeker则提供可视化的爬取服务,通过点选爬取需要的数据。其特点是:门槛进一步降低,对于非专业开发者,通过一定的学习即可自行爬取需要的公开数据。但主要还是面向个人用户为主,由于用户客户端的限制,难以大规模持续爬取,数据的存储和分析难以兼顾。

数据采集3.0—云爬虫服务

首先,用户体验大大提升,大多采用点选(point-and-click)方式,用户所见即所得,无需编写代,也无需了解HTML,正则表达式以及CSS样式就可以定制想要的爬虫。其次,无需担心自己的电脑的限制,爬虫运行的云端,可以定时定点,也可以爬取大量的数据,甚至可以在云端做一定程度的数据清洗和整合的工作。

目前国外的数据采集项目大多采用前端点选(point-and-click)方式,后端云服务模式。如下是国外的项目列表:

  

码报:作为基础服务的数据采集,发展到哪个阶段了?

目前国内的数据采集项目分为三种:

1,基于客户端或者插件的云采集服务。

客户端方式代表项目有八爪鱼和集搜客GooSeeker,其不在仅仅完全依靠客户端的计算资源,而是采用客户端方式可视化点选的用户体验更好,速度更快。同时将爬取的服务转移到云端,提供较大的数据爬取能力和数据整合能力。

浏览器插件方式如爬一爬,通过安装浏览器插件,实现前端点选(point-and-click)方式,后端云服务模式。

2,基于Web的云采集服务

用户无需安装直接在网友上进行点选(point-and-click)操作,云端进行爬取服务。这种方式优点是用户随时随地使用,简单方便。国外的许多项目采用此类模式,如import.io,国内采用这种模式的项目为造数科技。但是缺点是需要首先在云端将网页加载渲染好,再呈现给用户,这就需要耗费提供商的大量计算资源,而且速度往往较慢。

3,面向开发者的云采集开发云服务

目前国内一家叫神箭手的公司在提供此类服务。具备Java能力的开发者可以在平台上开发爬虫;不具备开发能力的用户可以在爬虫市场上购买或者定制开发需要的爬虫。

目前市场上,基本上是80%的人在采集20%的网络数据,比如企业信息,电商,O2O等,而这项网络数据往往具有较强的反爬能力。

  

码报:作为基础服务的数据采集,发展到哪个阶段了?

数据采集4.0—Extract-Enrich-Connect数据服务

笔者认为目前数据采集尚处于3.0阶段,4.0阶段尚没有形成,即提供数据采集,清洗,连接,分析等一体的数据服务能力。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容