根据IDC预计,全球大数据市场规模在2019年将达到1870亿美金; 而我国的人口红利、流量红利逐步消失,也将迎来大数据领域的高速增长。爬虫技术作为爬取大数据的主要方式之一也备受重视,但问题是,对于不同网站抓取目标的描述或定义、对网页或数据的分析与过滤都是不一样的,再加上目前头部网站反爬严格,因此一款灵活的爬虫框架程序越来越被开发者所需要。 36氪今日接触的神箭手云平台就提供分布式云端通用爬虫框架,爬虫程序更接近自然语言和普通用户,只需要在平台注册,输入需求就可以爬取相应的数据。 基于爬虫程序,神箭手有一块爬虫市场的业务,市场上有社交数据、O2O数据、企业信息数据等爬虫采集,用户根据需要可以购买个人版和企业版,区别在于节点个数,节点越多爬取的速度越快。 关于应对反爬的措施,CEO 吴桐告知36氪,神箭手买了180台代理服务器,一天能产生15万个IP。用户购买爬虫程序后,只需自己开发调用函数,代理这部分,网站会询问用户是否需要代理IP。但使用神箭手的IP必须在平台上写程序、用平台的软件才可以。 此外,神箭手也识别验证码。通常用户都是借助第三方打码平台识别验证码,要和第三方接入、自己写代码、充钱、找程序员对接。神箭手平台上的验证码识别方案需要用户充钱即可,平台已自动接入第三方。 神箭手业务主要针对中型企业,主要因为中型企业规模较小,没有完全解决代理IP问题,神箭手是一套通用的SaaS体系,支持WEBHOOK/RESTFUL等,控制和数据可接入企业,开奖,成为企业的一个模块。而大企业更多要求私有化部署,这对于初创企业来说投入较大,需要派遣很多人力进行现场实施和售后维护。目前神箭手想要集中精力做线上,希望首先解决通用需求积累经验,做好线上再做线下。 神箭手客户有摸象大数据、信义立方、良品铺子、超级星饭团、小红唇等。 神箭手的盈利模式是根据其业务展开的。首先是卖服务器,也就是卖买计算资源,称之为节点。一个节点79/月。其次是代理IP,个人代理39/月,企业代理199/月,atv直播,海外代理299/月。第三是验证码识别,每验证一次扣除0.01元。第四是综合以上的套餐服务,根据爬虫节点个数、代理IP种类不同等有499/月和1399/月两种,定制版需要具体询价。 和神箭手做同样事情的有火车头。火车头可以抓取网页上散乱的数据信息,并通过一系列的分析处理挖掘出所需数据,采集不限网页。神箭手和火车头的区别在于,神箭手面向什么都懂或者什么都不懂的用户,而火车头面向的用户正好处于两者之间。国外Web Scraping和神箭手做得事情比较相像。 神箭手目前团队15人,未来的目标是完善线上SaaS业务,以及展开私有化部署。 (责任编辑:本港台直播) |