本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】获天使投资 少年极客造智能爬虫 清理2千万网页 为3000企业寻干净数据(2)

时间:2017-03-18 21:09来源:118论坛 作者:本港台直播 点击:
一是可以智能解析页面结构。客户无需编程基础即可使用,不用再专门雇佣爬虫工程师,从而简化操作流程,降低产品使用门槛。 第二则是造数的服务搭

  一是可以智能解析页面结构。客户无需编程基础即可使用,不用再专门雇佣爬虫工程师,从而简化操作流程,降低产品使用门槛。

  第二则是造数的服务搭建在云上,客户只需访问网站即可使用,不需要下载专门的软件。“整个平台都是基于云端的”。

  智能算法+云服务

  去年年底,项目进入测试阶段。

  一位客户主动找上门来,说自己之前想用某工具采集亚马逊上一件商品的所有评论结果,要学习大量专业名词,看5个以上的长视频来学习,“花了一周时间也没学会软件操作”。

  改用造数之后,客户5分钟学会操作,从创建爬虫和得到结果一共也没用上十分钟。

  得到这个消息的时候,黄震昕觉得有些自豪。

  年初,网站服务器突然崩溃,团队却开了两瓶香槟庆祝。

  之所以如此,是因为团队此前运营推广效果开始显现,“那天造数网站的独立访问量超过2000,用户量激增”。

  对造数这种以技术驱动的公司来说,技术研发过程难度虽大,但心中总算有谱。重点要做的,反而是如何将产品推向市场。

  进入测试阶段后,团队就开始考虑这个问题。

  恰好,团队负责运营的一位同事在知乎拥有10万粉丝。他在“你写论文时发现了哪些神网站?”这个问题下作答,提到了自己家的网站。

  无心插柳,最终这个问题得到约400个赞同,给网站带来1500多的独立访客。

  那天之后,团队立马重新调整了系统架构,并对服务器进行了升级。“增加此前平台没有的集群架构,提高了系统可伸缩性”。

  为了保持系统持续性运转,团队一直在优化底层技术。2月下旬,造数完成了对网站的深度爬取功能。3月中旬,造数完成了API功能……

  现阶段,造数可以提供两种服务模式,一种是根据爬取次数收费的普通服务,另一种则是根据企业需求单独定制的服务,包括私有化部署版本购买,知识图谱,数据产品开发等。

  企业用户在使用造数时,需要先行注册,之后输入需要爬取的页面并选取得所需的数据,配置地址规则,之后平台会自动抓取,得到用户所需数据。

  数据导出时,用户可通过控制台选择自己喜欢的格式输出,系统目前已经支持Excel,CSV,JSON等多种格式,也可以通过API与企业内部系统进行融合。

  现阶段,团队已经累计服务3000家以上的企业,爬取2000万以上网页。

  今年,黄震昕和团队将继续优化算法,提高系统智能度以使产品更加易用。同时,团队正计划启动下一轮融资,资金主要用于技术的研发升级。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容