根据我们在前面提到的,我们将数据分成了四大类型,包括行业数据、政府数据、互联网数据和线下数据,我们需要围绕社会存在的这四种数据类型来想办法解决数据获取问题。
1、数据获取 对于获取互联网上的数据是最简单的,只需要有一些简单的计算机知识,在网上找一个爬虫工具,我们自己就可以去爬京东、淘宝、新闻门户或者社交网站的数据等。但是爬取只是使用互联网数据的第一步,当你将海量的互联网数据爬取下来以后,开奖,如何将里面的特征信息提取出来,这还需要用到一些自然语言处理的技术去将海量信息里面的特征语义提取出来才能很好地使用。 对于行业数据,实际上这类数据在社会上流通的比较多,包括:电商的行为数据、搜索行为数据、运营商数据以及人们日常生活消费的数据等,这些数据相对容易去采购或者是通过合作来获取。 对于政府数据,目前的获取办法就是和地方政府一起合作,去做政府数据开放共享的事情。通过参与项目,就可以接触到一些政府数据。但是政府数据对于隐私、安全以及其他因素会考虑的比较多,目前整个政府数据的开放程度还没有那么大,但是至少有很多数据已经在网站上公布出来了,这是一个好现象,我相信很快会有一些核心的、有价值的政府数据会在合理合规的状态下逐渐释放出来。 最后一类是线下数据,这类数据最不起眼,比如:超市的小票数据、商场的WiFi热点、你路过某个地方的门牌号等,这些数据都是纯线下的,它们的特征是比较分散,不太容易集中采集,这就需要发动大众和社会的力量,利用众包的方式来帮助我们采集一些数据。 以上是我们讲到的获取行业数据、政府数据、互联网数据以及线下数据的若干种获取方式。 2、数据处理
刚才我们讲到了数据获取阶段,我们通过若干种方式获取若干领域的数据。其次,我们光有这些数据也没用,你还要对这些数据做加工、清洗和处理,这个环节会包含: 第一、数据清洗。原始数据会存在大量数据的脱敏、去噪、去重等,这些数据的质量并不好,在这种情况下就需要对这些数据进行二次清洗和处理。 第二、非结构化数据处理。由于社会上产生的数据大部分都是非结构化的,比如:语音、视频、在互联网上爬取的若干微博数据、以及在交通路面上开车产生大量的视频监控数据等。对于这些非结构化数据,特别是海量的非结构化数据一下子涌到你面前的时候,处理起来是一个大问题。所以数据处理的第二个重要环节是如何利用一些工具和手段对非结构化数据进行快速处理,将里面的特征信息提取出来。 第三、数据关联。这部分工作实际上在整个数据处理环节是最有价值的一环。因为社会上产生数据的来源有很多,但这些数据之间或多或少拥有这样或者是那样的一些关联。有些数据可以通过手机ID的维度关联起来,也有可能是以某个人的姓名关联起来,也有可能是以中关村或者是海淀黄庄这样的位置属性关联起来。在这部分,要根据手上所掌握的数据资源去做数据的关联分析,然后通过一些手段融汇起来,这样整个数据的价值才能起到1+1>2的放大作用。 第四、数据服务。在数据处理以后,肯定需要被使用,这就涉及到数据服务的形态,正如刚才讲到的“用数据就像使用自来水一样方便”。在数据服务阶段,我们可以把数据包装成服务接口,也就是API的形式,这样的好处在于,将接口包装出来以后,再附上接口的使用说明,就可以使大部分人在不掌握太多计算机技能的情况下就可以使用到这些数据。使用API数据的另外一个好处是,它的原始数据不会被交易出去,只是每次调用一些自己所需要使用的数据,最大地保留了原始数据的版权,还可以避免一些其他问题。 3、数据应用
当数据获取回来以后,肯定需要去利用它。目前在整个大数据产业,已经有相对成熟的商业模式或者是数据变现能力的,包含以下几个领域: (责任编辑:本港台直播) |