速度:数据的发送和接收速度经常被作为大数据的显著特征。大数据能够批量传送;大数据的获取是实时的,或是接近实时的。 多样性:大数据经常具有多样性的形式——结构化的(如SQL 表格或 CSV 文件),半结构化的(如 JSON 或 HTML),非结构化的(如博客或视频信息)。 另类数据集的分类 在投资管理中,大数据革命的核心在于能够提供具有信息优势的数据资源。另类数据带来的优势可能是在于发现传统的信息源中没有包含的新信息,或者发现的是相同的信息,但是速度更快,时间更早。例如,矿井或者土地的卫星图片能够在媒体或者官方报告前,揭示供应短缺。 我们旨在提供大数据的框架或分类。首先,我们根据数据的生成方式对数据进行分类。然后,我们考虑的是数据集的属性,也就是与投资专业直接相关的,例如将数据集映射到资产类别或投资风格,alpha内容,数据质量,技术规格等。 我们首先在高水平上对数据来源进行分类,指出它们到底是由个人(如社交媒体帖子)生成,还是通过业务流程(如电子商务或信用卡交易数据)生成,或由传感器(比如卫星图片、雷达等等)生成。
上图展示了这一分类。这种一方法扩展了Kitchin(2015年)和联合国报告(2015年)在非财务文本中早期的尝试。虽然这种分类法在某种程度上只是理论上的,但是,在分析这三个类型的数据时,确实存在共同特征,分析方法和共同的挑战。例如,个人生成的数据通常是非结构化的文本格式,需要自然语言处理。传感器生成的数据往往是非结构化的,并且可能需要分析技术,例如计数对象,或消除天气/云从卫星图像的影响。许多商业上生成的数据集,如信用卡交易和公司的“废弃”数据都面临共同的法律和隐私问题。 在根据数据来源对数据进行分类之后,我们还要提供另一个投资人士可能更为感兴趣的分类方法。一个零售版块的投资组合经理可能更关心的是特定的销售数据,而无所谓它们是卫星生成的还是消费者志愿填写的。高频交易者关心每天产生的数据,比如推特、最新发布等等,但不太关心有明显延迟的信息,比如信用卡数据。在下图这个“投资分类”中,我们为各种另类数据标示了不同的属性,这些属性和投资专业人士比如 CIO、投资组合经理等高度相关。
机器学习技术的分类:怎样才算是人工智能 大型和较少结构化的数据集通常不能用简单的电子表格工作和散点图进行分析。我们需要新的方法来解决新数据集的复杂性和规模。例如,使用金融分析师的标准工具不可能对非结构化数据(如图像,社交媒体和新闻稿)进行自动分析。即使在大型传统数据集上,使用简单的线性回归往往会导致过度拟合或不一致的结果。机器学习方法可用于分析大数据,以及更有效地分析传统数据集。 毫无疑问,机器学习技术在应用于图像识别,模式识别,自然语言处理以及自动驾驶汽车等复杂任务时,产生了一些惊人的成果。那么,机器学习在金融中的应用是什么,这些方法相互之间有何不同? 首先需要强调,任务的自动化不是机器学习。我们可以指示计算机根据固定的规则执行某些操作。例如,如果资产价格下降了一定量(止损),我们可以指示电脑出售资产。即使给机器(也称为“符号人工智能”)大量复杂的规则,并不意味着就是机器学习,这只能说是任务的自动化。使用这个“符号人工智能”,机器在遇到与此前预编程的规则不匹配的情况时,只会选择自我“冻结”。 (责任编辑:本港台直播) |