预测模型还必须为潜在的未来行动提供一个或多个解决方案,这样决策者才能更好地决策。如今的机器学习方法并不一定满足这三个标准。因为构成理想的预测算法还是取决于现实应用。通常,利益相关集团(如社会媒体平台和搜索引擎)将对精度有不同的定义,从而满足其特定的需求。此外,行业专家可以使用领域内广博的知识建议在数据集内包含相关的独立变量。通常,他们将使用由预测模型生成的技术精度测量和他们的学科中的内容结合起来解释预测结果,所有这些都表明在现实世界体系中,计算机科学家需要和其他利益相关者进行合作而取得深远影响的结果。 在我们看来,下一代的预测模型需要解决以下四个主要的挑战。 首先,更多数据总会获得更好的预测模型这一格言并不总是正确的,因为数据中的噪点可能会压垮预测模型。处理噪点、不完整和不一致数据的能力将会是下一代预测模型的核心。例如,在推特上识别「bots」就是寻求在政治候选人上持正观点,而忽略寻求其它结果的大量「bots」。例如传播垃圾邮件、寻求在其他主题上影响他们的观点或欺骗用户点击链接从而为他们创造利润的机器人。此外,许多推特的数据是受到限制的,在一些情况下甚至会故意产生误导。所以机器人开发者就需要确保他们的机器人逃避检测。 第二个挑战是罕见事件预测。例如,公司监控其内部网络来识别可能会窃取机密的用户将会包含所有公司雇员的在公司内部网络活动的信息,其范围包括从对员工的邮件分析、上传(到网站)到下载到内存存储设备等。许多雇员对公司是诚实的,只有一小部分可能会存在问题。在这样一个案例中,机器学习算法将很难从无辜用户(这种情况下,数据称为「不平衡」)中分离清楚那些「稀有」的个例,并且预测模型一般表现不太好。 预测新现象时保持模型的准确性是重要的第三步。社会运动常被分为五个步骤:导火索、社会动荡增加、发展组织核心成员、组织的维持和终止(假如运动最终消亡了)。当事件还处于早期阶段(如有人开始在 Twitter 上抱怨),准确预测之后发展的动向可以让我们在其后更加激烈的冲突中受益。 第四个因素是人类的行为是动态变化的。我们的对手(如恶意软件开发者或恐怖分子)会不断适应环境。因此,高阶预测(关于预测模型的预测)的形式成为了关键。我们需要预测模型何时出错,或何时人们行的为将发生改变,因此我们在太多错误发生之前就可以开发出新的预测模型。OpFake Android 恶意软件的开发者最初设计这个病毒自动从受感染的手机发送短信给高价付费服务号码。后来,开发者调整了策略,也开始涉足银行卡欺诈。我们迫切地需要开发可以在发生时或甚至在发生之前识别这些危险行为的预测模型。 开源数据的爆炸和机器学习的发展彻底改变了我们分析人类行为的方式。在未来的几年里,随着物联网的发展,这种多样性会出现又一次爆炸——异构数据。我们可能会遇到与不完整,不一致,不平衡和混乱数据相关的问题。生成准确预测和高质量分析的能力,包括对预测的支持和证据,以及提供可操作决策的能力,将是决定性的,因为机器学习系统将无处不在。一个数据驱动,多学科,多利益相关者的方法对于预测未来的模型而言至关重要。 五、特刊其他几篇文章的摘要 (一)在线民调:人民的脉搏 在线民调系统会成为民调预测工具,甚至替代品吗?传统的民意调查,无论是通过电话还是面对面的问询都是费时费力的方式。而且这类方式的有效回复率已经下跌至 10% 以下,只能为分析者提供一个带偏见的小型样本。而在线民调的方法,如 Twitter 分析可以让研究人员直接研究数百万群众的政治观点,实时更新,而且数据是免费的。然而无论传统还是 Twitter 民调都没有预测出去年 11 月份的美国大选结果。网络看起来仍然无法让我们摸清人民的脉搏。但社会科学家相信它终究会是正确的方式。 (二)社会系统的预测与解释 (责任编辑:本港台直播) |