今天,科学圈是一个巨大而又多变的生态系统,包含着数以百计的互相关联的研究领域,数以万计的研究人员和每年层出不穷眼花缭乱的新结果。这样惊人的体量和复杂度进一步扩大了对科学的科学研究的呼声并激发了对这种类型测量量化方法的研究,比如对过去成果的引用、新成果的产生、职业生涯轨迹、资金赞助、学术奖励等等。数字技术使得这些信息的生成量巨大,而研究人员则正在开发新的强大的计算工具来分析这些信息。举个例子,为了自动量化某些专业科学问题研究的进展,自动提取和分类论文中的相关内容。 目前普遍认为,通过挖掘这些信息所得到的预测远比专家的意见更为客观精确。书目数据库和在线平台——比如,Google Scholar、PubMed、Web of Science、JSTOR、ORCID、EasyChair、和「altmetrics,」——正在使研究人员对科学进展的深入洞见进入一个新的时代。 这些努力也带来了一个引人争议的问题:我们最终能够预测重要的发现和它们的发现者吗?就像 Yoshinori Ohsumi 的诺贝尔奖——对动物细胞的自我吞噬系统的相关工作。我们还不知道答案,但这项工作肯定会使我们在科学研究这一社会活动的理解上更进一步。举个例子,一些科学发现是很容易被预测的(图.1)。随着理论和证据的累积,很明显一个发现将迫在眉睫,就像一幅拼图中间就缺了那一小块一样。人类基因序列的确定和引力波的观测就是这种发现的很好例子。另一方面,一些发现似乎不可能被预测,因为它们可能代表了促使我们重新思考整个问题的那一小块拼图或者是发现了正在发掘的那一部分的新用法。尽管隐喻着这样的关键创新的小块有时是当下显而易见的,就像基因编辑技术,而有时这些隐喻又需要时间以使得其余的相关部分进入我们的视野,就像青霉素(第一种抗生素)的例子,我们用了 15 年才实现它。
图 1:多意外才能算是一项发现? 科学发现在相对于它们各自的已知知识的不可预见性这一问题上而各有不同。为了说明这一观点,我们把 17 个主要科学发现的例子从完全无法预计(如抗生素、基因编辑技术、以及宇宙微波背景辐射)到可以预知(如引力波、DNA 的结构、人类基因的编码)进行排列。 通过使用已发表成果以及科学生涯中的现代数据,科学学的研究人员们已经开始定义一些在各个领域内普遍认同的量化特征,而这些洞见正重新定义科学学可预见性的极限。以下四个领域具体体现了这些成果:对过去发现的引用量、谁得到了相关的研究职位、科学的生产力以及在职业生涯中主要发现的时机。但是,基于这些方面的工作同样也暗示了它受限于数据驱动的对科学发现的预测。 现代的文献数据库允许研究者轻松汇总和研究引用量,这提供了一种方便但也有争议的科学影响力测量方式。50 多年之前,de Solla Price (1922–1983) 在许多知名的成果中识别出了驱动引用量的基本机制,其中当前可见度和幸运事件能驱动一个正向反馈循环,这能放大未来的可见性 (4)。这种「择优依附(preferential attachment)」机制解释了论文之间的引用如此不均衡的原因,为什么有的论文能够得到比典型论文多数百倍乃至数千倍的关注。这个模型也能对一个发展中的领域内的引用积累情况能做出非常好的预测。一个带有论文的新旧程度及其固有吸引力等控制量的修改过的版本能为单篇论文的长期引用量估计提供预测,其能表明引用达到峰值的时间以及需要多少时间才能将一项发现变成一个常识 (6)。 但是,一些发现并不遵循这些规则,这些例外表明,除了可见度、运气和正向反馈,还存在更多与科学影响力有关的因素。比如说,一些论文远远超出了由简单的「择优依附」所做出的预测 (5,6)。另外还有科学中的「睡美人」:在很长一段时间内休眠不被人注意的发现,之后突然得到了很大的关注 (7-9)。一项在过去 100 年来的近 2500 万份自然科学和社会科学出版物上的系统性研究发现「睡美人」在所有研究领域都有出现 (9)。比如,爱因斯坦、波多尔斯基和罗森在 1935 年的关于量子力学的论文;Wenzel 在 1936 年关于防水材料的论文;Rosenblatt 在 1958 年关于人工神经网络的论文。沉睡的论文的觉醒可能从根本上来说是无法被预测的,部分原因是在一项发现的影响显现之前,科学本身也必须取得进步。 (责任编辑:本港台直播) |