前不久《金刚狼3:殊死一战》上映,在狼叔休·杰克曼的光环下,仅两周时间,全球票房已高达4.38亿美元,其中精彩的动作戏与狼叔的谢幕无疑是观众追求的热点。然而不管是《金刚狼》抑或是《X战警》,j2直播,基因突变带来的超能力都是贯穿整个故事的基本元素。 基因科技是什么?时至今日相信大家都已经有了一定的了解,就比如孕妈妈熟知的无创基因检测,又比如说大量场景中用到的DNA亲权鉴定。然而,在这之外,日常生活中基因应用还有哪些方面?是否如电影《生化危机》、《我是传奇》那样遥远又恐惧?借用时下热门的云计算、大数据等技术基因研究这种全人类事业又会产生什么样的助力?近日,云栖社区采访了深圳华大基因股份有限公司研发中心副总监金鑫,就上述几个问题进行了讨论。 科研、医学、人人,基因的研究、应用与探索 10年后的今天,每个新生儿出生后记录的可能不仅是身高体重,还包括了他的基因数据——金鑫。 觉得不太可能?在惊讶的目光中,金鑫表示:回到10年前,2007年这个世界有基因数据的人不超过10个,那个时候读取一个基因数据需要上亿美金;10年后的今天,成本被降到了1千美金之内,同时基于人们对更高健康水平的需求,统计已按百万计。而着眼当下,基因研究主要可分为以下3个维度: 1. 科研的服务。类似大多新技术,基因研究最初也是在科学研究的基础上发展起来,比如寻找一些疾病的致病基因,又比如熊猫为什么不吃肉,通过研究熊猫的基因组会发现,其基因组例感受肉鲜味的基因“坏”掉了。 2. 医学的服务。在之前,医学实践之所以比较少用,原因在于技术上没有突破,同时缺少人类基因组参考序列。时下对于基因的研究已经有了更好的基础,同时成本也飞速下降,所以有了临床应用的可能,就比如生育健康、肿瘤相关、病源感染相关方面,也就是生死染: 生,即生育健康,主要防控出生缺陷遗传病,例如唐氏综合征,发病率大约是800分之一,传统筛查会出现较高的假阳性,提示高风险,从而需要做侵入性检查,带来感染和流产的风险。然而通过基因检测技术,母体抽血就可以避免这种情况,从而对原本检查技术提供了很好的补充。 死,即肿瘤,其最主要就是靶向药物的选择,因为时下治疗方案一般就是手术、化疗放疗及靶向药物,而靶向药的靶点一般都是基因的标记。因此在治疗方案之前,先就肿瘤组织进行检测,知道靶点后确定明确的治疗方案。当然,限于时下的医学水平,治愈还有很大挑战,但是却可以在控制上更推进一步,提高患者生存率或生存时间。 染,即感染,病原微生物,就比如SARS,刚发生时无法得知前因后果,比如究竟是病毒、细菌还是其他,从而造成一定程度的恐慌。直到基因数据被读取,才清楚其病原体。 3.人人服务。在医学服务中的生育健康其实关乎到整个人口质量、社会负担及家庭负担。时下整个出生缺陷的发病率在5.6%,直播,而华大基因的目标是使用基因技术,使出生缺陷发生率在此基础上降低50%以上。 在基因研究方面,华大基因、Intel、阿里云共同发起了一个2020计划,希望在2020年实现1个人的基因样本采集、处理、测序及初步分析在一天内完成。而在这中间,云一方面提供了海量的资源,加速计算和解读的过程,另一方面,让很多人可以同时对多个数据进行比较,从而更精准地解读。 海量数据、异地,基因研究与应用挑战 2016年3月10日之前,7年华大基因完成了100万例孕妇产检,然而在2016年底已超过170万,同时随着成本降低、人们思想进步、基因技术突破及二胎等政策推出,相信这个数据体量会愈来越大——金鑫。 一个人的基因组数据大约在3个G,为了得到精准的基因数据,通常需要进行几十上百不等次的冗余测讯,而做肿瘤基因检需要进行上万次。因此,联系具体业务,其存在的主要挑战有: 海量数据。一直以来华大基因都在不断地扩展自己的计算集群,也有多个区域的生产中心,比如武汉,天津,也包括面向海外的香港,总部深圳也有自己的测序中心和对应的数据中心。以前,测序中心选址往往决定了数据中心方位,然而随着业务的飞速增长,硬件规模增长已无法匹配数据规模的增长,出现了很严重的任务积压。 异地模式。基因研究更应该是一个多人、多基因序列的对比,然而基因数据本身体量比较大,限于现在的网络环境很难实现这一点。其次,如上所述,虽然有着多地多机房,但是随着任务量剧增,如果将数据在多机房来回切换显然也无法满足时效性。 (责任编辑:本港台直播) |