去年夏天,该机构启动了一项4500万美元的名为“大机械装置”的项目,该项目旨在发展可以读取研究论文、把癌症机制信息整合进计算机模型以及为有血有肉的科学家(或者甚至是机器人)设计等待检验的新假说的计算机系统——计划全部在2017年底完成。
上周,12个计算机科学家和生物学家团队在华盛顿特区会面,梳理相关进展面临的挑战。尽管一些科学家质疑该项目的方法论,但另外一些科学家还是很欢迎它——包括华盛顿西雅图艾伦人工智能研究所人工智能研究员orenet zioni,他称之为“一项杰出的项目”。
大机械装置项目经理、darpa人工智能研究员paul cohen表示,其目的是帮助科学家在阅读面越来越狭窄的时代应对相关的复杂性。“当我们需要了解高度相连的系统时,我们的研究方法却让我们聚焦在零散的部分层面。”cohen说。
如果“大机械装置”项目计划成功,将可以帮助研究人员了解从气候科学到军事行动乃至贫困的复杂系统。但目前,它主要聚焦在由“ras基因家族”的基因突变引发的癌症,包括人类所有癌症的约1/3。癌症生物学家已经建立起由ras基因突变引起的癌症通道的大致路线图:影响细胞繁殖与死亡的蛋白质之间互动的序列。它们相当于cohen所说的各种偶然关系相互交织的“毛球”。“我们都承认需要更好的系统组织海量信息,通过肉眼观察它,通过某种可行的方式代表它。”美国国立卫生研究院负责“ras计划”的frank mccormick说。
“大机械装置”项目将通过3步处理相关问题。首先,机械将读取癌症通道的相关资料,并把有用的信息转化成可以理解的正式表述;然后,它们会把知识碎片整合到癌症通道计算机模型中;最终,该系统将生成可以用实验验证的解释和预测。这些团队正在研发可以处理以上三个任务的4个系统。
此次评估会议主要集中在第一步,即机械读取方面。制药公司已经布置了很多论文来收集基因与蛋白交互作用的信息,用于药物研发,但“大机械装置”项目不仅是为了开发可以像科学家那样读取论文的机械:还包括它如何对现存的知识作出贡献。
此次评估从小处着手:参与的团队均被分配到一个基本ras癌症通道模型以及6段通路。他们的系统需要从文本中提取信息,决定这些通道与模型之间的关系,并很据读取到的信息作出恰当的修改。
两个研究团队已接近完全操作这一过程。表现最好的机械阅读系统从通道中提取了全部信息的40%,并且正确决定了每个通道如何与模型产生关联。“这是个很好的开端。”cohen表示,这些系统将在今年7月面临更加综合性的评估。
cohen表示,今年夏天即将来临的还有一场设计大赛,届时程序员将要设计一个ras引发的癌症通道的单一参照模型,以替代研究团队目前正使用的多个模型。他表示,设计一个包括蛋白质在ras通道中的哪些地方、如何互动的连贯模型对于让计算机生成假说非常关键。
明尼苏达州明尼阿波里斯市拉里·亨特智能信息流技术公司计算机生物学家larry hunter说,建造一个真正可以生成科学观察力的系统并不容易。作为其中一个团队的共同首席研究员,他表示,人工智能协会在建造能够开发出有用的随机假设的系统方面,没有一个强大的跟踪记录。但他表示,分子生物是个良好的试水领域,因为该领域常识发挥的作用很小;大多数只是技术性的,可以在课本和论文中获取到。
其他的一些研究人员则质疑“大机械装置”项目是否在通过合理的途径研究复杂的系统。“大机械装置”项目试图绘制微观层面的机械原理,但复杂系统的特点是集群行为。未参加此项目的马萨诸塞州新英格兰复杂系统研究所复杂系统研究员yaneer bar-yam说:“期待合成细节告诉我们想要知道的知识,并不合理。”
但cohen却对该项目信心十足。“darpa探索的是革命性的技术。”他说,“有些时候,这些技术会转化成实践应用;有些时候,它们会向这个世界展示哪些事情是可行的。”
编辑:张海云