宁德生活圈

网站首页 手机 > 正文

真实大数据的微妙艺术递归制药映射身体

2021-10-16 05:59:25 手机 来源:
导读 通过一种叫做细胞绘画的技术,递归制药公司正在创造一个真实的身体细胞形态的图片。但这只是开始;真正的困难是知道如何通过机器学习提出关

通过一种叫做细胞绘画的技术,递归制药公司正在创造一个真实的身体细胞形态的图片。但这只是开始;真正的困难是知道如何通过机器学习提出关于图像的问题,以及如何管理千兆字节的数据。当机器学习应用于特定的工业领域时,定义目标是最突出的问题之一。你想知道什么?在生物科学领域,这可能是一个非常困难的问题,因为六年前,初创公司Recursion Pharmaceuticals从经验中学到了很多。数据量正在迅速膨胀,知道如何建立一个可以从数据中获得洞察力的目标是一门艺术。

“这仍然是一个大数据问题,”总部位于犹他州盐湖城的递归公司的首席技术专家梅森维克托斯说。他在接受ZDNet采访时表示:“多年来,我们选择了大量的生物技术来开发我们的平台。”这带来了挑战。

该公司每周收集65TB的数据,并将其存储在谷歌的云计算设施中。递归在四年多一点的时间里积累了大约2.5 PB的信息。

试着递归地做两件互补但雄心勃勃的事情。名义上,递归的使命是找到治疗疾病的方法,从而减少昂贵的开发渠道。

细胞绘画的递归Image-2019.png。

用各种荧光染料染色的人类肾脏细胞图像。在递归采用的细胞渲染方法中,目标是识别几个或几千个可以被机器学习程序分析的细胞特征。

递归药物

联合创始人兼首席执行官克里斯吉布森(Chris Gibson)在接受ZDNet采访时解释称,该公司的“20年”愿景是能够“预测任何大小的分子对任何国家的影响”。细胞。这就是他和获奖者所说的全人类细胞生物学的地图,尽可能多的细节关于细胞的“形态”,它们的形状和结构。

递归为这个非常大的数据科学项目赚了很多钱。最近,它在由英国投资基金Baillie Gifford牵头的C系列融资中获得了1.21亿美元的风险投资,迄今为止总投资额为2亿美元。

在管理创建所有人类细胞图的雄心勃勃的项目时,寻找治疗方法是一种平衡的行为,其中目标函数可能很简单,但数据管理可能非常复杂。

此外:人工智能先驱Sejnowski表示,这一切都是为了逐渐改变。

大数据

2019年数据与人工智能市场格局:下一波混合涌现。

数字转型:银行如何利用人工智能、大数据和聊天机制创造新服务。

将大数据转化为业务见解。

黑客攻击:数据消失几十年,无法恢复(ZDNet YouTube)。

FaceApp是一个测试。我们失败了(CNET)。

作为数据科学家如何失败:3个常见错误(TechRepublic)。

它始于一个名为“细胞绘画”的程序,该程序覆盖了荧光模具中尽可能多的细胞,以显示细胞结构的所有方面。细胞绘画是由麻省理工学院和哈佛大学的安妮卡彭特在马萨诸塞州剑桥开发的,他在那里经营卡彭特实验室。她创建的软件“CellProfiler”可以免费下载。

绘制细胞图超越了细胞的典型“筛选”,旨在挑出一些特征。相反,创建细胞“轮廓”的过程量化了数百或数千个关于细胞结构的特征,然后可以将其作为输入引入机器学习模型,进而发现随扰动而变化的有趣特征。干扰可能包括改变细胞核糖核酸,以了解它如何改变细胞结构。

吉布森在犹他大学攻读博士学位时第一次发现了卡彭特的方法。“这是一种奇怪的细胞拍照方式,”吉布森说,但这对他来说也是一个启示。他回忆说,利用蛋白质印迹技术探索了一种叫做“大脑海绵状血管畸形”的疾病,即CCM,在这种疾病中,大脑中的血管发生了变形,这可能会导致相当于小中风的情况。蛋白质印迹法很麻烦,一次只能检测一种蛋白质。

递归首席执行官克里斯吉布森在攻读博士期间,遇到了各种顿悟,遇到了安妮卡彭特的染色细胞创建大量剖面的技术。在此基础上,他创立了这家公司,更多关于细胞形态的信息可以为疾病提供新的线索。

递归药物

“我们已经熟悉了卡彭特的方法,她可以将东西送入机器分类器,”他回忆道,并可以同时自动检测各种分子。吉布森和他的导师、当时大学的医学和生物学教授李院长尝试了这种方法。当将机器学习应用于信息丰富的图像时,他说,细胞绘画可以证实吉布森在CCM痕迹中的预感,但是,“它看到了我没有看到的东西”。吉布森和李共同创立了递归,前提是细胞丰富的图片可以产生原创性的见解,但常规的筛选不能。

。第三位联合创始人,生物信息学家Blake Borgeson加入了他们的行列。

Carpenter是该公司的科学和技术顾问。其他顾问包括着名的深度学习研究员Yoshua Bengio,蒙特利尔着名的MILA机器学习机构负责人,以及今年ACM图灵终身计算机科学成就奖的三位获奖者之一,以及Facebook的Yann LeCun和大学的Geoffrey Hinton多伦多

从细胞绘画中,应用机器学习来梳理一些可能很重要的基本关系。“重要的是你训练网络的任务是什么,你如何找到你关心的事情,”CTO Victors说道,他拥有杨百翰大学的数学硕士学位,曾担任过数据科学家。初创公司。

另外: Instagram预测流感。谁知道?我知道,那是谁

一个直截了当的问题是,这些细胞看起来一样吗?“你向网络提供三胞胎的细胞,其中两个应该是相似的,第三个应该是不同的,”他解释道。三元组是将细胞绘画的特征编码为“嵌入”的结果,或者是Victors将它们置于“潜在表示空间”中的结果。可以使用一些非常简单的统计方法,例如测量不同细胞的特征之间的“角距离”。

他说:“我们在几何学建模方面发现了很多牵引力。” “与欧几里德距离相反,角距离确实是一个有用的指标。​​”

但仅仅测量特征是不够的,这就是为什么公司维持一个“湿实验室”,在那里可以在体外试验扰动以观察给定分子如何响应化合物。Victors表示,从巨大的数据中汲取意义的舞蹈是一件大事,它使公司在生物学和医学的AI中脱颖而出。

Victors观察到,“药物发现中的其他群体被手铐绑在他们无法控制的现有静态数据集上”,而递归正在不断产生新的数据。因此,他坚持认为,公司不仅可以培训,还可以更加谨慎地验证机器学习模型。

“它归结为能够以极其巨大的规模生成数据,并在紧密的反馈循环中生成数据,”他说。“它通常涉及数据科学家,机器学习专家和生命科学专家之间的紧密合作,以弄清楚我们如何实际模拟生物学本身,以及这对分析的影响是什么我们采纳。“

“从商业角度来看,它让我们能够以一种非常有效的方式迅速追踪潜在的候选药物,”Victors说。“我们可以进行实验来生成数据,以确定我们是否认为这种化合物具有潜在的有效性,然后如果我们这样做,可以通过增加剂量和更多重复进行更深入的研究,以验证其他疾病试剂,看看我们是否在那里看到类似的功效。“

“我们不必外包所有这些,”他指出,体外测试和筛选,“因此我们可以消除更长的等待时间和它带来的成本。”

递归首席技术专家梅森·维克托斯(Mason Victors)不仅要教导每周收集的65TB数据的含义,还要管理积累的2.5PB生物数据库存。

递归药物

Victors表示,它不仅仅是一个湿实验室,还有“必须构建的所有工程基础设施来处理大量的流数据”,换句话说,大数据挑战。“这是关于如何处理数据,将其传输到云,将其存储在那里,它是关于具有可扩展的分布式系统,然后以适当的格式返回数据以进行一次性或临时分析 - 所有这些由于我们正在努力实现的目标的总体范围和雄心,这也是一个巨大的挑战。“

控制数据非常重要,因为公司可以留意数据分布随时间的变化。“当我们改进我们使用的生物工具时,为了更加具体和有选择性,这可能导致与过去不同的分布,”Victors观察到。了解数据的“复古”,如果您愿意,公司可以调整其分析,以考虑这种偏差可能如何影响机器学习。由于大部分AI都受到数据中小的统计变化的影响,因此认识到诸如分布变化之类的事物可能会在模型中获得有用的分析。

大数据工作的一个结果是一个新的公开数据集,Recursion 在5月发布,称为RxRx1。它包含300千兆字节的超过100,000张“代表不同生物背景的图像”。递归希望数据集能够刺激研究人员开发新的机器学习技术。它是在当月的学习代表国际会议上宣布的。

递归在今天的机器学习中需要做的大部分,例如三胞胎的角距离,不需要深度学习的AI,相反,它可以用非常基本的工具来完成。“深度学习方法不是我们在这里所做的大部分工作,”Victors说。“我们在那里找到了互补信号,但标准方法可以让你获得90%的信号。”

他指出,深度学习存在问题。“变分自动编码器”是一种流行的无监督深度学习形式,可能会产生问题,因为它没有足够的选择性。

“任何时候你生成生物数据,都会产生批量效应,”Victors指出。“这些只是由于实验过程本身造成的滋扰因素 - 比如,此时温度不同,湿度不同,或者细胞处理的时间比之前的时间长。”

变量自动编码器“也将学习如何在表示中表示那些你不想要的批处理效果,”他指出。

扰动给定分子并观察发生的事情的过程听起来有点像机器学习领域中的“强化学习”。正如Victors所描述的那样,有一种“状态 - 行动”模型,与强化学习中的概念相同。“我们使用我们的图像来表示细胞状态的快照,然后我们可以通过引入扰动来对这些细胞状态起作用,并学习行动的意义。”

但是,他急忙补充说,它“在很多方面与强化学习完全不同 - 它不仅仅是学习状态 - 行动关系,我们还必须确保进入这些功能的数据配对得恰到好处。”

特色

人工智能与商业的未来

人工智能与商业的未来

机器学习,任务自动化和机器人技术已经广泛应用于商业领域。这些和其他人工智能技术即将繁衍,我们将研究组织如何最好地利用它们。

阅读更多

他认为,从长远来看,在创建统一的细胞生物学图谱方面有深层学习的作用。

“我们希望深度学习真正有效的一个领域是创建一个通用的潜在表示空间,一个所有数据所在的空间,你没有学过你不想知道的东西,只学习你想要的东西知道,跨越时间和跨越不同条件的实验,距离和相似性意味着在这个空间中的某些东西 - 这仍然是为此目的进行积极研究的领域。“

首席执行官吉布森说,所有这些都可以追溯到发现的临床效用。他指出,“试剂并不完美,它们很杂乱,我们必须有一个非常严格的门槛”,对计算机发现的内容具有统计信心。“我担心这个行业有很多过度适应的事情,”他谈到生物学中的机器学习。“有很多机器学习应用于静态的公共数据集。” 吉布森表示有信心该公司没有陷入这个陷阱,部分原因是该公司已经回顾性地将其工具应用于一些已知数据,并提出了与已知数据相匹配的药物与疾病之间的关系,显示该过程有效。

正如他所说,真正的考验在于人,这需要资金和伙伴关系。利用它的资本,Recursion正处于CCM治疗的第一阶段临床试验中,当Gibson有关于细胞绘画和大数据的顿悟时,他正在研究这个问题。该公司还正在准备一项治疗神经退行性疾病(II型神经纤维瘤病)的II期临床试验。(关于Recursion管道的信息可以在公司网站上找到。)

就试验成本而言,这类疾病的资源密集程度较低。更大的项目需要更大的口袋,吉布森说,未来两年公司临床结果的巨大收益可能来自与肿瘤学领域的大合作伙伴进行的一项研究。“我们认为它有机会超越其他两个。”

Gibson认为,选择合作伙伴并单独进行某些调查是灵活性,反映了平台的价值。了解数据的特性,并知道如何提出数据的问题,具有可以通过多种方式开采的价值。


免责声明: 本文由用户上传,如有侵权请联系删除!


标签: