跳到内容
    logo-janssen-white

    以10倍的速度开发深度学习模型,为癌症提供精准医疗

    2020年10月6日,强生公司下属杨森制药公司的数据科学家Peter Shen表示 & 约翰逊提出了”基于多gpu机器的组织病理学计算机视觉深度学习模型在面向开发者的英伟达 GPU技术大会(GTC)上. 与Peter一起的还有Katherine Shakman, Domino数据实验室的现场数据科学家. 这篇文章提供了他们谈话的重点,以及一个链接到整个会议录音.

    杨森的数据科学

    杨森公司是强生公司的制药部门 & 约翰逊,一家跨国医疗保健行业的领导者. 该公司将计算数据科学研究应用于免疫学领域, 化学成分, 以及开发新药的生物学, 优化临床试验, 以及自动化诊断技术.

    使用Domino和英伟达, Janssen加速了深度学习模型的训练, 在某些情况下,速度会快十倍, 通过全玻片图像分析,更快速、准确地诊断和表征癌细胞. 这是中国努力提供精准医疗的关键一步. 根据早期的结果, 彼得预计一旦在临床环境中使用, 一种模型将提供四倍的患者人数,可以筛查为阳性的临床试验资格.

    会议总结

    人工智能可以改变医疗保健, 为研究人员提供了新的见解,以发现新的治疗方法,并为患者提供精准医疗. 但这样做需要分析大量数据集的能力. 在他的谈话中, Peter深入研究了Janssen如何使用深度学习来分析活检和手术标本的全幻灯片图像(称为组织病理学图像)。. 每张图片的大小通常在2g到5g之间, 大多数临床试验都会产生数千张这样的图像. 彼得说,大型临床试验可以生成多达10万张图像.

    通过训练深度学习模型,在这些图像的细胞水平上区分患者之间的差异, 研究人员可以更好地确定哪些患者是可行的治疗目标和临床试验资格,或预测患者对给定治疗的潜在反应.

    如果百汇游戏官网下载能把这个模型应用到诊所, 百汇游戏官网下载就能将百汇游戏官网下载在临床试验中筛查为阳性的患者数量增加4倍.

    Peter Shen,数据科学家,杨森制药

    为了支持这项工作, Janssen为深度学习和分布式训练构建了统一的框架, 使用Domino数据科学平台为数据科学家提供对各种工具的自助服务基础设施访问, 语言, 数据集, 和可伸缩的计算, 包括英伟达 gpu, 在大数据集上训练深度学习模型的关键是什么. 在他的讨论, Peter分享了Domino如何帮助团队更快地开发深度学习模型, 在某些情况下,速度会快10倍. (当然, 将这些模型投入生产将需要数据科学之间强有力的合作, IT和商业领袖. Peter与来自易捷航空和PointRight的数据科学领导者在他们的网络研讨会上讨论了这一领域的挑战和最佳实践。跨越过道.”)

    在统一框架方面, 彼得强调了四个好处, 包括以下能力:

    • 用不同的超参数并行进行多个实验. 在过去, Peter说,在一台GPU机器上用一个小数据集训练模型可能需要9天的时间. 对于大型数据集,这变得更加具有挑战性. 在一个例子中, 研究人员发现,由于内存限制和充分利用多gpu计算资源的挑战,训练卷积神经网络模型来分类图像甚至是不可行的.
    • 复制的结果 因此,研究人员可以将一个队列患者的结果转化为其他患者或其他设置.
    • 跟踪每个模型的指标,并将模型存储在一个集中的位置 因此,他们可以分析模型是否正确工作,并确定正在使用的确切数据集.
    • 轻松地将模型集成到数据科学工作流程中 (换句话说,使研究可复制和可重用,以便它们可以跨多个业务用例使用). 对于Peter来说,这包括减少只对一组实验有效而对其他实验无效的特别代码库的使用, 并确保模型是可解释和可解释的.

    百汇游戏官网下载建立了一个灵活的平台,真正允许百汇游戏官网下载迭代不同的模型训练, 这也是一种分布式的方式.

    Peter Shen,数据科学家,杨森制药

    彼得还举了三个例子来说明这种方法是如何帮助加速研究的:

    1. 将深度学习模型的训练时间减少10倍. 例如, 在一个案例中,当研究人员将模型训练扩展到六个gpu而不是一个gpu时,他们几乎实现了线性加速. 在另一个例子, 他们减少了每个阶段的训练时间, 从两小时到两分钟, 通过试验不同的图像格式.
    2. 优化模型 具有在模型训练和验证中使用更多图像的能力.
    3. 更好的预测临床试验合格性,合格患者增加4倍,基于在一次实验中实现的结果. “如果百汇游戏官网下载能够将这种模式应用到诊所, 百汇游戏官网下载就能将百汇游戏官网下载在临床试验中筛查为阳性的患者数量增加4倍.有了这些结果, 团队正在将概念验证推进到下一个开发阶段, 其中包括额外的验证和额外数据的收集, 为治疗资格预测创建一个非常健壮和可推广的模型,可以跨用例使用.

    对扬声器

    speaker-peter-shen他在杨森制药的工作, Peter Shen通过数据驱动的决策帮助研发新药. 詹森之前, 彼得是丹娜法伯癌症研究所的研究生研究员, 在Aimsio和Billion 健康担任百老汇官网经理, 以及加拿大BC癌症机构和加拿大公共卫生局的生物信息学合作项目.

    speaker-katie-shakmanKatherine Shakman授权并支持各种行业的数据科学团队. 凯蒂的背景是健康数据科学和神经科学, 她相信,计算工具将改变百汇游戏官网下载与世界和彼此互动的方式, 尤其是医疗保健和生命科学领域. 她正在努力帮助这种转变造福社会. 在她的博士研究中,凯蒂利用神经成像和行为分析来研究昆虫中调节注意力和记忆的神经回路之间的相互作用. 她在实验设计中运用她的技巧, 解决问题, 项目管理, 分析, 机器学习, 数据可视化和技术交流将影响未来的技术.

    要了解更多

    看网络研讨会”基于多gpu机器的组织病理学计算机视觉深度学习模型来了解更多关于Janssen面临的关键技术挑战,以及他们如何解决这些挑战.