对话Certara:AI如何赋能生物医药?

2024-07-02 08:45:19
图片


随着对药物发现和开发需求的不断增长,AI正在制药领域展现出巨大潜力。


Grand View Research 的数据显示,2022 年全球药物发现领域的 AI 市场规模为 11 亿美元,预计从 2023 年到 2030 年将以 29.6% 的复合年增长率 (CAGR) 增长。布局AI制药的企业也在不断增加,截至2023年底,全球共有897家AI制药企业,国内相关企业占到93家。

作为全球生物模拟科技行业巨头,Certara 致力于通过其独特的基于模型软件的药物开发组合、监管科学和各类市场准入方案来优化药企的研发生产力、商业价值及患者预后。事实上,自 2014 年以来,所有获得美国 FDA 批准的新药中,90% 以上都得到了 Certara 软件或服务的支持。Certara 的客户遍布 70 个国家地区,涵盖 2,300 多家生物制药公司、学术机构以及监管机构。

近日,同写意就AI赋能生物医药发展对话Certara产品总监Sean McGee。



图片
Sean McGee
Certara产品总监

Sean 在制药和生物技术行业拥有丰富的经验,致力于数据科学、机器学习和其他计算方法领域,并正在从根本上改变目标识别、先导设计、模式、开发方法以及由此带来的客户体验。Sean 毕业于 University of Notre Dame,获得 Science and Technology Entrepreneurship 硕士学位。



同写意:从您的角度来看,人工智能在生物医学行业的主要挑战和机遇是什么?

Sean:我认为,人工智能最令人振奋之处,在于人工智能模型已经变得相当普及。这类模型被统称为GPT,或生成式预训练转换器。说起GPT,大家最耳熟能详的便是ChatGPT。它为我们提供了与计算机对话的全新体验,你只需提出需求,它就能为你创作一首诗歌,或是像Snoop Dogg那样用通俗易懂的方式解释量子物理学等复杂概念。因此,这些技术的强大之处在于它们能够非常出色地处理非结构化文本,而这恰恰是许多传统的人工智能模型和方法长期以来难以攻克的难题。

大部分GPT模型主要依赖于所谓的结构化数据,这些数据就如同我们经常在数据库中看到的信息一样。这类数据往往遵循一种统一的格式,例如大家非常熟悉的Excel电子表格,里面有清晰明确的行和列。在使用这类数据时,我可以明确地指示计算机去指定的位置找到某个数据属性,进行特定的处理,然后放置到指定区域。对于计算机来说,处理这类信息是非常得心应手的。

然而,人类往往不太喜欢处理这类结构化数据。比如,如果我给你一个满是数字、行和列的Excel电子表格,然后要求你:“从这些数据中提炼出有价值的信息。”通常,我们最后会选择制作一个图表或某种可视化形式,这样通过直观的展示,我们能够更容易地发现数据中隐藏的各种趋势和规律。

这也正是为什么数据会分为两种不同的类型。一种是结构化数据,即计算机擅长处理的数据;另一种则是非结构化数据,如期刊论文、Microsoft Word文档或PDF文档等。这类数据更符合我们人类的阅读习惯和思维方式,但计算机处理起来却相对困难。因此,在很长一段时间里,人工智能在处理非结构化数据方面都显得力不从心。据一些咨询公司估算,在多数公司中,非结构化数据所占比重竟高达80%,这无疑给人工智能的应用带来了极大的挑战。

现在,我们突然间能够触及到那些用普通的人工智能难以分析或解读的新领域。例如,若需进行类似文献综述的工作,或从这些非结构化来源中提炼信息,往往需要人们花费大量时间去逐篇研读。无论是阅读50篇、100篇,甚至是上千篇论文,都是一个既耗时又费力的过程。假如我们能够找到一种更为高效的方法来运用这些模型,那么这些占据众多公司近80%的信息量将瞬间变得可检索、可分析。这意味着,我们可以开始大规模地利用这些非结构化的信息,就像过去10到15年间我们运用其他类型的信息一样。无论是大数据分析还是其他应用,现在都已经成为了可能。

不过,这种方法也面临着一些挑战。许多GPT模型在缺乏正确的结构或数据访问权限时,会遭遇多种挑战,这在一定程度上削弱了科学家对这些模型实际功能的信任。因此,在应用这些模型时,我们必须确保它们具备合理的结构和数据访问权限,以确保其功能的准确性和可靠性。

首先,GPT模型的一大缺陷在于它们容易产生幻觉,即无意识地捏造事实,这种凭空捏造的情况在科学环境中几乎无法容忍。对于科学家而言,他们需要确保所获取的信息真实可靠,了解信息的来源和产生背景。然而,许多公共GPT工具在设计时并未充分考虑到科学严谨性和结构合理性,这导致从模型中提取信息而不进行验证会进一步削弱科学家的信任。因此,我们Certara.AI公司的目标是探索其他方法来验证这些信息,而不仅仅是简单地展示给我们的信息,以确保科学家能够信任并有效利用这些模型。

另一个重大挑战在于对这些信息的管控缺失以及对模型使用方式的控制不足。生命科学公司在使用公开的GPT模型时,必须充分信任其提供信息的模型或应用程序能够得到负责任的利用,因为这涉及到他们极为关键的知识产权。因此,确保信息的安全性和模型使用的合规性成为了当前亟待解决的问题。

因此信任和可控是生命科学公司在使用这项技术时面临的两大核心问题,这也成为他们难以着手应用该技术的主要原因。尽管这项技术拥有众多令人兴奋的应用前景,我们会在今天的讨论中详细探讨其中一些,但如果没有有效的数据控制,生命科学公司将无法充分利用这些优势。据估算,目前约有73%的生命科学公司尚未制定完善的人工智能应用策略。而这正是我们Certara.AI团队在过去六七年间持续努力攻克的难题,我们的前身是一家名为Vyasa Analytics的公司,一直致力于解决这些挑战。

我对我们取得的全新进展深感振奋。能够为用户提供可信和可控的人工智能服务,为我们带来了巨大的机遇。这样,当我们携手业内的众多合作伙伴、客户和潜在客户共同前行时,就能以全新的方式为他们带来技术革新,确保他们对自己的数据使用方式拥有充分的信任与控制权。

这个时代充满了无限的激情与可能性。虽然这项技术极为强大,让整个行业都热衷于探索其应用方法,但我们同样需要确保在使用时保持高度的责任感。毕竟,我们致力于为患者设计关键药物,每一个决策都关乎着患者的健康与福祉。若忽视了信任与可控这两大要素,可能会引发一系列严重问题。因此,我们再次强调,需保持对此的高度关注,并为企业提供所需的能力,使他们能够信任并验证从模型中获取的信息,同时掌控这些信息的使用方式。

同写意:为什么 Certara.AI 可以解决其他平台无法解决的限制,Certara.AI 又有什么不同?

Sean:我们最为重视的是软件架构的设计方式。我们提供的远不止是一个GPT模型或任何其他人工智能模型,而是一个完整的软件解决方案。在架构设计上,我们致力于将模型、支持模型运行的所有软件以及专为客户打造的应用程序完全部署在其内部的防火墙之中。这确保了所有数据均安全地留在客户的IT环境中,不会泄露到外部空间。在这样的架构下,企业能够完全掌控所使用的模型类型以及这些模型如何处理所展示的数据。这种全方位的掌控不仅保障了数据的安全性,也为客户提供了完整的软件环境。客户可以清晰地了解到信息始终在防火墙内得到保护,同时他们也具备了对模型的完全控制权。这意味着,如果他们希望基于自己的数据重新训练模型,完全可以做到,且这样的训练过程仅限于他们自己的版本,不会与其他公司共享。因此,他们无需担心数据如何被使用或重复使用的问题。所有数据均安全地存储于客户自有的环境中,不论是高度安全的托管云环境还是私有的服务器中。我们的核心任务便是将数据与其所在位置无缝连接,确保数据的处理与分析全程都在客户可控的范围内进行,从而充分保障数据的完整性与安全性。

同写意:既然我们已经确定人工智能是解决问题的先进数据科学工具。我们又能在哪里以及如何在新药研发中应用这种强大的工具呢?

Sean:人工智能在生命科学的研发周期,特别是在发现阶段,具有多样化的应用方式。其中,尤为关键的是对小分子或生物药物特性的预测。我们的研发过程起始于一个庞大的设计库,涵盖多种分子、潜在生物序列及不同治疗模式的研究,旨在找到针对特定疾病的有效治疗方法。鉴于研究范围的广泛性,我们初期会进行大量、多样的潜在药物实验,这些实验通常更加高效且成本较低。

随后,我们会仔细分析实验结果,筛选出最有效的药物,并推进至下一阶段进行深入探究。通过不断重复实验与筛选的过程,我们逐步缩小研究范围,直至确定最具潜力的候选药物。然而,在此过程中,我们面临的挑战之一是,某些药物的信息可能已被测试并发表在学术文献中。为解决这一问题,我们可以利用历史数据进行预测。例如,公司其他实验室在过往项目中积累的类似药物实验数据,可为当前新药的行为预测提供宝贵参考。通过这种方式,我们能够更有效地利用已有资源,加速研发进程,为生命科学领域的发展注入新动力。

然而,这也引发了一个潜在问题:由于实验的先后顺序,那些在后期阶段表现卓越的药物可能因此被忽视。为此,我们致力于确保在药物开发的初期阶段,研究人员能够获得所有可能的相关信息。这些信息可能分散在学术文献中,通过人工智能,我们能够迅速检索并分析与特定分子相关的数据,进而为化学家提供有价值的参考。同时,我们还可以利用这些化学结构信息,预测那些尚未进行测试的关键特性。总之,我们的目标是确保负责评估分子并决定哪些应进入下一研发阶段的团队能够全面掌握信息,从而做出明智的决策。这是一个充满无限可能的领域,我们相信人工智能将在此过程中发挥至关重要的作用,为决策奠定坚实的基础。

在化学领域应用人工智能时,一个核心挑战在于确保训练模型的数据与正在测试的新分子具有相关性。我们不能简单地训练一个机器学习模型,然后向它提出与主题或分子无关的问题,因为这将导致预测的不准确。为了确保模型的准确性,我们需要为药物化学家(无论他们是否是数据科学家)提供有效的方法,来判断模型是否具备正确信息来预测特定分子的性能。

此外,数据点有关的信息同样重要。科学家们不仅关注数据本身,还希望了解数据背后的情境和局限性,以便做出更明智的决策。因此,我们需要确保模型学习的基础数据质量高且富有信息,从而使模型能够做出更精准的预测。基于高质量的数据和模型预测,我们可以在实验室中进行实际测试,并比较实验结果与预测值的接近程度。这种比较不仅有助于验证模型的准确性,还能为科学家们提供宝贵的反馈,以进一步优化模型和提高预测精度。

如果预测精准无误,我们便能充分利用这些信息,通过持续迭代的方式,根据每次新的实验数据对模型进行再训练。如此循环往复,模型得以不断优化,更好地适应特定实验室的化学环境,从而进一步提升预测精度,助力未来的研究工作更高效进行。此外,我们还依托丰富的历史数据,对新兴事物进行精准预测。

你可以这样想,当你上学时,我们可能会对一些知识有所了解,但到了考试时,有时成绩并不理想。这时,我们会深入学习,查找自己的不足之处,并从中汲取新知识。这样,下次考试时,我们通常会表现得更好,对吗?同理,在人工智能领域,我们也在帮助模型通过主动学习的方式不断进步。我们利用新数据来影响模型的工作方式,确保它能够再次精准地预测我们的行动。因此,对模型进行持续的训练和再训练,可以使其性能不断优化,变得更加出色。

同写意:Certara.AI 能否通过与临床结果数据库的整合,为临床试验团队提供改进试验设计和预期结果的洞察力?能否与我们分享一些实例?

Sean:临床结果数据中,大量关键信息散见于各类科学文献之中。为充分整合利用这些数据,Certara公司精心研发了一系列数据库,命名为CODEX数据库。这一数据库系列覆盖了60种不同的适应症(疾病领域),为医学研究和临床实践提供了强大的数据支持

过去的五到八年中,Certara的一个专业团队致力于阅读各类疾病临床试验数据的新进展,这确实需要他们投入大量的时间和精力去深入研究这些信息。但如今,得益于我们精心构建的数据库,这一过程已经得到了极大的优化。现在,临床药理学家能够利用基于模型的荟萃分析等先进方法,轻松查阅和分析这些信息,进而评估影响临床试验总体结果的各种因素,如药物种类、剂量大小、患者人群特点等。更值得一提的是,这些数据库中的信息都是由Certara的专家团队精心整理和维护的,确保了数据的准确性和全面性。

因此,未来的临床试验可以从中汲取丰富的经验和教训,以提高研究的效率和准确性。据我了解,Certara的临床数据库是目前市场上唯一具备如此广泛和深入信息的数据资源,这为医学研究和临床实践提供了强有力的支持。

对于制药公司而言,使用这些数据既是一个挑战,也是一个巨大的机遇。公开数据提供了丰富的学习资源,但要想实现更高效的研究与决策,制药公司仍需建立自己专属的数据集 — 我们可以称之为CODEX数据集。这能够帮助他们将潜在药物的表现与已有的临床试验数据进行匹配,从而灵活调整试验设计的重点。在利用现有数据优化试验设计的过程中,制药公司面临的一大挑战在于数据的非结构化特性。这些数据可能散见于海报、内部数据库或其他文件中,难以直接进行比较和分析。因此,制药公司需要投入大量人力,手动整理这些数据集。

在这个环节,人工智能可以发挥重要的辅助作用。它能够帮助研究人员迅速定位相关信息,从非结构化数据集中提取有价值的信息,并与专家紧密合作,共同构建新的CODEX数据集。通过人工智能与专家团队的协同工作,制药公司可以更加高效地利用数据资源,推动药物研发进程,为患者带来更好的治疗选择。临床药理学家可将这些数据与我们在CODEX数据集中整合的公开数据进行融合,从而更全面地理解影响临床试验设计的多种因素。这样一来,他们设计的试验将更趋近于安全且有效的长远目标。在此过程中,人工智能发挥了至关重要的作用,协助我们高效地阅读与分析论文,解放了科学家们的时间。

虽然科学家们仍需要参与到模型的校验过程中,但他们可以将原本用于阅读论文的时间投入到更具创造性的工作中。因此,对于临床药理学家、其他类型的科学家以及参与临床试验的医生而言,人工智能不仅是他们的得力助手,更是让他们能够专注于核心工作、同时获取必要决策信息的重要伙伴。

我们期望科学家能够充分信任模型输出的结果。为此,我们并非仅仅向模型提供文件并要求其返回一份所需信息的电子表格,尽管这是人工智能表面的功能之一。更为重要的是,我们需要确保研究人员能够快速验证这些信息的准确性和可靠性。因此,我们通常会采取一种方法,也建议许多客户在使用这些模型时这样做:不仅要求模型返回答案,还要返回答案在文档中的具体位置,即答案的来源。我们将这一过程称为“检索增强生成”。

通过这种方式,我们将模型聚焦于特定的信息集合,然后让它同时输出人工智能生成的答案以及该答案所处的上下文环境。这样,科学家就能更迅速地进行核查,确保答案的准确性和相关性。当然,尽管有了这样的辅助工具,检查过程仍然是必不可少的。因此,我们仍然需要科学家的参与,以确保整个过程的科学性和可靠性。

我们在这里所从事的工作至关重要,必须确保所设计的临床试验既安全又能有效证明疗效。为了做出这些关键决策,我们必须确保所依赖的数据具有很高的质量,能够为决策提供坚实支撑。毕竟,数据的质量直接关乎试验的成败,乃至患者的安全与福祉。

同写意:如何利用人工智能应用于法规撰写并重塑药物研发?

Sean:我认为,最重要的一点在于,我们的目的并不是取代科学家的地位。相反,我们的目标是让他们能够将更多精力聚焦于工作的核心与重点,尽可能减少琐碎繁杂的劳作。医学撰写过程中,往往涉及大量的信息复制与粘贴工作,如试验标题的重复使用等。这些重复性的任务占据了撰稿人大量的时间,而我们的愿景是让他们从这些繁琐的劳作中解脱出来,从而更专注于创造性的思考和深入的研究。

以撰写临床研究报告为例,这样一份长达百余页的文件中,可能需要在七八个不同位置填入研究名称或标识号。通常,这需要我们不断地手动输入或复制粘贴,不仅过程繁琐,而且极易引发厌烦情绪。我相信,你在工作中也常遇到此类重复性的任务,尽管它们必不可少,但确实单调乏味。

更为关键的是,这种机械性的工作容易引发错误。有时,我们可能会不小心遗漏了填写研究名称或编号的某个位置,若这种失误发生在监管领域,后果将十分严重。一旦我们将含有错误的报告提交给监管机构,他们通常需要花费数周时间进行审核,最终却可能因为缺少某些关键信息而要求我们重新提交。这样一来,原本宝贵的几周时间就这样白白浪费掉了。因此,减少或避免这种重复性工作,对于提高工作效率和减少失误至关重要。

我之所以提出这个问题,是因为在谈及医学撰写时,很多人误以为可以简单地将一堆文件交给GPT,然后命令它“给我写一份临床研究报告”或“给我写一份IND”。然而,这种做法并非我们真正倡导的。

相反,我们强调科学家们的参与至关重要。我们的目标是协助他们快速生成这些信息的初稿,可能是一稿或两稿,从而为医学撰稿人提供一个基线内容,便于他们在此基础上进行验证和修改。GPT在编辑方面有着独特的优势,例如调整文章风格、修正时态等。这些功能可以极大地加速文档的制作过程。

然而,我们的最终目标并非仅仅生成文档,而是让GPT成为内容作者的得力助手——就像多了一个已经详细阅读过信息并为你撰写初稿的同事。这样一来,作者们可以更快地进入编辑阶段,从而提升整个写作过程的效率与质量。

这并非意味着文件生成后,简单递交监管机构便万事大吉。我们聚焦于GPT的强项,并构建了一套机制 — 无论是通过我们在 Certara 开发的应用,还是其他开发者正在构建的工具 — 旨在让信息利用和文档编写过程更迅捷、更高效。所有努力的核心都是为了让人们的生活更加便捷,从而更快地向监管机构提交更优质的文档,并最大程度减少繁琐的复制粘贴工作。

AI绝对是一个高效助手,它的智能程度令人赞叹。尤为出色的是,它打破了传统人工智能作为“黑盒子”的局限。以往,我们输入信息,模型输出内容,但过程却神秘莫测。而现在,我们可以清晰描述信息提取、转换以及生成内容的过程,例如文档某一部分的撰写,并邀请人工进行验证。这种往复的过程,正是行业研发流程中应当采纳的正确方法。因为,在CSR、临床试验方案或IND提交等领域,所需的数据千差万别,错综复杂。所以,先进的技术应当聚焦于提供初步的草稿或片段,而非整篇文章,从而确保作者能够专注于故事的连贯性和信息的准确性,而非纠结于如何开篇。简而言之,AI是一个推动进程的高效助手。

同写意:您能否介绍一下 Certara.AI 平台在制药行业的一些应用案例和成功故事?

Sean:在我们最近的工作实践中,有两个核心领域表现得尤为出色:医疗事务和药代动力学文献回顾。因此,接下来我们将重点围绕这两个领域展开讨论。说到医疗事务,这无疑是今天采访中大家频繁提及的一个热点话题。该领域的从业者需要广泛涉猎非结构化内容,如论文研读、新闻报道的浏览,以及临床医生发布的药物相关信息等。这些信息可能源于实验室科学家关于某一疾病领域的深入研究,也可能是关于公司正在研发或治疗疾病领域的最新进展,甚至涉及竞争对手的药物情况。这些丰富多样的信息对于管理市场药物至关重要,它们为决策者提供了宝贵的依据。

例如,团队可以利用这些信息发现具有更广泛潜在患者基础的药物,或探讨将现有药物应用于新疾病领域的可能性,实现药物的标示外使用。总的来说,掌握这些信息有助于最大限度地发挥已上市药物的效用和有效性。因此,许多制药公司都配备了专业的科学家团队,负责研读论文、分析数据、制定决策,并根据这些信息为公司的药物研发和市场推广提供有力支持。他们花钱请别人帮他们看文献。

因此,已经形成了一个完整的行业,这个行业中的科学家会定期收到医疗事务团队提供的文献搜索请求,并按照团队的阅读需求筛选出合适的文章。他们每月进行一次全面的检索,筛选出符合标准的最新文章,并投入时间和精力阅读这些文章。之后,他们会对每篇文章进行精炼的总结,并以报告、PPT等形式反馈给团队。

这些总结的信息对于医疗事务团队来说至关重要,因为它们为团队提供了关键的决策依据。之所以会形成这样的行业,是因为阅读科学论文是一项极具挑战性和复杂性的任务,需要具备深厚的科学背景和专业知识。而直到最近,人工智能工具还无法在这一过程中提供有效的支持。但随着技术的发展,相信未来会有更多的工具能够辅助科学家们更高效地完成这项任务。

科学家的工作成本高昂,这主要体现在高昂的报告费用上。每份报告的成本可能高达数万美元,而团队可能每月或每季度都需要进行此类报告,这无疑增加了不小的经济压力。此外,这些报告通常只反映了某一时间点的信息,属于静态快照,无法充分展现数据随时间推移的变化趋势。

为了解决这一挑战,我们的合作伙伴希望我们开发一款名为Signal的应用程序。他们看到了我们在文本分析领域的专业能力,并希望我们能利用这些能力来帮助他们更好地分析和利用科学信息。通过Signal,用户可以进行静态查询和访问标准集合,并可以获取Pubmed、美国专利局或clinicaltrials.gov等来源的最新科学信息。这不仅能帮助他们更全面地了解科学领域的最新动态,还能让他们更深入地分析数据,发现潜在的变化趋势。

我们可以对这些结果进行总结,并基于这些结果运行多种文本分析,如命名实体识别。具体而言,我们可以提取出药物名称、疾病名称、知名主题专家等关键信息,并进行自动化分析。例如,如果我们正在研究某种疾病,而您的药物是该疾病的治疗标准,我们可以进一步分析这种疾病与药物组合之间的引用情况是否随时间发生了显著变化。这样做可以帮助我们及时发现很多医生尝试将您的药物用于新的、未曾考虑过的领域。

比如,我们可能会发现您的药物被用于治疗一种全新的疾病,即便这是标签外使用。此时,您可能会考虑与监管机构沟通,争取让您的药物获得更广泛的批准。这无疑为您开启了一个潜在的全新市场。

通过与我们这位合作伙伴的紧密合作,我们将各种类型的分析和内容摘要功能集成到了一款应用程序中。这款应用旨在支持医疗事务流程,同时对于任何希望把握科学文献发展趋势的个体或组织而言,都具有极高的实用价值。因此,支持医学事务的核心理念就在于解放他们的宝贵时间,让他们能够全神贯注于核心工作,同时实现流程的提速增效。这样一来,他们不仅能更快速地完成任务,而且对整个结果也会更加满意。

另一个重要领域是“暴露包围”的研究,这与我们之前探讨的内容异曲同工,同样是从生物医学文献中提炼关键信息以辅助决策。在药物代谢动力学领域,暴露包围作为一种有效的方法,能够帮助企业准确把握用药剂量。具体而言,暴露包围关注的是如何通过不同的给药方式实现最佳治疗效果。我们可以选择不同的用药途径,如口服片剂、静脉注射、吸入剂或是皮下植入持续释放药物等。然而,关键在于了解药物在体内各器官系统的分布情况,并通过血液检测或尿样分析等手段,精准测量药物在某个特定时间点的浓度。这一研究的核心目标是确定在特定基质中,产生治疗效果所需的药物最低浓度范围。

简而言之,就是要找到那个让患者开始感受到症状缓解的最低药量点。通过深入研究暴露包围,我们能够更加科学地制定用药方案,提高治疗效果,为患者带来更好的医疗体验。

他们渴望探寻的另一个核心问题是,在药物浓度升高至引发不良反应、使你感到不适的临界点之前,究竟可以安全地注射多少药物。为了揭开这一谜底,必须再次深入研究相关论文,浏览并细读这些文献资料,从中提取琐碎的信息片段,并以某种结构化的形式整合起来,以便他们进行切实的评估。这种结构化的信息最终可能会呈现在图表中,以帮助他们明确治疗效果的起始点以及效果逐渐衰减乃至失效的转折点。因此,这一过程并非简单地从文献中抽取几个数字,其复杂程度远超预期。但值得欣慰的是,借助人工智能的力量,我们仍然能够较为轻松地应对这一挑战。

从文献中提取数字信息面临的挑战在于,这个关键数字并非孤立存在。除了这个数字本身,他们还需了解该数字与哪种药物相关联。这个数字反映的是单个患者的治疗情况,还是一类患者的普遍现象?此外,治疗方法是如何进行的?患者是通过口服药片进行治疗吗?他们的服药频率如何?每次的药片剂量是多少?随着时间的推移,剂量是否有所调整?这些信息都与这个数字紧密相连,是理解和分析治疗效果不可或缺的一部分。

为了实现流程的自动化,我们必须妥善维护这些信息的链接。目前,我们正与美国的一些非营利组织合作开展一个项目,主要通过查阅文献来搜集这些信息,并着手构建和维护这些信息之间的关联。仅获得数字本身是不够的,我们需要全面掌握与该数字相关的所有细节。因此,在构建人工智能模型和提出提示及问题时,我们必须确保系统能够提取这些信息,并以保持这些关系的方式呈现。这样,当研究人员阅读和分析这些内容时,他们能够基于完整、准确的信息做出判断和决策。

这项技术真正令人惊叹的地方在于,通过巧妙地设计问题和构建模型间的关联,我们能够实现信息的高效提取与整合。这不仅能快速提取关键信息,还能保持信息之间的内在联系,使整个过程更加迅速和高效,几乎达到了自动化的水平。我们正在探索如何运用这项技术,将原本可能需要数月才能完成的工作缩短至一两天内完成。即便考虑到后续的信息验证环节,整个流程也仅需一周左右的时间,相比原先的三到六个月,效率得到了极大的提升。在此基础上,我们进一步探讨了如何利用患者的人口统计学特征和其对特定药物的行为表现等信息,来制定更为精准的治疗方案。这不仅有助于提升治疗效果,更能为患者带来更加个性化和高效的治疗体验。

我们致力于以对患者最为有益的方式提供治疗,而不仅仅是简单地给药。为实现这一目标,深入理解特定药物如何与人体相互作用的药代动力学机制显得尤为重要,这将为医生制定精准的治疗方案提供有力支持。

同写意:Certara.AI 在制药行业的未来发展计划和创新战略是什么?

Sean:我坚信,Certara在定量系统药理学(通常简称为QSP)这一研究与服务领域的贡献不容忽视。QSP作为一种数学模型,能够深刻揭示个体在患病时,无论是单个细胞、组织集合还是器官及器官系统内部,究竟发生了何种变化。简而言之,QSP为我们提供了一个数学化的视角,让我们能够直观地理解疾病的发展过程。

因此,在阿尔茨海默症或帕金森症等疾病中,我们已了解到这些病症的根源在于大脑中蛋白质的异常聚集,这种现象进而导致神经元的功能受到严重影响。然而,是什么触发了蛋白质的聚集和凝结呢?这就像是身体内部堆积了过多的垃圾,而我们却无法有效地将其排出。又好比家中杂乱无章,我们必须小心翼翼地穿过每个狭小的空间。那么,究竟是哪些因素在促使这些蛋白质凝结成块呢?更重要的是,这些凝结的蛋白质又是如何干扰神经元之间的信号传递,导致神经功能的紊乱呢?

QSP为我们提供了一个强大的工具,通过构建数学模型,我们可以深入理解多种因素之间的相互关系,从而揭示出许多不为人知的秘密。例如,QSP可以揭示特定过程如何导致蛋白质凝结成块,这为我们提供了新的治疗思路:如果能减缓或完全阻止这一过程,身体将有更多时间来清除导致阿尔茨海默症的蛋白质。在这种假设下,我们开始认识到这可能是一种潜在的治疗方法。

不仅如此,QSP还能帮助确定药物作用的靶点,为我们开发新药物提供了方向。同时,通过QSP,我们还能探索其他因素如何影响不同疾病的发生和发展,比如遗传学差异在不同患者群体中的影响,以及生活方式、环境和遗传因素的变化如何影响患者对药物的反应。在过去,许多临床试验主要集中在白人男性身上,这无疑限制了我们对更广泛人群的了解。

那么,我们如何利用现有的数据资源,为女性或世界其他地区的人们带来实质性的改变呢?这正是定量系统药理学(QSP)所擅长的领域。QSP能够帮助我们深入剖析这些变化背后的机理,进而优化治疗方案的设计。它还可以为我们提供有关药代动力学和药效学的宝贵信息。简而言之,QSP为我们揭示了许多令人惊叹的奥秘。

QSP的核心挑战在于,它需要研究者深入研读大量论文来构建这些复杂的数学模型。这是因为QSP本质上是一个庞大的网络,其中的各种蛋白质和细胞过程之间存在着错综复杂的相互作用。一种蛋白质在完成其功能的过程中,可能会影响到另一种蛋白质完成另一个完全不同的过程;或者,这种蛋白质产生的某种物质水平的上升或下降,可能又会引发细胞进行其他活动。

因此,蛋白质之间、它们所处理的物质与更广泛的细胞过程之间的相互作用纷繁复杂。所有这些同时发生的反应以及它们的反应速度,都可能对其他细胞过程产生影响。因此,要全面理解这一复杂的网络,就需要我们深入研究并整合这些分散在大量论文中的信息。QSP的研究人员正是通过仔细阅读这些论文,逐步勾勒出这个网络的全貌,并对其中某些关键过程的实际速度进行数学描述。

基于上述丰富的信息和数据,我们能够描绘出一个人从健康到生病过程中各种生物分子与细胞的行为变化。为了实现这一目标,我们提出将人工智能与RAG(检索增强生成)过程相结合。这意味着让AI系统提出问题,并广泛阅读科学文献,以获取验证网络中各种元素之间相互作用的相关信息。

举个例子,我们可能会问:“HDAC6蛋白工作速度的增加是否会导致体内趋化因子释放量的增加或相应提升?”这是一个关于炎症反应的关键问题,因为当身体发生炎症反应时,它会通过一系列化学反应来发出信号:“嘿,这里出问题了。”我们需要确定这种关系是否真的存在。通过编程,我们可以构建所有可能对科学家建立QSP模型有帮助的联系。随后,让AI系统完成初步的筛选和整理工作,而不是让科学家亲自去阅读每一篇可能相关的论文。

这样,科学家们就能更高效地建立这些复杂的关系网络,并共同指导QSP模型的设计和优化。我们也可以回溯现有模型,进行验证:“我已有了一个初步模型,但能否真正证实其中存在的所有交互关系呢?这样,当我需要向监管机构提交申请时,就能为我的建议提供更有力的证据支持。”

如今,众多QSP模型已被美国FDA等监管机构所接受,作为临床试验提交信息的有力补充。在某些出色的案例中,FDA甚至表示:“基于你们提供的QSP模型所给出的充分信息,你们无需再进行部分临床试验。”这意味着,能够进一步验证QSP模型中的信息,我们在申报材料中将能够提出更有说服力的主张。人工智能在此领域发挥着关键作用,它能够帮助我们迅速找到与模型相关的关键信息,从而加快模型的建立与验证过程。

通过AI的助力,我们不仅能够利用QSP模型进行更多的分析与预测,还能够向监管机构展示模型数据与现实世界的匹配程度,以及支持这些数据的其他研究证据。这样一来,我们便能够将各种信息有机地结合起来,形成完整且有力的论证。当然,这只是人工智能在QSP领域的一个应用实例。未来,随着技术的不断发展,我们相信AI将使QSP模型变得更大、更好、更快,为医药研发领域带来更多的创新与突破。

另一个关键过程是扩展QSP模型的适用性。QSP模型不仅能帮助我们深入了解疾病在人体内的发生机制,还能提供治疗策略以改善患者症状。然而,一个挑战在于,QSP模型产生的结果通常表现为生物标志物,如趋化因子等蛋白质,这些是可以精确测量的指标。

以自身免疫性疾病为例,患者体内趋化因子的水平可能会异常升高。这些量化的数据是QSP模型输出的重要结果。然而,在临床试验和日常医疗实践中,我们往往不会直接报告这些生物标志物的具体数值。相反,医生可能会关注患者的症状改善情况,如皮疹面积的减小或疼痛感的减轻。这种差异导致了一种脱节现象。

虽然我们已经得到了QSP模型输出的非常具体的量化数据,但这些数据并不直接对应于患者的主观感受或医生常用的评估指标像 "我今天感觉没那么疼了 "这样的定性数字。将QSP模型产生的非常具体的量化数据与患者实际感受或医生常用的评估指标相联系,确实是一项挑战。

但令人兴奋的是,Certara拥有CODEX数据库,这使得我们可以获取到大量与银屑病关节炎等临床试验相关的信息,如PASI评分、ACR20评分或ACR50评分等。利用这一数据库,我们能够深入了解与这些评分相关的患者人群特征。更为重要的是,通过结合QSP模型中的量化数据以及CODEX数据库中的现实世界证据,我们可以利用人工智能技术构建模型,将这些数据映射到实际的临床情境中。

因此,我们可利用QSP模型模拟单个或一组患者在临床试验中的反应,通过调整不同参数来观察哪些变化能带来积极的临床结果。这有助于我们决定是否需要增加药物剂量、减少用药量,或是采用联合治疗方案,即同时使用两种不同药物以针对多个药物靶点进行治疗。基于这些模拟变化,我们能够预测临床试验设计的哪些调整将产生最佳效果。

实际上,我们已经在这方面取得了一些进展。去年11月,在ACoP14(第十四届美国定量药理学会议)上,我们发表了一篇论文,展示了这一方法的可行性。我们利用CODEX数据库和QSP模型的输出,结合人工智能技术,成功弥补了高度量化的生物标志物输出与临床评分之间的鸿沟。这样,我们就能更准确地模拟不同患者在临床试验中的反应,从而为临床试验设计提供更精准的建议。这些模拟结果有助于我们优化试验设计,提高临床试验的效率和成功率。

我们针对肠易激综合症进行了深入研究,这种疾病因其体内多种不同表现形式而使得传统治疗反应率极低。通常,即便只有25%至30%的患者出现阳性反应,即病情有所改善,而75%的患者无反应,这样的结果也足以使药物获得批准。这确实是一个极具挑战性的领域。然而,我们的研究发现,通过调整治疗方案,即减少一种药物的剂量并加入另一种药物,我们成功地大幅提高了治疗反应率。这种联合疗法使得病情改善的患者比例从原本的25%显著提升至50%、70%甚至75%。更令人振奋的是,我们取得的最高成果显示,接近90%的试验参与者对这种联合疗法产生了积极反应。

因此,这些方法不仅为我们提供了提出新假设的途径,更为设计临床试验开创了全新的思路,使我们能够推出更高效的药物与治疗方法。这样的可能性令人激动不已,因为我们能够基于现有信息作出决策,探索未知领域。人工智能在整合这些复杂信息方面展现出巨大的潜力,帮助我们快速建立不同信息之间的联系。以往,这样的工作可能需要耗费大量的人力与时间,但现在有了人工智能的助力,我们不仅能够更快地完成,而且效率更高。从技术的角度看,这意味着我们可以研发出更安全、更有效的药物。

将人工智能引入药物研发过程,并与科学家紧密合作,必将带来药物设计、上市方式以及后续决策制定的深刻变革。随着药物的不断发展、完善与迭代,我们将找到更多治疗患者、改善健康的新方法,而这其中,人工智能与科学家的携手合作将起到关键作用。