跳到主要内容
回到博客

Inscinstech CMC 知识库 v2.2:里面有什么、为什么重要

客户问"inscinstech.ai 和一个通用大模型的 wrapper 有什么不同?"时,诚实的答案有三部分:

  1. 智能体(InBeacon · InPrism · InAnvil · InForge)—— 产品化的工作流
  2. 设备-软件闭环(NestoPure · OligoMS · CDSystem)—— 与物理仪器的连接
  3. CMC 知识库 v2.2 —— 智能体被校准的领域语料

这篇文章讲第 (3) 块。它是被问最多、对外曝光最少的一块。让我们打开盖子。

它是什么

AI4CMC v2.2 是 Inscinstech 内部知识库,由五年生物制药工艺开发工作积累而成。它是专有的 —— 不共享、不外传、不用于训练共享模型。它是结构化的 —— 每条带元数据用于检索。它是校准过的 —— 在能配对的地方配对真实湿实验结果。

v2.2 标记是第三次重大修订(v1 是内部 wiki;v2 是第一个结构化版本;v2.2 是今天为智能体服务的生产版本)。

里面有什么

82+ 精选条目大致分为:

捕获(层析)—— 18 条

  • 各 mAb 类(IgG1/2/4 · IgM · IgA 融合)的 Protein A 行为
  • 典型 mAb pI 窗口的 IEX(CEX 与 AEX)参数范围
  • 疏水 mAb 与 ADC 的 HIC 行为
  • 结合/洗脱 vs 流穿策略

精纯 —— 14 条

  • 流穿模式 AEX(主力)
  • Mixed-mode 树脂选型
  • 疏水电荷诱导
  • 用于去聚集 vs 分析定径的 SEC

病毒安全 —— 9 条

  • 低 pH 灭活协议(pH 3.5 vs 3.7 vs 4.0)
  • UVC 灭活参数与验证
  • 纳米过滤(Planova 20N vs 75N 选型)
  • 跨区域监管接受标准

超滤 / TFF —— 8 条

  • Pellicon 3 vs Sartocon Slice vs Hydrosart 权衡
  • 膜 MWCO 选择
  • 透析过滤体积优化

制剂 —— 11 条

  • 缓冲体系选型(醋酸 vs 柠檬酸 vs 磷酸 vs 组氨酸)
  • 稳定性 vs 黏度 vs 免疫原性的辅料选择
  • 容器封闭兼容性数据

杂质表征 —— 9 条

  • 按细胞系的 HCP 风险画像
  • Protein A leach 验收标准
  • 残余 DNA 检测与限度
  • 聚集体定量方法

FDA review 文档蒸馏 —— 8 条

  • 跨先例对比(如"2020-2025 全部 mAb biosimilar 审评")
  • 常见审评问题与先例回答
  • 标准设定先例

工艺先例 —— 5 条

  • mAb · ADC · oligo · biosimilar · BsAb 的参考工艺树
  • "如果你的分子像 X,工艺多半像 Y"

里面没有什么

三样我们明确不放进 v2.2:

  1. 客户特定数据。客户的湿实验反馈可能校准 v2.2 条目(经同意,在 Bespoke tier)。客户原始数据不会直接进 v2.2。
  2. 未发布 IP。任何涉及客户专有化学的内容留在客户租户 namespace。
  3. 猜测。没有 Inscinstech 工艺历史、FDA review 先例或同行评议文献支持的条目不进 v2.2。

智能体如何使用它

每个智能体以不同方式接触 v2.2:

  • InForge 把 v2.2 作为主要源。当你问"这个分子的精纯策略合理选择是?",InForge 检索 v2.2 加 FDA review docs,给出带引用底层条目的合成答案。
  • InAnvil 把 v2.2 用作校准。developability 评分使用开源工具(BioPhi · TAP · SAP · Boltz-2 · ProteinMPNN 等),但风险阈值是基于 v2.2 真实结果数据校准的。InAnvil 一次"低风险"判定意味着"基于我们在 v2.2 看到的,这与成功生产的分子一致"。
  • InPrism 把 v2.2 当作多个语料中的一个用于文献检索。智能体会告诉你来源是 v2.2 还是 PubMed 还是 FDA 指南还是客户上传 PDF。
  • InBeacon 不直接接触 v2.2 —— 它是情报智能体,不是领域智能体。

"基于真实结果校准"具体是什么意思

一个具体例子。mAb 的 InAnvil 聚集风险阈值这样设:

  • 若预测说**"低风险"**(预计 HMW ≤ 0.5%),v2.2 回顾数据显示 93% 的此类分子顺利通过工艺开发,没有出现聚集问题。
  • 若预测说**"中风险"**(预计 HMW 0.5%–2%),该比例降至 ~70%。
  • 若预测说**"高风险"**(预计 HMW > 2%),该比例降至 40% 以下。

这些阈值不是从论文里挑的。它们是看着 v2.2 真实结果、选了一个"操作性可靠"的位置。随着 v2.2 变大,它们会被重新校准。

这就是"基于真实结果校准"在实践里的含义 —— 也是通用大模型无法提供的那一层。

v2.2 如何演化

三条更新路径:

  1. 工艺完成。当 Inscinstech 内部或 Bespoke 合作伙伴的真实 CMC 项目完成(经同意),结果数据更新相关条目。
  2. 法规更新。当 FDA · NMPA · EMA 发布新指南,引用旧版的 v2.2 条目被标记复审。我们不沉默漂移。
  3. 季度复审。每季度团队为应该新加或更新的条目分流新发表文献。

维护方:Inscinstech CMC 团队加外部科学顾问。复审节奏:季度。公开 changelog:脱敏版本(无客户数据 · 无未发布 IP)将出现在 /resources/changelog

如何访问

按 tier:

  • Free / Pro:无直接访问。v2.2 影响 InAnvil 与 InForge 输出,但条目本身不可检索。
  • Team:查询访问 —— InPrism 可在其他语料旁检索 v2.2 并返回引用段落。
  • Enterprise:完整检索。可申请特定条目并查看底层结果数据(匿名化)。
  • Bespoke:联合开发关系 —— 你的湿实验结果校准与你 pipeline 相关的 v2.2 条目;你共享预测结果的 IP。

这事为什么重要

如果你曾问过通用大模型"这个 mAb 合理的 Protein A 洗脱缓冲液是?",你得到的是通用答案。这个答案多半正确 —— 层析缓冲液化学 20 年没大变。但通用答案没编码组织知识:你设施里实际有哪种树脂、你团队历史上在什么地方栽过跟头、相关 Office 的 FDA 审评员过去问过什么。

v2.2 是为选择使用它的客户与合作方编码的那种组织知识。它是难建、难复制的部分。智能体是表面;语料是护城河。

公开版的整套如何拼起来:/products。每个智能体如何使用它的技术规格:/products/inforge/products/inanvil

Inscinstech CMC 知识库 v2.2:里面有什么、为什么重要 | inscinstech.ai