Inscinstech CMC 知识库 v2.2:里面有什么、为什么重要
客户问"inscinstech.ai 和一个通用大模型的 wrapper 有什么不同?"时,诚实的答案有三部分:
- 智能体(InBeacon · InPrism · InAnvil · InForge)—— 产品化的工作流
- 设备-软件闭环(NestoPure · OligoMS · CDSystem)—— 与物理仪器的连接
- CMC 知识库 v2.2 —— 智能体被校准的领域语料
这篇文章讲第 (3) 块。它是被问最多、对外曝光最少的一块。让我们打开盖子。
它是什么
AI4CMC v2.2 是 Inscinstech 内部知识库,由五年生物制药工艺开发工作积累而成。它是专有的 —— 不共享、不外传、不用于训练共享模型。它是结构化的 —— 每条带元数据用于检索。它是校准过的 —— 在能配对的地方配对真实湿实验结果。
v2.2 标记是第三次重大修订(v1 是内部 wiki;v2 是第一个结构化版本;v2.2 是今天为智能体服务的生产版本)。
里面有什么
82+ 精选条目大致分为:
捕获(层析)—— 18 条
- 各 mAb 类(IgG1/2/4 · IgM · IgA 融合)的 Protein A 行为
- 典型 mAb pI 窗口的 IEX(CEX 与 AEX)参数范围
- 疏水 mAb 与 ADC 的 HIC 行为
- 结合/洗脱 vs 流穿策略
精纯 —— 14 条
- 流穿模式 AEX(主力)
- Mixed-mode 树脂选型
- 疏水电荷诱导
- 用于去聚集 vs 分析定径的 SEC
病毒安全 —— 9 条
- 低 pH 灭活协议(pH 3.5 vs 3.7 vs 4.0)
- UVC 灭活参数与验证
- 纳米过滤(Planova 20N vs 75N 选型)
- 跨区域监管接受标准
超滤 / TFF —— 8 条
- Pellicon 3 vs Sartocon Slice vs Hydrosart 权衡
- 膜 MWCO 选择
- 透析过滤体积优化
制剂 —— 11 条
- 缓冲体系选型(醋酸 vs 柠檬酸 vs 磷酸 vs 组氨酸)
- 稳定性 vs 黏度 vs 免疫原性的辅料选择
- 容器封闭兼容性数据
杂质表征 —— 9 条
- 按细胞系的 HCP 风险画像
- Protein A leach 验收标准
- 残余 DNA 检测与限度
- 聚集体定量方法
FDA review 文档蒸馏 —— 8 条
- 跨先例对比(如"2020-2025 全部 mAb biosimilar 审评")
- 常见审评问题与先例回答
- 标准设定先例
工艺先例 —— 5 条
- mAb · ADC · oligo · biosimilar · BsAb 的参考工艺树
- "如果你的分子像 X,工艺多半像 Y"
里面没有什么
三样我们明确不放进 v2.2:
- 客户特定数据。客户的湿实验反馈可能校准 v2.2 条目(经同意,在 Bespoke tier)。客户原始数据不会直接进 v2.2。
- 未发布 IP。任何涉及客户专有化学的内容留在客户租户 namespace。
- 猜测。没有 Inscinstech 工艺历史、FDA review 先例或同行评议文献支持的条目不进 v2.2。
智能体如何使用它
每个智能体以不同方式接触 v2.2:
- InForge 把 v2.2 作为主要源。当你问"这个分子的精纯策略合理选择是?",InForge 检索 v2.2 加 FDA review docs,给出带引用底层条目的合成答案。
- InAnvil 把 v2.2 用作校准。developability 评分使用开源工具(BioPhi · TAP · SAP · Boltz-2 · ProteinMPNN 等),但风险阈值是基于 v2.2 真实结果数据校准的。InAnvil 一次"低风险"判定意味着"基于我们在 v2.2 看到的,这与成功生产的分子一致"。
- InPrism 把 v2.2 当作多个语料中的一个用于文献检索。智能体会告诉你来源是 v2.2 还是 PubMed 还是 FDA 指南还是客户上传 PDF。
- InBeacon 不直接接触 v2.2 —— 它是情报智能体,不是领域智能体。
"基于真实结果校准"具体是什么意思
一个具体例子。mAb 的 InAnvil 聚集风险阈值这样设:
- 若预测说**"低风险"**(预计 HMW ≤ 0.5%),v2.2 回顾数据显示 93% 的此类分子顺利通过工艺开发,没有出现聚集问题。
- 若预测说**"中风险"**(预计 HMW 0.5%–2%),该比例降至 ~70%。
- 若预测说**"高风险"**(预计 HMW > 2%),该比例降至 40% 以下。
这些阈值不是从论文里挑的。它们是看着 v2.2 真实结果、选了一个"操作性可靠"的位置。随着 v2.2 变大,它们会被重新校准。
这就是"基于真实结果校准"在实践里的含义 —— 也是通用大模型无法提供的那一层。
v2.2 如何演化
三条更新路径:
- 工艺完成。当 Inscinstech 内部或 Bespoke 合作伙伴的真实 CMC 项目完成(经同意),结果数据更新相关条目。
- 法规更新。当 FDA · NMPA · EMA 发布新指南,引用旧版的 v2.2 条目被标记复审。我们不沉默漂移。
- 季度复审。每季度团队为应该新加或更新的条目分流新发表文献。
维护方:Inscinstech CMC 团队加外部科学顾问。复审节奏:季度。公开 changelog:脱敏版本(无客户数据 · 无未发布 IP)将出现在 /resources/changelog。
如何访问
按 tier:
- Free / Pro:无直接访问。v2.2 影响 InAnvil 与 InForge 输出,但条目本身不可检索。
- Team:查询访问 —— InPrism 可在其他语料旁检索 v2.2 并返回引用段落。
- Enterprise:完整检索。可申请特定条目并查看底层结果数据(匿名化)。
- Bespoke:联合开发关系 —— 你的湿实验结果校准与你 pipeline 相关的 v2.2 条目;你共享预测结果的 IP。
这事为什么重要
如果你曾问过通用大模型"这个 mAb 合理的 Protein A 洗脱缓冲液是?",你得到的是通用答案。这个答案多半正确 —— 层析缓冲液化学 20 年没大变。但通用答案没编码组织知识:你设施里实际有哪种树脂、你团队历史上在什么地方栽过跟头、相关 Office 的 FDA 审评员过去问过什么。
v2.2 是为选择使用它的客户与合作方编码的那种组织知识。它是难建、难复制的部分。智能体是表面;语料是护城河。
公开版的整套如何拼起来:/products。每个智能体如何使用它的技术规格:/products/inforge 与 /products/inanvil。
继续阅读。
30 分钟搭一条全球生物制药情报 pipeline
一条日常生物制药情报 pipeline 的 30 分钟实用搭建 —— 7+ 数据源 · 跨源去重 · AI 摘要 · 推到 Slack / 微信 / 邮件。
FDA · NMPA · EMA:2026 年 mAb biosimilar 指南有什么不同
并排看 2026 年 FDA · NMPA · EMA 对 mAb biosimilar 指南的处理:在哪里趋同、在哪里仍然分歧、对你的申报策略意味着什么。
2026 年开源 Agent 框架现状:Hermes · LangGraph · 我们的选择
我们在 inCore 决定 fork 哪个之前评估了 8 个 Agent 框架。这是我们考虑的权衡、最终选择,以及为什么 fork。