为什么大多数分子在 CMC 失败 —— 8 个在设计期就能预测的指标
一个分子在 Discovery 阶段看起来很完美。靶向命中。亲和力强。团队庆祝。
六个月后到 CMC,它聚集了。或在临床剂量下黏度高到无法给药。或它的 PTM 热点造成你 QA 团队无法接受的批间差异。团队重做。
我们在 Inscinstech CMC v2.2 知识库(82+ 条真实工艺开发历史)里看了这个模式。其中大多数失败是可以从序列预测的 —— 不是"事后看起来明显",而是设计阶段用当前开源工具就可计算的。
下面是清单。
1. 聚集倾向
mAb 下游失败的头号原因。过去三年计算预测已收敛:
- TAP / SAP 评分(Oxford OPIG)—— 表面聚集 patch 与疏水性
- TANGO / AGGRESCAN —— 基于序列的聚集热点
- Boltz-2 结构预测 —— 用于上下文相关的聚集判断
诚实的精度边界:低聚集预测可信度很高。高聚集预测需要湿实验确认,但已经能让候选进入早期分流。两种结局都能省一个季度。
2. 高浓度下的黏度
按 >100 mg/mL 投递的 mAb —— 皮下给药的新常态 —— 经常撞上黏度墙。序列级预测器(电荷 patch、疏水 patch、静电互补性)能完成 80% 的工作。剩下 20% 需要 DSC + DLS 数据,但如果序列已经被否决,就别花这个钱做那些实验。
3. 溶解度
IgG1 mAb 在 well-behaved 框架内极少出现溶解度问题。在工程化 format 里(双特异性、IgG4、IgA 融合)则常见。序列级溶解度评分能抓住大多数灾难。
4. PTM 热点
毁掉批记录的四种 PTM:
- 天冬酰胺脱酰胺 —— 序列决定,预测性强
- 天冬氨酸异构化 —— 同上
- 甲硫氨酸氧化 —— 上下文相关,但序列能缩小范围
- N-糖基化位点 —— 完全由序列决定
一个像样的评分器应该能在 30 秒内给出全部四项。如果 CDR 里有三个或以上 PTM 热点的候选,你在投入反应釜之前就知道自己面对什么。
5. 免疫原性(人源化度)
对于从鼠源抗体起步的 mAb,人源化质量预测免疫原性风险。BioPhi 的 OASis humanness 评分是当前标准 —— 与真实临床免疫原性数据校准过。
诚实的边界:人源化评分擅长在"明显已人源化"与"明显未人源化"之间区分。中段分数需要湿实验数据。但最差的情况会立刻浮出。
6. 纯化友好性
这是"Protein A 在这个分子上真的能用吗?"问题。答案是序列决定的:
- Protein A 结合行为 —— Fc 区结构
- IEX 行为 —— pI 计算 + 表面电荷分布
- HIC 行为 —— 表面疏水性评分
30 秒预测告诉你标准 mAb 平台能不能用,或者这个分子需要定制下游工艺。这一个判断可以改变成本估算 ~$300k–$1M。
7. 合成难度(oligo)
对于 siRNA / ASO 设计,合成难度由序列与修饰模式决定。重复序列、某些修饰组合、长度都预测 yield 与杂质谱。我们团队的经验:用真实 OligoMS 数据训练的 synthesizability 评分器能抓住 >90% 不会以可接受 yield 合成的候选。
8. 可表征性
最少被讨论的一个。有些序列容易做 HPLC + 质谱表征,有些不容易。高度二硫化的 mAb、有许多近质量 PTM 的 mAb、DAR 分布异质的 ADC —— 这些都会创造分析头痛,到后期开发以"我们没法 QC 这个批次"出现。
在设计阶段预测它。可表征性评分低的分子,就是会吃光 QC 预算的分子。
实操长什么样
mAb 的 developability scorecard 应该一页装下:
聚集 0.3% HMW 低
黏度 12 cP @ 150 g/L 低
溶解度 > 200 g/L 低
PTM 热点 0 关键 低
人源化度 OASis 92 低
Protein A 可结合 低
IEX(pI) 7.8 中(中段 pI)
HIC 标准 低
─────────────────────────────────────────
总分 9.1 / 10 ★
推荐路线: Protein A → CEX → UVC 灭活 → TFF
过去要 2-4 周横跨多个实验室。用现在的工具,30 秒。生成这张表的成本相比"用本应排第二的分子启动 CMC 项目"的成本,是舍入误差。
为什么团队还没这么做
三个原因:
- 工具碎片化。8 个维度活在 8 个不同工具里,每个来自不同学术组,输入格式都不一样。把它们拼起来是工程项目,不是科学项目。
- 校准信任。预测需要与真实湿实验结果校准。学术工具常基于基准集校准,不是你项目的真实候选。
- 工作流整合。一个不被 Discovery → CMC 交接时打开的工具里的 scorecard,就是个不被使用的 scorecard。
这就是我们在做的事。InAnvil 把 8 个预测加上 Inscinstech CMC v2.2 校准数据集成进一次 30 秒的过程。
但你今天用开源也能完成大部分。底线应该是:每个进入 CMC 的分子都有一份 scorecard。上面 8 个维度是合理的起点。
继续阅读。
30 分钟搭一条全球生物制药情报 pipeline
一条日常生物制药情报 pipeline 的 30 分钟实用搭建 —— 7+ 数据源 · 跨源去重 · AI 摘要 · 推到 Slack / 微信 / 邮件。
Inscinstech CMC 知识库 v2.2:里面有什么、为什么重要
82+ 精选 CMC 条目、FDA review 文档蒸馏、工艺先例数据 —— AI4CMC v2.2 里到底有什么、它如何驱动 inscinstech.ai 智能体。
FDA · NMPA · EMA:2026 年 mAb biosimilar 指南有什么不同
并排看 2026 年 FDA · NMPA · EMA 对 mAb biosimilar 指南的处理:在哪里趋同、在哪里仍然分歧、对你的申报策略意味着什么。