30 分钟搭一条全球生物制药情报 pipeline
我们接触的多数 BD 团队,每天早上花 90 分钟读新闻做一件本应 5 分钟的事。有时多有时少,但模式一样:在 FDA · NMPA · ClinicalTrials · FierceBiotech · SEC EDGAR · 港交所 · ICH · PMDA 和你喜欢的付费生物制药 newsletter 之间切 tab,一小时。
一条日常情报 pipeline 可以把这一切替换为 5 分钟简报 —— 如果搭对了。这篇文章是搭建的 30 分钟版本,把"自建 vs 买"决策点都讲清楚。
你真正需要什么
Pipeline 有五个阶段。按顺序:
- 采集 —— 每小时从 N+ 数据源拉
- 解析 —— 把 HTML / PDF 变成结构化文本
- 抽取 —— 识别实体(公司、药物、靶点、适应症、阶段)
- 对齐 —— 去重 + 跨源同事件合并
- 分发 —— 分层摘要推送到你工作的地方
跳过阶段 4,你每天早上会从 6 个不同来源看到同一条 FDA 批准。跳过阶段 3,你没法按"Phase 3 的 ADC 项目"过滤。跳过阶段 1,你读的是 Twitter 算法决定给你看的东西。
阶段 1 —— 采集
我们推荐的 7 个基线数据源:
- PubMed —— API 成熟(NCBI Entrez)
- ClinicalTrials.gov —— API 也成熟
- FDA —— 批准 · 召回 · 指南有 RSS
- NMPA —— HTML 抓取;尊重 rate limit
- EMA —— API + RSS
- FierceBiotech —— RSS(业内引用最多的 newsletter)
- SEC EDGAR —— biotech 申报有 API
今天可用的开源工具:Crawl4AI 做智能抓取,Playwright 做 JS 重的源,Scrapy 做结构化源。
时间预算:API 完善的源(PubMed · ClinicalTrials · FDA · EMA · SEC)10 分钟。如果自己写 NMPA 抓取要 1 小时。如果用 InBeacon 连接器,5 分钟。
阶段 2 —— 解析
PDF 解析是多数 pipeline 卡住的地方。FDA 指南文档是 PDF。NMPA 审评文档是 PDF。许多欧亚监管文档是 PDF。它们结构上不一致。
诚实的开源工具:
- MinerU —— 中文 PDF 与表格最佳
- Docling —— 英文结构化 PDF 最佳
- GROBID —— 带元数据的学术论文最佳
- PaperQA2 的 pipeline —— 全文科学文章最佳
最终你会需要 2-3 个,因为没有单一工具同时把法规 + 科学 + 表格内容处理得一样好。
阶段 3 —— 抽取
生物制药命名实体识别是一门独立学科。公司容易。靶点更难(HER2 vs ERBB2 vs HER-2 —— 同一个靶点)。药物最难(INN、商标、代码,都指同一分子)。
今天能用的:
- GLiNER —— 通用开源 NER,对公司效果好
- 自训练 NER 模型 —— 靶点和药物需要
- LLM 兜底 —— 长尾用(Gemini · Claude · GPT-4 都在给上下文后能做实体消歧)
诚实的成本:阶段 3 在 CPU 与工程时间上都是最贵的一段。如果从零搭,这里要比别处多预算。
阶段 4 —— 跨源对齐
最被低估的阶段。没有它,你的早间简报会出现 6 次 tobinetamab 的 FDA 批准 —— FDA 一次、SEC EDGAR(申办方 8-K)一次、FierceBiotech 一次、公司新闻稿一次、你喜欢的股票新闻源一次、分析师 follow-up 一次。
跨源对齐需要:
- 实体解析层(6 次
tobinetamab都指向同一分子) - 时间对齐层(事件发生在日期 X,6 次提及是反应)
- 去重策略(哪一次提及是 "primary")
这是 DIY pipeline 里最大的工程投入。也是"每日简报可读"与"每日简报是噪音"之间的差别。
阶段 5 —— 分发
对齐过的事件有三种分发选项:
- 邮件简报 —— 最容易。SMTP server + 简单模板。
- Slack / 微信 / 钉钉 webhook —— 最有粘性。每个平台都有完善的 webhook API。
- 应用内 feed —— 最有粘性,也最工程。
不管选哪个,关键是分层摘要:1 行 headline → 3 句要点 → 完整 brief。不同人想要不同详细度。
自建 vs 买的诚实答案
如果你是 30 人 biotech 的 3 人 BD 团队,这些一项都别自建。用服务。我们做 InBeacon 是因为自己做了这个搭建,发现 time-to-value 不偏向自建。
如果你是 top-20 药企有专门数据工程团队,自建阶段 1-2(你想控制),买阶段 3-5(你不想维护实体解析模型)。
如果你是 CRO,你的 sponsor 几乎肯定需要这个。买或自建 —— 但停止用一个看 Twitter 的人去做。
30 分钟版本
文章标题里的"30 分钟"对一条路径是诚实的:你注册一个现有服务,挑 5 个 watchlist 主题,把 webhook 指向你的 Slack。完成。
如果从零自建,更像 30 人天,不是 30 分钟。技术成熟到自建可行;问题是自建是不是你时间的最佳用法。
不管哪条路,简报都能让你脱离 90 分钟切 tab 的状态。
继续阅读。
Inscinstech CMC 知识库 v2.2:里面有什么、为什么重要
82+ 精选 CMC 条目、FDA review 文档蒸馏、工艺先例数据 —— AI4CMC v2.2 里到底有什么、它如何驱动 inscinstech.ai 智能体。
FDA · NMPA · EMA:2026 年 mAb biosimilar 指南有什么不同
并排看 2026 年 FDA · NMPA · EMA 对 mAb biosimilar 指南的处理:在哪里趋同、在哪里仍然分歧、对你的申报策略意味着什么。
2026 年开源 Agent 框架现状:Hermes · LangGraph · 我们的选择
我们在 inCore 决定 fork 哪个之前评估了 8 个 Agent 框架。这是我们考虑的权衡、最终选择,以及为什么 fork。