2026-05-127 分钟

30 分钟搭一条全球生物制药情报 pipeline

inscinstech.ai 数据团队· Data engineering

我们接触的多数 BD 团队，每天早上花 90 分钟读新闻做一件本应 5 分钟的事。有时多有时少，但模式一样：在 FDA · NMPA · ClinicalTrials · FierceBiotech · SEC EDGAR · 港交所 · ICH · PMDA 和你喜欢的付费生物制药 newsletter 之间切 tab，一小时。

一条日常情报 pipeline 可以把这一切替换为 5 分钟简报 —— 如果搭对了。这篇文章是搭建的 30 分钟版本，把"自建 vs 买"决策点都讲清楚。

你真正需要什么

Pipeline 有五个阶段。按顺序：

采集 —— 每小时从 N+ 数据源拉
解析 —— 把 HTML / PDF 变成结构化文本
抽取 —— 识别实体（公司、药物、靶点、适应症、阶段）
对齐 —— 去重 + 跨源同事件合并
分发 —— 分层摘要推送到你工作的地方

跳过阶段 4，你每天早上会从 6 个不同来源看到同一条 FDA 批准。跳过阶段 3，你没法按"Phase 3 的 ADC 项目"过滤。跳过阶段 1，你读的是 Twitter 算法决定给你看的东西。

阶段 1 —— 采集

我们推荐的 7 个基线数据源：

PubMed —— API 成熟（NCBI Entrez）
ClinicalTrials.gov —— API 也成熟
FDA —— 批准 · 召回 · 指南有 RSS
NMPA —— HTML 抓取；尊重 rate limit
EMA —— API + RSS
FierceBiotech —— RSS（业内引用最多的 newsletter）
SEC EDGAR —— biotech 申报有 API

今天可用的开源工具：Crawl4AI 做智能抓取，Playwright 做 JS 重的源，Scrapy 做结构化源。

时间预算：API 完善的源（PubMed · ClinicalTrials · FDA · EMA · SEC）10 分钟。如果自己写 NMPA 抓取要 1 小时。如果用 InBeacon 连接器，5 分钟。

阶段 2 —— 解析

PDF 解析是多数 pipeline 卡住的地方。FDA 指南文档是 PDF。NMPA 审评文档是 PDF。许多欧亚监管文档是 PDF。它们结构上不一致。

诚实的开源工具：

MinerU —— 中文 PDF 与表格最佳
Docling —— 英文结构化 PDF 最佳
GROBID —— 带元数据的学术论文最佳
PaperQA2 的 pipeline —— 全文科学文章最佳

最终你会需要 2-3 个，因为没有单一工具同时把法规 + 科学 + 表格内容处理得一样好。

阶段 3 —— 抽取

生物制药命名实体识别是一门独立学科。公司容易。靶点更难（HER2 vs ERBB2 vs HER-2 —— 同一个靶点）。药物最难（INN、商标、代码，都指同一分子）。

今天能用的：

GLiNER —— 通用开源 NER，对公司效果好
自训练 NER 模型 —— 靶点和药物需要
LLM 兜底 —— 长尾用（Gemini · Claude · GPT-4 都在给上下文后能做实体消歧）

诚实的成本：阶段 3 在 CPU 与工程时间上都是最贵的一段。如果从零搭，这里要比别处多预算。

阶段 4 —— 跨源对齐

最被低估的阶段。没有它，你的早间简报会出现 6 次 tobinetamab 的 FDA 批准 —— FDA 一次、SEC EDGAR（申办方 8-K）一次、FierceBiotech 一次、公司新闻稿一次、你喜欢的股票新闻源一次、分析师 follow-up 一次。

跨源对齐需要：

实体解析层（6 次 tobinetamab 都指向同一分子）
时间对齐层（事件发生在日期 X，6 次提及是反应）
去重策略（哪一次提及是 "primary"）

这是 DIY pipeline 里最大的工程投入。也是"每日简报可读"与"每日简报是噪音"之间的差别。

阶段 5 —— 分发

对齐过的事件有三种分发选项：

邮件简报 —— 最容易。SMTP server + 简单模板。
Slack / 微信 / 钉钉 webhook —— 最有粘性。每个平台都有完善的 webhook API。
应用内 feed —— 最有粘性，也最工程。

不管选哪个，关键是分层摘要：1 行 headline → 3 句要点 → 完整 brief。不同人想要不同详细度。

自建 vs 买的诚实答案

如果你是 30 人 biotech 的 3 人 BD 团队，这些一项都别自建。用服务。我们做 InBeacon 是因为自己做了这个搭建，发现 time-to-value 不偏向自建。

如果你是 top-20 药企有专门数据工程团队，自建阶段 1-2（你想控制），买阶段 3-5（你不想维护实体解析模型）。

如果你是 CRO，你的 sponsor 几乎肯定需要这个。买或自建 —— 但停止用一个看 Twitter 的人去做。

30 分钟版本

文章标题里的"30 分钟"对一条路径是诚实的：你注册一个现有服务，挑 5 个 watchlist 主题，把 webhook 指向你的 Slack。完成。

如果从零自建，更像 30 人天，不是 30 分钟。技术成熟到自建可行；问题是自建是不是你时间的最佳用法。

不管哪条路，简报都能让你脱离 90 分钟切 tab 的状态。

30 分钟搭一条全球生物制药情报 pipeline

你真正需要什么

阶段 1 —— 采集

阶段 2 —— 解析

阶段 3 —— 抽取

阶段 4 —— 跨源对齐

阶段 5 —— 分发

自建 vs 买的诚实答案

30 分钟版本

继续阅读。

Inscinstech CMC 知识库 v2.2：里面有什么、为什么重要

FDA · NMPA · EMA：2026 年 mAb biosimilar 指南有什么不同

2026 年开源 Agent 框架现状：Hermes · LangGraph · 我们的选择