跳到主要内容
回到博客

30 分钟搭一条全球生物制药情报 pipeline

我们接触的多数 BD 团队,每天早上花 90 分钟读新闻做一件本应 5 分钟的事。有时多有时少,但模式一样:在 FDA · NMPA · ClinicalTrials · FierceBiotech · SEC EDGAR · 港交所 · ICH · PMDA 和你喜欢的付费生物制药 newsletter 之间切 tab,一小时。

一条日常情报 pipeline 可以把这一切替换为 5 分钟简报 —— 如果搭对了。这篇文章是搭建的 30 分钟版本,把"自建 vs 买"决策点都讲清楚。

你真正需要什么

Pipeline 有五个阶段。按顺序:

  1. 采集 —— 每小时从 N+ 数据源拉
  2. 解析 —— 把 HTML / PDF 变成结构化文本
  3. 抽取 —— 识别实体(公司、药物、靶点、适应症、阶段)
  4. 对齐 —— 去重 + 跨源同事件合并
  5. 分发 —— 分层摘要推送到你工作的地方

跳过阶段 4,你每天早上会从 6 个不同来源看到同一条 FDA 批准。跳过阶段 3,你没法按"Phase 3 的 ADC 项目"过滤。跳过阶段 1,你读的是 Twitter 算法决定给你看的东西。

阶段 1 —— 采集

我们推荐的 7 个基线数据源:

  • PubMed —— API 成熟(NCBI Entrez)
  • ClinicalTrials.gov —— API 也成熟
  • FDA —— 批准 · 召回 · 指南有 RSS
  • NMPA —— HTML 抓取;尊重 rate limit
  • EMA —— API + RSS
  • FierceBiotech —— RSS(业内引用最多的 newsletter)
  • SEC EDGAR —— biotech 申报有 API

今天可用的开源工具:Crawl4AI 做智能抓取,Playwright 做 JS 重的源,Scrapy 做结构化源。

时间预算:API 完善的源(PubMed · ClinicalTrials · FDA · EMA · SEC)10 分钟。如果自己写 NMPA 抓取要 1 小时。如果用 InBeacon 连接器,5 分钟。

阶段 2 —— 解析

PDF 解析是多数 pipeline 卡住的地方。FDA 指南文档是 PDF。NMPA 审评文档是 PDF。许多欧亚监管文档是 PDF。它们结构上不一致。

诚实的开源工具:

  • MinerU —— 中文 PDF 与表格最佳
  • Docling —— 英文结构化 PDF 最佳
  • GROBID —— 带元数据的学术论文最佳
  • PaperQA2 的 pipeline —— 全文科学文章最佳

最终你会需要 2-3 个,因为没有单一工具同时把法规 + 科学 + 表格内容处理得一样好。

阶段 3 —— 抽取

生物制药命名实体识别是一门独立学科。公司容易。靶点更难(HER2 vs ERBB2 vs HER-2 —— 同一个靶点)。药物最难(INN、商标、代码,都指同一分子)。

今天能用的:

  • GLiNER —— 通用开源 NER,对公司效果好
  • 自训练 NER 模型 —— 靶点和药物需要
  • LLM 兜底 —— 长尾用(Gemini · Claude · GPT-4 都在给上下文后能做实体消歧)

诚实的成本:阶段 3 在 CPU 与工程时间上都是最贵的一段。如果从零搭,这里要比别处多预算。

阶段 4 —— 跨源对齐

最被低估的阶段。没有它,你的早间简报会出现 6 次 tobinetamab 的 FDA 批准 —— FDA 一次、SEC EDGAR(申办方 8-K)一次、FierceBiotech 一次、公司新闻稿一次、你喜欢的股票新闻源一次、分析师 follow-up 一次。

跨源对齐需要:

  • 实体解析层(6 次 tobinetamab 都指向同一分子)
  • 时间对齐层(事件发生在日期 X,6 次提及是反应)
  • 去重策略(哪一次提及是 "primary")

这是 DIY pipeline 里最大的工程投入。也是"每日简报可读"与"每日简报是噪音"之间的差别。

阶段 5 —— 分发

对齐过的事件有三种分发选项:

  • 邮件简报 —— 最容易。SMTP server + 简单模板。
  • Slack / 微信 / 钉钉 webhook —— 最有粘性。每个平台都有完善的 webhook API。
  • 应用内 feed —— 最有粘性,也最工程。

不管选哪个,关键是分层摘要:1 行 headline → 3 句要点 → 完整 brief。不同人想要不同详细度。

自建 vs 买的诚实答案

如果你是 30 人 biotech 的 3 人 BD 团队,这些一项都别自建。用服务。我们做 InBeacon 是因为自己做了这个搭建,发现 time-to-value 不偏向自建。

如果你是 top-20 药企有专门数据工程团队,自建阶段 1-2(你想控制),买阶段 3-5(你不想维护实体解析模型)。

如果你是 CRO,你的 sponsor 几乎肯定需要这个。买或自建 —— 但停止用一个看 Twitter 的人去做。

30 分钟版本

文章标题里的"30 分钟"对一条路径是诚实的:你注册一个现有服务,挑 5 个 watchlist 主题,把 webhook 指向你的 Slack。完成。

如果从零自建,更像 30 人天,不是 30 分钟。技术成熟到自建可行;问题是自建是不是你时间的最佳用法。

不管哪条路,简报都能让你脱离 90 分钟切 tab 的状态。

30 分钟搭一条全球生物制药情报 pipeline | inscinstech.ai