我的文献综述文件夹有个外号——坟场。那是个平铺的目录, 里面全是叫 1703.03400v3.pdf 和 41586-2023-06004-9.pdf 和 anonymous-iclr2026-3847.pdf 的文件。每个周末我都跟自己保证要读完。每个周日晚上我把最老的那批挪到一个叫 archive-maybe-later 的子目录里, 骗自己这叫「筛选」。这不叫筛选, 这叫祭坛。
做科研的人——学术、工业、兴趣都算——多半都有这么一个坟场。周五刷出来的 arXiv 预印本。导师转来的 PMC 文章。有人在 Slack 扔进来的 bioRxiv 链接。NeurIPS OpenReview 上「我回头一定把摘要都刷一遍」的两百篇录用论文。这些东西一天读不完, 一块屏幕也装不下。
去年冬天我放弃读它们, 改成听它们。不是做成精致的播客。不是靠什么 20 美元一个月的 AI 服务帮我总结加评点、把论文压扁成引用不出的东西。就是: 浏览器打开论文, 点一下按钮, 一边做别的事一边用耳朵听。就是这个流程, 没别的。
用的扩展是 CastReader, 免费。这篇文章讲的是它读得最顺的五个论文源。
为什么是 HTML, 不是 PDF
先绕一下格式问题, 因为这个很关键。
PDF 是版式格式。它知道墨点打在纸的哪个位置。它不知道什么叫段落。双栏期刊、浮动图题、行末连字符、塞在正文里的引用标记——PDF 读取器只能靠猜去重建文本流, 而且经常猜错。一旦猜错, 音频听起来就像一副洗乱的扑克: 第 3 页某段 → 第 7 页图题 → 页脚 → 页码 → 致谢。没人能坚持听三分钟。
HTML 是结构化文本。段落就是段落, 标题就是标题, 朗读顺序就是 DOM 顺序。当论文存在 HTML 版本时, 基于浏览器的 TTS 读它的方式和读一篇博客没区别。如果只有 PDF, 那在浏览器里打开 PDF(让浏览器现场抽取文本)仍然比桌面 PDF 阅读器体验好, 但差距肉眼可见。
现在几乎所有主流论文源都想通了这一点。下面按源分说。
arXiv
专题页: /listen-to-arxiv
arXiv 2023 年开始用 ar5iv 和 LaTeXML 渲染 HTML 版。到 2024 年大部分新投稿都有 HTML 版——在论文摘要页找「HTML」那个链接, 旁边就是「PDF」。打开 HTML 页, 点 CastReader, 就开始听了。
公式会被跳过。内联公式、展示块、定理环境——TTS 会短暂停顿, 然后继续。机器学习论文里, 正文描述架构、公式形式化架构, 只靠文字依然能抓到 80% 的论证。纯数学论文里, 几乎每句话都指向定理 3.2, 那种论文不适合听, 得老老实实用眼睛读。
我用 arXiv 听主要是筛选。早晨 feed 里的二十篇论文, 在一趟二十分钟的散步里决定哪三篇值得回桌前细读。
PMC
专题页: /listen-to-pmc
PubMed Central 是 NIH 的生物医学开放全文库。它和 PubMed 不是一回事——PubMed 是检索索引(你主要看到摘要), PMC 是全文库(你能读到整篇论文)。PubMed 搜索结果里有「Free full text」链接的, 基本都指向 PMC, 真正的阅读在那里发生。
CastReader 按顺序朗读摘要、引言、方法、结果、讨论。内联 [1][2] 引用标记和 References 列表会剥掉。资助、致谢、作者贡献——跳过。图和表的标题会被朗读, 因为那就是散文。图像本身和表格数据不读, 因为音频表达不了。需要真看图 3 时, 段落高亮告诉你读到哪里了, 扫一眼就能回页面看。
生物医学听论文的入坑点就是这个流程。一篇 6000 字的开放获取论文, 1.5 倍速听完大概 25 分钟, 正好够做一顿晚饭。
Europe PMC
专题页: /listen-to-europepmc
Europe PMC 是 PMC 的欧洲镜像, 额外收录 PMC 不收的欧洲生物医学来源。它是个 Vue SPA, 全文区在折叠 accordion 后面懒加载——DOM 里一开始没有全文, 要用户展开后才 hydrate。CastReader 会等它加载好, 再用和 PMC 完全一样的方式读 JATS 结构。/article/PMC/PMCxxxxxxx 和 /article/MED/xxxxxxx 两种 URL 都支持。
如果实验室常读 Europe PMC 收录, 体验和 PMC 一模一样: 摘要、引言、方法、结果、讨论, 干净的音频, 没有引用噪音, 段落高亮。
bioRxiv + medRxiv
专题页: /listen-to-biorxiv
bioRxiv 和 medRxiv 分别是生命科学和医学的预印本服务器, 都基于 HighWire Press 平台做 JATS 渲染, 所以同一个提取器通吃两家。打开 .full URL(不是只有摘要的页面), 点 CastReader, 整篇预印本会从头读到尾。
关于预印本要专门说一句: 它们没有经过同行评审。用它图的是「快」, 不是「定论」。听的好处是能用一晚上的时间过完一周的预印本积压, 挑出那三篇值得等审后版本再细读的。这是对预印本的正确使用方式, 也是对音频的正确使用方式。
只有 PDF 的预印本(bioRxiv 上少见但偶尔有)可以看 PDF 朗读页。
OpenReview
OpenReview 承载 NeurIPS、ICLR、ICML、COLT、RLC、TMLR 以及一长串 workshop 的投稿。forum 页(openreview.net/forum?id=...)上有摘要、作者、关键词和评审线程。CastReader 干净地读论文元数据——跳过那些让 React SPA 很吵的状态徽章、评审标签、作者机构弹窗。
OpenReview 的正文全文是 PDF 形式分发的。要读全文请下载 PDF 后用 PDF 朗读页 或 CastReader 桌面应用。但对于「ICLR 录了 487 篇, 我到底该认真读哪些」这种摘要筛选问题, 走路时把一堆摘要听一遍就改变了体验——我走进 poster session 时手上有真正的 shortlist, 不再是「感觉要爆炸了」。
评审线程的朗读规划在后续版本里。现在想看评审意见, 用眼睛打开就好。
其他长尾源
这篇文章只讲了数量最大、HTML 最干净的五个源。还有很多其他来源: Semantic Scholar 看元数据和摘要、ResearchGate 看研究者共享的上传、各期刊出版社(Nature、Cell、Science、PLOS、Springer)只要能访问全文就能读。普通网页——博客、机构报告、实验室 wiki——非学术内容 CastReader 能读的, 这些也都能读。
CastReader 的原则是: 只要内容以 HTML 形式存在于 DOM 里, 我们就读。只要它是浏览器里打开的 PDF, 我们就读浏览器抽出来的文本。如果它锁在你访问不了的付费墙后面, 我们不装作有魔法——没人有。
听论文这个习惯
六个月的听论文下来, 真正发生变化的是这些。
坟场文件夹变小了。不是因为我读完了所有东西——没有——而是因为我把所有东西都筛选过了。我知道每篇论文在主张什么。我知道哪几篇得回头细看。未读 PDF 的焦虑, 大部分其实是「不知道」的焦虑。听把「不知道」换成了「知道并归档」。
通勤变得有产出。每天单程 35 分钟, 双程 70 分钟 1.5 倍速的聚焦学术听, 大概能听完四篇摘要加引言。一周就是 20 篇的浅覆盖——大致相当于那种我总是拖一个月才做的文献综述轻扫。
眼睛能撑更久。赶论文的死线以前是凌晨 2 点盯着屏幕读最后一个引用。现在这最后一个引用在我泡茶的时候被听完, 最后几个小时留给没被屏幕泡透的脑子集中写作。
有一件事听是替代不了的: 对最重要的那篇论文做细读。真正会塑造我工作的论文, 我还是会坐下来, 拿笔拿本子, 标公式、划论点、写边注。音频是漏斗, 眼睛是手术刀。
怎么开始
- 安装 CastReader 的 Chrome Web Store 版本, 免费, 无需注册。Edge 版 也有。
- 打开五个平台中任意一个论文页。arXiv 要用 HTML 链接, bioRxiv 要用
.fullURL, 其他用 forum 页或文章页就行。 - 点 CastReader 图标。开始听。
- 用浮动播放器调速度。我的默认是熟悉话题 1.5x, 密集方法学 1.1x, 纯筛选 2x。
没有 credit, 没有配额, 没有等级。CastReader 的整个设计意图是: 任意一篇论文的「试一下」成本为零, 所以论文不再是你躲着走的重物, 而是能填满散步和家务的轻量背景。
坟场不是非得是坟场。