我的导师说"一周读五篇 paper"。我试了三个月,实际完成率不到 40%。
不是偷懒。是真的读不进去。
一篇 Transformer 架构的 survey 论文,28 页,从 Introduction 开始读。前两段还行,作者在说为什么这个问题重要、前人工作有什么局限。到第三段开始出现"we propose a novel framework that leverages..."——注意力开始飘了。第五段引用了八篇论文,每篇论文三句话概括——信息密度太高了,大脑来不及处理。第二页还没看完,我的手已经摸向了手机。刷了十分钟微博回来,忘了读到哪儿了。从头来。又走神。循环。
我的阅读记录显示,我花在"试图读论文"上的时间远比"真正在读论文"的时间多。打开 PDF,盯着屏幕,眼睛在扫字但大脑在想今天中午吃什么。这种"假阅读"特别消耗心力——你觉得自己在努力,但其实什么也没吸收。
后来一个师兄告诉我一个方法:边听边看。他用的是 YouTube 上的论文讲解视频。但视频有一个根本问题——不是每篇论文都有讲解视频。导师让我读的那篇关于 sparse attention 在长文档摘要中应用的论文,YouTube 上搜了半天只找到一个讲相关但不同论文的视频。
我需要的是一个工具,能朗读任何论文。找到了 CastReader。
CastReader 是一个免费的 Chrome 扩展。arXiv 现在大部分论文都有 HTML 版本——在论文页面点 "HTML" 链接就能打开。打开 HTML 版论文后,点 CastReader 图标,论文正文开始朗读。AI 语音有节奏、有停顿、有句子层面的语调起伏。段落在页面上高亮跟随——读到哪个段落,那个段落就亮起来。你的眼睛跟着高亮走,耳朵听着内容,两个通道同时输入。
关键变化是:阅读节奏不再由你控制,而是由语音控制。
纯视觉阅读的时候,你随时可以停下来。停下来就走神。走神了就拿手机。语音不一样。声音在持续推进,它不等你。你的注意力被拉着往前走,走神的窗口变得非常窄。不是说完全不会走神——但走神的频率从每两分钟一次降到了每十分钟一次。对于一篇要读四十分钟的论文来说,这个差距是巨大的。
我现在读论文的流程固定了。第一遍全文听。1.2 倍速,从 Abstract 听到 Conclusion,不暂停。目的不是理解每一个细节,是抓结构。这篇论文在解决什么问题、用了什么方法、实验是怎么设计的、结论是什么。听完第一遍大概二十多分钟,对论文有了一个粗粒度的地图。第二遍只看重点。根据第一遍的印象,回到关键段落仔细看。公式推导、实验表格、图表分析——这些确实需要眼睛而不是耳朵。但因为第一遍已经建立了上下文,第二遍看这些细节的效率高很多。第三遍如果需要的话再听一次,这时候理解加深了,1.5 倍速都能跟上。
数学公式 CastReader 会跳过。LaTeX 渲染的公式是图片或 MathML,不在可读文本范围内。这其实是合理的——"sigma of x sub i from 1 to n"这种朗读对理解公式毫无帮助。正文中内联的简单表达会读,比如"当 n 大于 100 时"。图表的 caption 会读,图表本身不会。参考文献列表被 CastReader 的提取算法自动跳过——没有人想听"方括号 1 Smith et al comma 2024 dot dot dot"。
效果怎么样?我的论文完成率从不到 40% 涨到了 80% 以上。原因很简单:以前一篇论文要"读"两个小时(其中一个半小时在走神和重来),现在第一遍听二十分钟加第二遍看二十分钟,四十分钟搞定。时间砍半,理解效果更好,因为两个通道同时输入的记忆比单通道深。
文献综述阶段这个方法尤其好用。你需要快速过 20 到 30 篇论文,每篇抓核心思路就行。一篇一篇听,听完在笔记里写两三句总结,比逐字逐句看每一篇快五倍不止。我的一个做 NLP 的同学用这个方法三天过了 40 篇论文——以前这个量需要两周。
安装:Chrome 应用商店,搜 CastReader,添加到 Chrome。免费,不限字数,不需要注册。下次读论文的时候,先打开 arXiv HTML 版,点图标,戴上耳机。你可能会发现那篇搁了一个月没动的 paper 其实没那么难啃。