Kindle 电子书免费变有声书——不用 Audible,不花一分钱

我在 Kindle 上花了 1400 多块钱买书。Amazon 告诉我,如果我想听这些书,请再花一遍钱。

我的 Kindle 书架上有 87 本书。小说、传记、商业、历史——七年攒下来的。每本平均十几块钱,加起来也是一笔不小的开销。

去年开始跑步,每次 40 分钟,一周三到四次。跑步的时候不想听音乐了,想听点有内容的东西。最自然的想法是:我已经买了这么多 Kindle 书,能不能直接听?

打开 Audible 一看。我在 Kindle 上花 12.99 美元买的那本 Atomic Habits,Audible 有声版要另外花 17.47 美元。What Happened to You 电子版 9.99,有声版 14.99。一本书买两次,合理吗?我拒绝。

于是我开始找 TTS 工具来读 Kindle 书。搜遍了整个 Chrome 应用商店,试了所有能试的——Speechify、Read Aloud、Natural Reader、Voice Aloud Reader——全部失败。不是质量差的问题,是根本读不了。

原因说起来有点技术,但很好理解。你在 Kindle Cloud Reader(read.amazon.com)上打开一本书,看到的是完整的书页。但如果你右键"检查元素",你会发现——HTML 里没有任何文字。Amazon 把书页渲染成了图片。他们用了加密字体子集加 Canvas 渲染,确保你在网页的 DOM 结构中找不到一个字符。

这是 Amazon 的 DRM 保护策略。所有依赖"从网页中提取文字"的 TTS 工具在 Kindle 面前都是废物。不是它们做得不好,是 Amazon 刻意让它们做不到。

CastReader 绕过了这个限制。方法不是破解加密——是换一个思路。

既然文字已经被画成了图片,那就把图片当图片处理。CastReader 在浏览器里运行 tesseract-wasm——一个在 WebAssembly 中运行的 OCR 引擎——直接对 Kindle 的渲染画面做光学字符识别。就像人的眼睛看到页面上的文字一样,OCR 也"看"到了。

流程是这样的。你打开 Kindle Cloud Reader,翻到任意一页。点 CastReader 图标。它对当前页面做 OCR,识别出所有文字和每个词在页面上的像素坐标。用 Kokoro AI 引擎把文字合成语音。播放语音,同时在对应位置高亮当前段落——高亮是精确到像素的,因为 OCR 返回了每个词的坐标。读完当前页自动翻页,继续 OCR 然后朗读。循环往复,直到一本书结束。

整个过程在浏览器本地完成。文字识别不上传任何数据到外部服务器。你的书的内容没有离开你的电脑。

我第一次用 CastReader 听 Kindle 书的时候,选的是 Project Hail Mary。翻到第一页,点图标,两秒后声音出来了。AI 语音有节奏、有停顿、有语调。段落高亮跟着声音走。读完一页,翻页——这里有两三秒的停顿,OCR 需要识别新页面——然后继续。不像 Audible 那样完全无缝,但完全不影响体验。跑步的时候你根本注意不到翻页停顿。

双栏布局是一个技术细节。有些 Kindle 书在宽屏显示器上会分成两栏。CastReader 能检测到双栏,先读左栏再读右栏,不会把两栏文字混在一起。

跟 Audible 比的话,诚实讲:Audible 的人声朗读肯定更好。专业配音演员的情感表达、不同角色的声音切换、戏剧性停顿——AI 还追不上。如果你追求极致的听书体验,且愿意为同一本书花两份钱,Audible 值得买。但如果你的需求是"我已经买了这些书,我只是想在跑步、通勤、做饭的时候听",CastReader 是目前唯一的选择。唯一一个。AI 语音已经足够自然——听非虚构类完全没有问题,听小说看你对声音的要求。

CastReader 完全免费。不限本数,不限时长,不需要注册账号。我那 87 本 Kindle 书,现在全部可以听了。如果按 Audible 的定价,等价于省了一千多美元。

安装:Chrome 应用商店,搜 CastReader,添加到 Chrome。然后打开 read.amazon.com,登录你的 Amazon 账号,选一本你买了但一直没"读完"的书。点图标。你已经花钱买了这些书。现在可以免费听了。