Kindle 电子书免费变有声书——不用 Audible,不花一分钱
一本书在 Kindle 上 $9.99。同一本书的 Audible 有声版 $14.99。买了电子版还得再花一份钱买有声版,这事儿一直让我觉得不合理。
我就想在做饭、跑步、通勤的时候听我已经买了的 Kindle 书。不想再付一次钱。
试了很多 TTS 工具,全军覆没。最后自己做了一个。
为什么 Kindle 这么难读
Kindle Cloud Reader(read.amazon.com)是 Amazon 的网页阅读器。你在浏览器里能看到书的内容,但——
右键检查元素,你看不到任何文本。书页被渲染成了图片。Amazon 用了加密字体子集 + Canvas 渲染,确保你在 DOM 里找不到一个字。
Speechify 读不了。Read Aloud 读不了。Natural Reader 读不了。Edge 的朗读功能读不了。所有依赖 DOM 文本提取的工具都卡在了第一步。
这是 Amazon 的 DRM 保护策略。理解他们为什么这么做,但苦了想听书的人。
CastReader 怎么做到的
CastReader 用了 OCR——光学字符识别。
既然文字已经被画成了图片,那就把图片当图片处理。CastReader 在浏览器里运行 tesseract-wasm(一个在 WebAssembly 中跑的 OCR 引擎),直接对 Kindle 的渲染画面做文字识别。
流程是这样的:
- 你打开 Kindle Cloud Reader,翻到任意一页
- 点击 CastReader 图标
- CastReader 对当前页面做 OCR,识别出所有文字和每个词的位置
- 用 Kokoro TTS 引擎把文字合成语音
- 播放语音,同时在对应位置高亮当前段落
- 读完当前页自动翻页,继续 OCR → 朗读
整个过程在浏览器本地完成。文字识别不上传任何数据到外部服务器。
怎么用
- 安装 CastReader
- 打开 Kindle Cloud Reader,登录你的 Amazon 账号
- 打开你想听的书
- 点击 CastReader 图标,开始朗读
第一次使用时 CastReader 会加载 OCR 数据(约 4MB),之后就缓存在本地了。
高亮跟随
OCR 不只是识别文字内容,还返回每个词的像素坐标。CastReader 用这些坐标在书页上精确标记当前朗读的段落位置。
你会看到高亮跟着语音走,段落读完自动跳到下一个,跟 Audible 的体验很像——只不过不花钱。
双栏布局
有些 Kindle 书在宽屏下会显示双栏。CastReader 能自动检测双栏布局,先读左栏再读右栏,不会把两栏文字混在一起。
手机上听
Kindle Cloud Reader 在手机浏览器上体验不好。但你可以用 CastReader 的 Send to Phone 功能——在电脑上提取书的内容,推送到手机上听。通勤路上、跑步的时候,手机揣兜里就行。
跟 Audible 比
| Audible | CastReader | |
|---|---|---|
| 价格 | $14.99/月 或单本购买 | 免费 |
| 语音 | 人类朗读 | AI 合成(Kokoro) |
| 书库 | Audible 自己的目录 | 你已有的 Kindle 书 |
| 需要重新购买 | 是 | 否 |
| 离线 | 支持 | 不支持 |
| 语音自然度 | 10/10 | 8/10 |
说实话:Audible 的人声朗读当然更好。专业配音演员的表现力、情感、停顿,AI 还追不上。
但如果你的需求是「听我已经买了的 Kindle 书,不想再花钱」,CastReader 是目前唯一的选择。AI 语音已经足够自然,听文档、非虚构类书籍完全没问题。小说的话,看你对语音质量的要求。
限制
需要 Kindle Cloud Reader。 只能在 read.amazon.com 上用,不能在 Kindle App 或 Kindle 设备上用。
OCR 不是 100% 完美。 绝大多数情况下识别准确率非常高,但偶尔会有个别字符识别错误,特别是特殊排版或插图较多的页面。
需要网络。 实时 OCR + TTS 合成,需要连接网络。
翻页有短暂停顿。 每次翻页需要几秒钟做 OCR 识别,然后才能继续朗读。不像 Audible 那样完全无缝。
试试看
从 Chrome 应用商店 安装 CastReader。打开 read.amazon.com。选一本书。点图标。
你已经花钱买了这些书。现在可以免费听了。