VOICEVOXとCastReader——「声を作る」と「文章を聴く」は別の道具

ずんだもんに記事を100本読んでもらおうとして、30分で諦めた話

きっかけはYouTube。VOICEVOX のずんだもんが技術解説する動画をよく見る。あの声が好きだ。かわいい。聴いていて飽きない。

ある夜、思いついた。「この声で、はてブの記事を読ませたら最高じゃないか」。VOICEVOXは無料だし、テキストを入れれば音声が出る。Podcastみたいに通勤で聴ける。完璧なプラン。

VOICEVOXをダウンロードした。起動した。はてなブログの記事をブラウザで開いて、本文をCtrl+Aで全選択して、コピーして、VOICEVOXのテキストエリアに貼り付けた。

サイドバーのテキストも全部入った。「プロフィール 最新記事 カテゴリ アーカイブ 2025年12月 2025年11月……」。手動で削除する。記事本文だけ残す。3分かかった。

VOICEVOXはテキストを一文ずつ区切って表示する。「。」で区切って、それぞれにアクセントや速度の設定ができる。記事1本で200文くらい。全部のアクセントを確認して、おかしいところを直して……やらない。デフォルトのまま再生ボタンを押す。

1記事分の音声が生成された。WAVファイル。再生してみる。ずんだもんの声で技術記事が読まれる。これ自体は楽しい。でも1記事読ませるのに、コピペと手動テキスト整形で5分かかった。

100記事読ませたいんですけど。500分? 8時間以上?

無理だ。

これはVOICEVOXが悪いんじゃない。VOICEVOXは「声を作る」ためのツールだ。YouTube動画のナレーション、ゲームのキャラクターボイス、楽曲のボーカル。テキストを入れて、ピッチを調整して、感情を設定して、高品質な音声ファイルを出力する。それがVOICEVOXの仕事。1本の動画に30分かけてナレーションを作り込む——そういう用途に最適化されている。

僕が欲しかったのは別のもの。「ブラウザで開いた記事を、今すぐ耳で聴きたい」。それだけ。ピッチの調整も要らない。アクセントの微調整も要らない。記事本文だけ抽出して、そこそこ自然な声で読んでくれれば十分。

CastReaderはそっちの道具だった。Chrome拡張機能。はてなブログを開いて、アイコンをクリック。3秒で読み上げが始まる。本文だけ。サイドバーなし、ナビゲーションなし、広告なし。ずんだもんの声じゃないけど、自然な日本語の音声で読み上げる。Kokoro AIエンジンというらしい。

1記事5秒。100記事でも500秒。8分。

8時間が8分になった。

もちろんトレードオフはある。VOICEVOXの音声品質はCastReaderより上だ。キャラクター性のある声、ピッチの自由度、感情の表現力。ずんだもんの「のだ」語尾とか、四国めたんの落ち着いた声とか。CastReaderの音声は「自然だけど個性がない」タイプ。記事を読むには十分だけど、動画のナレーションには物足りない。

逆もまた真。CastReaderにはVOICEVOXにない機能がある。段落ハイライト。読み上げている段落がページ上で黄色く光る。目で追いながら耳で聴ける。ブラウザ内で完結するから、アプリの切り替えがない。Kindle Cloud ReaderをOCRで読む機能。ChatGPTやClaudeの回答を一つずつ読み上げるボタン。

道具が違うのだ。

金槌とドライバー。どっちが良い道具か、と聞かれても答えられない。釘を打つなら金槌、ネジを回すならドライバー。VOICEVOXで動画を作る、CastReaderで記事を聴く。

実際、僕は両方使っている。週末にYouTube用の解説動画を作るときはVOICEVOX。通勤中にはてブやQiitaの記事を消化するときはCastReader。両方無料だから、両方入れておいて損はない。

VOICEVOXはvoicevox.hiroshiba.jpからダウンロード。CastReaderはChromeウェブストアからインストール。両方無料。用途に合った道具を使えばいい。ずんだもんに100本の記事を読ませるのは、やめておいたほうがいい。

VOICEVOXとCastReader——「声を作る」と「文章を聴く」は別の道具 | CastReader