V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
R0sin

分享一下自用的播客翻译工具

  •  1
     
  •   R0sin · 2 天前 · 480 次点击

    TL;DR

    去年通勤时想听一些国外的播客,vibe search 了一圈好像没啥特别钟意的播客翻译工具,后来本地跑了个简陋的 ASR + 翻译 + TTS 的流水线应付了下。

    年初 qwen3-tts 发布后便有心让 AI 搓一个方便复用的工具,最近抽空薅 OpenAI Codex 羊毛做了个 CLI 自己用着感觉还可以。为了快速跑通和效果稳定,TTS 直接用的阿里云服务,后续有空或者需求的话再支持本地模型部署或者其他渠道。

    快速开始

    首先需要准备一个阿里云的 API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key

    环境中还需要安装 ffmpeg

    # 使用 uv 安装 CLI
    uv tool install git+https://github.com/R0sin/podtran
    # 初始化配置,默认路径为 ~/.podtran/podtran.toml
    podtran init
    

    初始化时需要填写 HF_TOKEN,主要为了使用 WhisperX 的人声分离模型,引导中有跳转链接。

    初始化完成后可以在配置文件中修改 ASR 模型配置,默认是 cpu 跑的参数。

    安装完依赖就能用了:

    # 截取前五分钟跑流水线
    podtran <audio_path> --preview
    # 跑完整音频翻译流水线
    podtran <audio_path>
    

    套壳所以原生支持 mp4 等媒体格式输入。

    其他 CLI 用法可以参考 README 和 help 信息。

    其他补充

    • 默认配置是音色克隆的方式和模型,因为试了预置的音色都情感拉满,不适合播客。
    • 翻译模式按照个人偏好默认设置为穿插播放,15s 或者说话人变更后会插入翻译,主要是为了锻炼下口语听力。
    • 博客链接中有段简短片段可以试听效果。

    欢迎使用和提建议,有用的话麻烦点个 star ,谢谢!

    也欢迎分享一些有意思的播客频道。

    可能的迭代方向

    • 支持多渠道(翻译/音色克隆/TTS )
    • 支持音乐人声分离(如效果明显)
    • 支持其他交互(前端/GUI/Skills )
    • 支持广告过滤

    相关链接

    博客原文:https://r0sin.pages.dev/podcast-translator-cli(需代理访问)

    GitHub:https://github.com/R0sin/podtran

    4 条回复    2026-04-15 13:20:24 +08:00
    azhangbing
        1
    azhangbing  
       2 天前   ❤️ 1
    star 了 fork 一个做一下本地的 qwen3 tts base 可怜 和 whisper 试试
    TonyHoAspire
        2
    TonyHoAspire  
       2 天前   ❤️ 1
    我有一个想法 做个 App 这样子大家可以直接复用&收听 你已经转好的播客节目,节省 LLM 成本和地球资源
    R0sin
        3
    R0sin  
    OP
       2 天前
    @azhangbing #1 感谢 star ,whisper 目前就是本地跑的,tts 的话后面我也看看本地如何集成方便。
    R0sin
        4
    R0sin  
    OP
       2 天前
    @TonyHoAspire #2 好主意,我初心的话还是做一个轻量的本地工具,让我想想一键发布到小宇宙之类的平台是否可行。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   882 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 20:28 · PVG 04:28 · LAX 13:28 · JFK 16:28
    ♥ Do have faith in what you're doing.