前往主要內容區

NVDA部落

Whisper01 — 軟體介紹與下載

上架日期:2025-05-30
學習交流
沈彥霖

文/沈彥霖

筆者是一位主業為音樂表演、副業為電腦教學的視障者,大約從 8 年前開始,AI 工具就已經悄悄地在我的生活中出現。先是 AI 去除人聲工具、AI 混音工具、AI 聊天機器人等等。這幾年,可以說是 AI 工具瘋狂發展的最佳時刻。想一想,你的生活是不是也已經被 AI 填滿了呢?

Whisper 登場

Whisper AI 是一款先進的自動語音辨識(ASR)系統,由 OpenAI 開發,也就是 ChatGPT 和 DALL-E 背後同一個團隊。與傳統的轉錄工具不同,Whisper AI 是開放原始碼、可免費使用,並能轉錄跨語言的語音,支援多達 99 種語言。

現在是一個資訊爆炸的時代,各種影音媒體的資訊量越來越大。以前,人們可以花許多時間看完一部長影片,而現在,若能把長影片看完,那可說是一件不容易的事,畢竟想學的東西太多了。該如何善用工具?AI 工具的出現,正好解決了現代人的這項需求。

我在高中時聽過一個視障者能從事的工作類型叫作「聽打」。簡單來說,就是將音訊檔案透過聆聽與理解後,再於電腦上輸入成文字。當時厲害的聽打員處理出的文本,閱讀起來那叫做一個舒服。當然,這些聽打人員也需要接受語言、文書、工作效率等各方面的訓練。而現在,只要學會使用 Whisper 這套工具,你也可以讓閱讀與理解資訊變得更加容易且有效率。

玩 AI 工具對電腦的要求

在你準備開始學習這套軟體,或者要開始使用任何 AI 離線工具前,必須先確認電腦規格是否足夠。以下列出筆者所知道的需求:

  • 顯示卡:至少 NVIDIA GTX 2050 以上
  • 記憶體:至少 16GB
  • 硬碟:建議使用固態硬碟(SSD)
  • 處理器:可優先選擇為 AI 筆電打造的處理器,例如 Intel 的 Intel Core Ultra 系列,這是 Intel 為 AI PC 趨勢打造的新一代處理器。它把 CPU、GPU、NPU/AI 加速器整合在一起,讓筆電可同時處理傳統運算、多媒體與 AI 任務。

當然,若預算允許,加購獨立顯示卡,性能會差非常多。

在你準備往下閱讀到軟體下載的教學之前,筆者建議:可以先在沒有 AI 規格的電腦上試試看。若真的有興趣,再考慮購買也不遲。

軟體下載

Whisper 原本是透過 CMD(命令提示字元)操作的介面,不過後續也推出了視窗版,也就是可以用 Tab 或方向鍵操作的版本。本系列教學即以此視窗版作為主要操作環境。

以下將進行 Whisper 主程式與語音模型的下載。

Whisper 主程式下載

請使用你的瀏覽器,打開以下連結:
Whisper 主程式下載

進入網站後,若使用 NVDA,請先按 Ctrl + Home 回到頁面最上方,再使用單鍵瀏覽英文字母 H 找到「Version」開頭的位置,這裡是 Whisper 的版本號(不確定是否會持續更新)。

接著,按英文字母 K 找到 WhisperDesktop.zip,按 Enter 即可下載。

下載完成後,請到儲存下載檔案的位置,找到剛下載的壓縮檔,按右鍵開啟功能表,選擇「解壓縮全部」或「解壓縮到 XXX」(XXX 為壓縮檔名稱)。

備註:Whisper 的壓縮檔若直接解壓縮到目前資料夾,檔案會散落在同一層,因此建議解壓縮到專屬資料夾。

Whisper 語音模型下載

Whisper 必須依賴語音模型檔,才能將我們輸入的聲音檔進行文字轉換。語音模型檔有不同大小,筆者使用一段時間後的建議如下:

  • 若只是單一語言的轉換 → 推薦 ggml-medium(中模型)
  • 若需要較高準確度與多語言轉換 → 推薦 ggml-large(大模型)

不同模型大小會影響推理速度與資源消耗,請依需求選擇。

本次教學將以中模型進行說明,後續也會提到如何切換模型。

請點此連結開啟 Whisper 語音模型下載頁面

進到網頁後,可使用單鍵瀏覽英文字母 K 找到 ggml-medium.bin 連結,按 Enter 進入後,再按字母 K 找到 download 連結,即可下載。

備註:此網頁提供多種類型的模型,而每種類型又包含多個獨立模型。若要快速找到中模型,可用以下方法:

  1. 開啟模型下載網頁並確認 NVDA 處於「瀏覽模式」。若不確定,可按 NVDA +空白鍵 切換,聽到「嘟」一聲代表正處於瀏覽模式。
  2. 按 Ctrl + Home 回到網頁最上方。
  3. 按 NVDA + Ctrl + F 開啟搜尋框,貼上:ggml-medium.bin
  4. 按 Enter,即可直接跳到中模型下載點,按 Enter 點開即可依照後續指示下載。

最後,建議各位讀者將下載回來的模型與 Whisper 主程式放在同一個資料夾,以利後續操作與模型瀏覽。關於如何使用,我們將在下一篇繼續說明。

回頂端
Loading...