[實驗] 把 YOUTUBE 語音辨識轉文字再丟去 GPT 統整重點,看看效果如何

基於影音的內容太多、而大腦的注意力太少,平常聽 podcast、youtube 最快也就是1.5~2倍速、當然可以用一些外掛調到更快,但是太快其實也吸收不了什麼。相較於影音,如果改用文字輸入到大腦,資訊量的傳遞會比聆聽觀賞影音快得多。因此興起了把影片轉成逐字稿、再把逐字稿丟去 GPT 做摘要,看看效果如何。

實驗影片:【Joeman】外觀超美!亞洲第一萬間7-11開箱!台南亞萬門市

挑選理由:時間長度短(4:59秒)方便驗證概念、中文且應該沒有太難的特定領域用字

辨識方式

本來預計嘗試三間不同的語音辨識服務,Google Cloud Speech-to-Text API、本土團隊開發的雅婷逐字稿、中國的訊飛,但訊飛需要中國大陸的手機才能使用,而申請中國手機門號需要台胞證+實名制,手邊的台胞證效期已過只好暫時作罷。

雅婷逐字稿 + ChatGPT

雅婷很方便的是可以直接貼上 youtube 連結就好,抓取音檔識別會完全在雲端完成,另一個很棒的地方是,他有補上標點符號。

識別結果(可以點自動折行按鈕展開細看):

丟到 GPT 抓重點,不用 ChatGPT是因為輸入+輸出有大約4096個token的限制,GPT 會比 chatGPT 更適合。更長的文章恐怕就得分段了。

  1. 亞洲第一間seven,全台灣唯一的巧克力區 -> 錯誤,不是第一間,而是第一萬間。
  2. 門市有4米高度,有多功能包廂可以開會使用,上面有成人風格的物品。-敘述有點微妙的正確,實際去看影片後發現,裡面所講的成人風格是指Open將的畫風比較是成人風格
  3. 有各式各樣的文具、零食、護手霜、漫威玩偶、聯名商品等。-> 正確
  4. 巧克力區擁有主流品牌以及來自日本、韓國、泰國的進口品牌。-> GPT 腦補,影片裡提到的韓國、泰國是指零食來自不同的國家,而不是巧克力
  5. 巧克力區有不可思議咖啡,口味有一般咖啡、拉花、特選丼等。-> 看不懂在寫什麼,影片提到的是有「不可思議咖啡」和「拉花」

自己看影片後遺漏的重點

  • 亞洲第一萬間711,被稱為亞萬門市
  • 文具相較於其他711齊全
  • 有coldstone
  • 有21世紀

Google Speech-to-Text API

Google Speech-to-Text API 最主要的問題是,並沒有自動斷句添加標點符號的功能(還不支援中文)。但仔細閱讀,其實句子還算通順。。

轉譯內容:

請 GPT 統整重點

亞洲的10000間seven店面:

  1. 巧克力曲竟然seven:有COLD STONE多功能包廂 -> 正確,但coldstone多功能包廂聽起來是某種可以邊吃冰淇淋邊開會的餐廳
  2. 店面寬敞:至少有4米高度 -> 正確
  3. 販售特別商品:聯名商品、玩偶、國外進口商品 ->正確
  4. 唯一的巧克力漆:可以在店內直接吃 ->識別錯誤,是巧克力區。可以在店內直接吃??
  5. 附設不可思議咖啡:有特選豆 正確

一樣沒有提到21世紀和齊全的文具。

總結

  • 資訊量隨著轉換的過程逐漸遺失,影片轉成逐字稿必然會出現錯字、漏字、錯誤用詞,而請GPT做總結時,大概可以掌握三~四成左右的重點,其他資訊會掉光光
  • GPT 有其輸入和輸出限制,沒辦法一次倒進大量的資料,勢必得分段處理。
  • Google Speech to Text API 因為無斷句會影響直接閱讀逐字稿,不確定會不會對 GPT 造成影響(我猜影響應該不大)
  • 請 GPT 做總結,效果不算差,但也不一定是個好主義,只看結論可能會遺漏掉重要的資訊而不自知,帶著問題去問你想知道的事情可能會比較好,GPT 擅長的應該是接龍、產生文字類型的任務。

One thought on “[實驗] 把 YOUTUBE 語音辨識轉文字再丟去 GPT 統整重點,看看效果如何

  1. 可以試試用OpenAI提供的Whisper(語音轉文字), 上次玩效果還不錯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *