AI 時代的影片製作(二)實際軟體操作與簡介

1. 網路搜尋相關文獻以製作影片內容。

在製作影片之前,首先需要找到與主題相關的科學文獻。這些文獻將提供必要的背景知識和研究結果,幫助我們更好地理解主題並撰寫影片內容。

使用軟體

搜尋引擎:使用Google Scholar、PubMed或其他學術搜尋引擎,輸入關鍵字(如「半乳醣凝集素 免疫」)來查找相關的學術文章。

篩選文獻:根據發表日期、引用次數和期刊影響力等標準,篩選出最相關和最具權威性的文獻。

下載PDF:找到合適的文章後,下載其PDF文件以便後續分析和製作內容簡介。

結果輸出

完成文獻搜尋後,將所選的PDF文件上傳至ChatPDF或其他文本分析工具,提取關鍵信息,並生成簡介或解說內容,為影片製作奠定基礎。這樣可以確保影片內容的準確性和學術性。

由於我是做半乳醣凝集素(galectins)的相關研究的, 所以這次舉例我想要錄製一個影片, 來解說一篇介紹半乳醣凝集素的相關文獻, 的相關流程。

2. 製作個人化的替身,並結合聲音合成, 與影像合成技術。

在影片製作中,個人化的替身可以增強觀眾的參與感和互動性。透過影像生成軟體和聲音合成工具,我們可以創建一個獨特的虛擬角色,並使其在影片中表現出來。

影像生成:

下載並安裝Krita及其Generative AI插件。

使用自己的照片作為參考,選擇不同的影者模型生成替身的圖像。

下載影像模型,常用的下載渠道包括HuggingFace和CivitAI,選擇適合的模型生成不同風格的圖片。

Krita 安裝:

https://krita.org/zh-tw/download

AI 插件安裝:

https://github.com/Acly/krita-ai-diffusion

由於YouTube 上已經有很多想關的影片介紹Krita AI 圖生圖, 與圖更換背景與人物的簡介, 所以我就不在另外介紹, 但是提供以下相關教學連結給大家參考:

AI功能安裝

https://www.youtube.com/watch?v=ttXF9HPcvRw&t=318s

AI繪圖教學

https://www.youtube.com/watch?v=-BgYW4g8E0Q&t=7s

3. 聲音合成:

選擇一款聲音合成AI工具(利用一段之前的錄音來訓練模型之後, 就可以利用模型來唸出文稿, 我使用的軟體是 GPT-SoVITS 將影片內容輸入到聲音合成工具中,生成與替身相符的語音。

https://github.com/RVC-Boss/GPT-SoVITS

軟體安裝和操作, 可以根據github網頁上的資訊進行, 我是使用windows 系統, 也完全沒有問題

網路上已經有很多教程如下:

https://reurl.cc/VMekZy

以下是摘錄自上面網頁 大致上軟體的使用流程如下

步驟 1: 安裝 GPT-SoVITS

•      本地安裝選項:

o      Windows: 下載官方整合包,運行 go-webui.bat。

o      Mac: 建議使用 Colab 以避免安裝問題。

•      啟動程式:

o      點擊「執行階段 → 全部執行」以開始下載和安裝。

o      允許所有警告和授權提示。

o      確認安裝成功後可見「Running on public URL」。

步驟 2: 提供訓練的聲音素材

•      聲音素材要求:

o      1~2 分鐘的中文聲音素材,格式為「.wav」,無背景噪音。

•      上傳聲音檔:

o      在 Google Drive 中建立「voice_files」資料夾及其子資料夾「raw」和「slicer」。

o      將聲音檔上傳至「raw」資料夾。

•      切割聲音檔:

o      複製聲音檔和分割聲音的資料夾路徑,並在 GPT-SoVITS 網頁上進行切割。

步驟 3: 檢查語音識別是否準確

•      標記語音識別文件:

o      複製 slicer_list 路徑並貼到「.list annotation file path」。

o      勾選「Open labelling WebUI」以進行標記和檢查準確性。

步驟 4: 將訓練的資料格式化

•      格式化資料:

o      在 GPT-SoVITS 網頁中填寫模型名稱及相關路徑。

o      點擊「Start one-click formatting」以完成資料格式化。

步驟 5: 微調訓練

•      開始訓練:

o      點擊「1B-Fine-tuned training」,依序啟動 SoVITS 和 GPT 訓練。

o      提醒使用者下載完成的檔案以防資料丟失。

步驟 6: 推理,輸入文字生成聲音

•      進行推理:

o      進入「1C-inference」分頁,刷新模型路徑。

o      點擊「Open TTS inference WEBUI」以生成聲音。

•      下載生成音頻:

o      提供生成音頻的下載選項,並鼓勵使用者試聽。

4. 影像聲音合併合成

準備好了上面的聲音檔, 接下來就是準備一段影片, 由於我們是使用Krita 生成的替身圖檔, 我們可以利用螢幕錄影軟體, 打開圖片, 錄製一段影片(我常用的免費螢幕錄影軟體如Ocam 就是一套簡單的螢幕錄影錄音免費軟體)

https://github.com/vinthony/video-retalking.git

按照GitHub的指示, 安裝所有需求的軟體後就可使用, 使用也是相當方便, 只要執行以下程式:

python3 inference.py \

  --face examples/face/臉部影像.mp4 \

  --audio examples/audio/聲音檔案.wav \

  --outfile results/合併結果.mp4

5. 製作投影片

我們可以把這篇文章中的圖表和網路上搜尋的圖片資料做成投影片

也可以再利用ChatPDF 提供圖片的解釋與翻譯

我們可以簡單利用Microsoft PowerPoint 軟體, 把PDF檔案中的圖片,貼到PPT上進行編輯, 如對圖片內容不清楚或是需要翻譯, 也可以在進入ChatPDF 進行詢問, 只要在PDF文件中選取部分區域或文字, 就會出先文字提示, 可以選擇解釋。

6. AI 音樂生成

給一段文字, 生成音樂

(因為只能給少於200個字作歌曲創作, 所以我用ChatPDF生成的第一段話)

https://ai-music-generator.ai

(如需下載檔案需要註冊與付費)

以下式網頁生成的歌詞內容:

凝集的力量

凝集素 在細胞中存在

結合糖類 沒有空白

核內發揮 外部也不敗

散步在 身體的每個地帶

先天免疫 它來掌控

適應免疫 不會拋空

重要角色 不容忽視

在免疫中 一直保持

……….

(我們之後把這段音樂變成片尾曲)

https://youtu.be/ErhsHge5kGo

上傳到YouTube 可以發現AI創作的音樂沒有版權的問題

7. 影像剪輯

現在有很多影片剪輯軟體都有附上AI功能, 可以協助放字幕, 我這次是使用威力導演, 網路上有很多教學和相關資料,如下:https://reurl.cc/GpDMgA

為了放入投影片和剛剛做好的, 替身配音影片, 我們可以使用子母畫面的功能 ~ 威力導演下載:https://tw.cyberlink.com/downloads/trials/powerdirector-video-editing-software/download_zh_TW.html

8. 螢幕錄影錄音軟體

在很多時候需要將螢幕的影像或是聲音錄影,錄音, 這時候介紹一個方便好用的免費軟體

Ocam (註: 使用免費軟體, 會有廣告跳出喔!)

Ocam 下載網址:https://www.azofreeware.com/p/ocam.html

後記

在這次的分享影片的製作中,我們探討了如何使用AI工具來進行語音合成的過程。這些內容純屬於我個人的學習與查詢經驗,並不涉及任何商業軟體的廣告或推廣。所有資源均來自於網路上的公開資訊,旨在與大家分享我在學習過程中的收穫與心得。

需要特別提醒的是,部分軟體在運行時需要使用GPU,因此如果您打算在個人電腦上安裝這些工具,請務必確認您的電腦配備了NVIDIA顯卡,以確保能夠順利運行。希望這段分享能對有興趣的朋友們有所幫助,並激發更多人探索AI技術的潛力!

0