AI 時代的影片製作(一) – 生命科學圖書館推廣服務誌

台北醫學大學陳宏霖博士

1. 前言：

隨著人工智慧工具的快速進步，越來越多的人能夠高效地完成各種創作任務。例如，當我們想製作一部介紹半乳醣凝集素在免疫炎症中功能的影片時，可以利用大型語言模型的軟體來整理相關文獻的要點。這類工具不僅能幫助我們提煉出關鍵資訊，還能進行翻譯，並撰寫介紹內容的段落。如果希望用自己的聲音來朗讀內容，可以利用AI工具進行聲音建模；如果想要添加替身的圖片，也可以使用圖片生成軟體，根據提供的照片或提示詞生成圖片，然後利用AI軟體將聲音與影像合成，並模擬嘴型，製作出一部看似有人在讀稿的影片。今天這篇文章主要分享我個人如何利用相關的AI軟體（大多數是免費的）來完成影片製作的過程，供有興趣製作相關影片的朋友參考。

２. 軟體介紹

文字內容生成AI工具

如果您想製作一個介紹科學文章的影片，並希望從PDF文件中提取和分析內容，您可以考慮使用一些大型語言模型（LLM）工具來協助您。這些工具能夠有效地處理和理解文本，幫助您提取關鍵信息並生成易於理解的解說。

例如，您可以使用OpenAI的ChatGPT或Google Bard來分析PDF中的內容，這些模型能夠回答問題並提供摘要，讓您快速掌握文章的核心要點。此外，Microsoft Azure OpenAI Service也提供了強大的文本分析功能，能夠從科學文章中提取重要數據和結論。

如果您需要更高的靈活性，Hugging Face的Transformers庫和LangChain框架可以幫助您將LLM與PDF處理工具結合，進行更深入的文本分析。這樣，您可以根據需要自定義分析過程，提取特定的數據或觀點。

另外，專門針對文檔的工具如ChatPDF，則能夠直接從PDF中提取信息並生成對話式的解說，這對於製作影片來說非常方便。ChatPDF提供免費和付費的使用選項，免費版本允許用戶上傳和分析一定數量的PDF文件，而付費版本則提供更多的功能和更高的使用限制，適合需要頻繁使用或處理大量文檔的用戶。這些工具不僅能幫助您理解科學文章的內容，還能生成清晰的解說文本，讓您的影片更加生動有趣。

圖片生成AI工具

隨著人工智慧技術的迅速發展，圖片生成AI工具已經成為創意工作者和藝術家們的重要助手。這些工具利用深度學習算法，能夠根據用戶的指示生成高質量的圖像，無論是插畫、數位藝術還是照片修飾。常見的圖片生成AI工具包括DALL-E、Midjourney和Stable Diffusion等，它們各自擁有不同的特點和應用場景。

這些工具通常允許用戶輸入文字描述，然後根據這些描述生成相應的圖像。這種技術不僅提高了創作的效率，還為藝術家提供了新的靈感來源，讓他們能夠探索不同的風格和主題。

在眾多圖片生成AI工具中，Krita是一個特別值得關注的選擇。Krita是一款開源的數位繪畫軟體，專為插畫家和數位藝術家設計。它提供了豐富的畫筆和工具，支持多層次的繪圖和編輯功能，並且擁有直觀的用戶界面，適合各種水平的使用者。

Krita的強大之處在於其社群驅動的開發模式，這意味著用戶可以不斷獲得新功能和更新。此外，Krita還支持各種插件和擴展，讓用戶能夠根據自己的需求進行自定義。最近，Krita也開始整合一些AI技術，幫助用戶在創作過程中更高效地生成圖像，這使得它在數位藝術創作中更具競爭力。

總的來說，Krita不僅是一個功能強大的數位繪畫工具，還是一個不斷進化的平台，為藝術家提供了無限的創作可能性。無論您是專業藝術家還是業餘愛好者，Krita都能幫助您實現您的藝術夢想。

聲音合成AI工具

聲音合成AI工具已經成為音頻創作和編輯領域的重要資源。這些工具利用深度學習和自然語言處理技術，能夠生成高品質的語音，並且可以模擬不同的聲音風格和情感。常見的聲音合成AI工具包括Google的WaveNet、Amazon Polly、Microsoft Azure的Text-to-Speech等，這些工具廣泛應用於語音助手、遊戲配音、廣播和有聲書等領域。

這些工具通常允許用戶輸入文本，然後生成相應的語音，並且可以調整語速、音調和情感等參數，以滿足不同的需求。隨著技術的進步，這些合成的聲音越來越自然，甚至可以模擬特定人物的聲音，為創作者提供了更多的靈活性和創意空間。

在眾多聲音合成AI工具中，GPT-SoVITS是一個特別值得關注的選擇。GPT-SoVITS是一個基於深度學習的聲音合成系統，專注於生成高品質的語音和音樂。它結合了GPT模型的強大語言理解能力和SoVITS的聲音合成技術，能夠生成自然流暢的語音，並且支持多種語言和風格。

這篇文章主要介紹了GPT-SoVITS的操作和使用方法，包括如何安裝和配置該工具、如何輸入文本以生成語音，以及如何調整參數以獲得最佳效果。文章還提供了一些實用的範例和技巧，幫助用戶充分發揮GPT-SoVITS的潛力，創造出高品質的音頻內容。無論您是音頻創作者、遊戲開發者還是對聲音合成感興趣的愛好者，GPT-SoVITS都能為您提供強大的支持，助您實現創意的聲音表達。

影像合成嘴型

AI技術的進步使得聲音與影像的合成變得越來越精確，特別是在模擬嘴型方面。這類技術通常被稱為「視頻重講」（video retalking），它能夠將音頻與視頻內容結合，並使視頻中的人物嘴型與聲音同步，創造出更自然的視覺效果。

視頻重講技術的工作原理首先涉及音頻分析，AI系統會分析輸入的音頻，識別出語音的特徵，包括音調、語速和發音等。接著，系統根據這些音頻特徵生成相應的嘴型動作，這通常是通過深度學習模型來實現的，這些模型能夠學習到不同語音對應的嘴型運動。最後，AI會將生成的嘴型動作應用到視頻中的人物上，並進行合成，產生一個新的視頻，讓人物的嘴型與聲音完美同步。

這項技術的應用場景非常廣泛。在影片配音方面，視頻重講技術可以用於讓配音演員的聲音與視頻中的角色嘴型一致，提升觀眾的沉浸感。此外，它也可以應用於語言學習，幫助學習者更好地理解發音和口型，從而提高語言學習的效果。在社交媒體內容創作中，許多內容創作者利用視頻重講技術來製作有趣的短視頻，吸引觀眾的注意力。而在遊戲和動畫中，這項技術可以用來為虛擬角色配音，讓角色的表現更加生動。

視頻重講的優勢在於其高效性和靈活性。傳統的配音過程需要大量的時間和人力，而視頻重講技術能夠快速生成高品質的視頻內容，並且用戶可以輕鬆地更改音頻內容，而不需要重新拍攝視頻，這對於需要頻繁更新內容的創作者來說非常方便。隨著技術的進步，視頻重講生成的嘴型動作越來越自然，能夠有效提升觀眾的觀看體驗。

總之，視頻重講技術是一項革命性的AI應用，能夠將聲音與影像完美結合，並模擬嘴型，為各種領域的創作提供了新的可能性。隨著技術的進一步發展，未來我們將看到更多創新的應用場景和更高品質的內容生成。

影片剪輯

影片編輯的AI工具已經成為創作者和專業人士的重要資源。這些工具利用人工智慧技術，能夠自動化許多繁瑣的編輯過程，提升工作效率，並幫助用戶創造出更具吸引力的影片。常見的AI影片編輯工具包括Adobe Premiere Pro的Sensei、Final Cut Pro的智能編輯功能、以及專注於自動化編輯的工具如Magisto和Lumen5等。

除了上述工具，剪映（CapCut）也是一款非常受歡迎的影片編輯應用。剪映是一款專為手機用戶設計的影片編輯工具，提供了簡單易用的界面和豐富的編輯功能。用戶可以輕鬆地進行剪輯、添加音樂、特效、文字和過渡效果，並且支持多種格式的影片導入和導出。剪映的AI功能能夠自動識別影片中的重要片段，並提供智能剪輯建議，讓用戶能夠快速創作出高品質的短影片，特別適合用於社交媒體平台。

這些AI工具通常具備以下功能：自動剪輯、場景檢測、音頻調整、顏色校正、以及特效應用等。用戶只需上傳素材，AI便能分析內容並提供編輯建議，甚至自動生成完整的影片，這對於時間有限的創作者來說，無疑是一大助力。

在眾多影片編輯工具中，威力導演（PowerDirector）是一個特別受歡迎的選擇。威力導演是一款功能強大的影片編輯軟體，提供了多種編輯工具和特效，並且具備友好的用戶界面，適合各種水平的用戶使用。它的AI功能能夠自動分析影片內容，提供智能剪輯建議，並且支持4K和360度影片編輯，滿足現代影片製作的需求。

這篇文章主要使用了威力導演。無論您是影片創作者、社交媒體影響者，還是對影片編輯感興趣的愛好者，威力導演都能為您提供強大的支持，助您實現創意的視覺表達。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31