布丁狗 AI 短影音實作:用 Google Gemini Omni 生成角色一致的 10 秒影片

AI 影音實作

我最近用 Google 的 Gemini Omni 做了一支很療癒的短影音:一台布丁狗造型的巴士開進台北街頭,背景是台北 101,停車、開門,然後一大群布丁狗衝下車、直直朝鏡頭跑過來,最後一隻把臉貼在鏡頭上。這篇把我從三張參考圖到 10 秒成片的完整流程拆給你看,包含提示詞怎麼寫、第一版要檢查哪六件事、哪裡最容易翻車,以及最重要的——布丁狗有版權,這支影片能做、不能做什麼,我在文末講清楚。

TL;DR 三十秒讀懂

用 Gemini Omni 生成角色一致的 AI 短影音,操作很單純:直接在 Gemini 對話框輸入提示詞、上傳三張參考圖,就能生成一支 10 秒影片。關鍵是三張參考圖分工要清楚(場景、角色、巴士各一張),提示詞按秒數分段,並反覆強調角色與巴士維持造型不變形。

如果一次生 10 秒不穩,拆成 0 至 6 秒與 6 至 10 秒兩段各自生成再剪接會更好控。而角色若是布丁狗這類有版權的 IP,AI 生成不等於取得授權,只能個人欣賞或社群分享,不能商用。

先講結論:這支影片到底在做什麼

畫面很單純,但情緒張力做得出來:白天晴朗的台北大道,背景清楚可見台北 101,一台淡黃色毛絨材質、車頭有布丁狗臉的巴士從遠方開進來,靠邊停下。車門打開,第一隻布丁狗探頭、下車,接著後面陸續冒出越來越多隻,最後整群像一波黃色毛絨浪潮衝向鏡頭,最前方那隻把整張臉貼在鏡頭玻璃上,後面還有好幾隻繼續擠過來。

會選這個題目,是因為它同時考驗 AI 影片最難的兩件事:角色一致性(一群角色都要長一樣、巴士不能變回普通車)和前中後景的層次(貼鏡頭那一幕不能只剩一團模糊)。把這兩件事做穩,其他題材就都好處理了。

先看成品,這就是這篇要教你做出來的東西:

為什麼這次用 Gemini Omni

Gemini Omni 是 Google 在 2026 年推出的多模態影片模型,最方便的一點是:不用另開專門的生成介面,直接在 Gemini 對話框輸入提示詞、上傳參考圖就能生成,還能用自然語言對話式微調。目前單次生成長度是 10 秒,所以這支片我就以 10 秒為目標來設計節奏。

另外一個做內容的人該知道的點:Gemini Omni 產出的每支影片都會嵌入 SynthID 隱形浮水印與標記為 AI 生成的來源資訊。這對「這支片是不是 AI 做的」是可被驗證的,跟後面要談的版權與揭露觀念也有關係。

第一步:準備三張核心參考圖

用參考圖鎖定造型,是角色一致性的地基。我準備了三張,各司其職。以下就是我這次實際用的三張圖:

Gemini Omni 場景參考圖:白天晴朗的台北城市大道與台北 101
圖一 場景參考
Gemini Omni 布丁狗角色參考圖:淡黃色毛絨、棕色貝雷帽、垂耳、粉紅臉頰
圖二 角色參考
Gemini Omni 布丁狗造型巴士參考圖:車頭有布丁狗臉、垂耳、粉紅臉頰、棕色帽子
圖三 巴士參考
參考圖 用途 要強調的重點
圖一 場景 定義世界觀與背景 白天晴朗、台北城市街景、台北 101、寬闊大道、林蔭大道、乾淨街道
圖二 角色 固定主角造型 淡黃色毛絨、棕色貝雷帽、垂耳、粉紅臉頰、呆萌可愛表情
圖三 巴士 固定交通工具造型 整台就是布丁狗造型巴士、車頭有布丁狗臉、垂耳、粉紅臉頰、棕帽、毛絨材質、不是普通巴士

上傳順序建議照「場景、角色、巴士」放,因為這樣模型比較容易理解:第一張先定義背景世界觀,第二張定義主角造型,第三張定義交通工具這個重要道具。

第二步:把 10 秒拆成五個分段

不要把一整段劇情丟給 AI 讓它自由發揮。我的習慣是每兩秒一個節拍,每一段只交代一件事,這樣鏡頭節奏才穩。這支片我還特別在每一段都提醒「台北 101 只能有一棟」,因為模型很容易把地標複製成好幾棟:

秒數 畫面重點
0 至 2 秒 布丁狗巴士沿著台北大道駛入,背景是唯一一棟台北 101,低角度跟拍
2 至 4 秒 巴士靠邊停下,車門打開,幾隻布丁狗從車門與車窗探頭
4 至 6 秒 第一隻布丁狗下車,先看鏡頭再回頭招呼同伴
6 至 8 秒 大量布丁狗陸續下車、擠在門口,接著一起朝鏡頭奔跑
8 至 10 秒 最前方一隻臉貼鏡頭大特寫,後方仍有多隻擠上來

第三步:完整的 Gemini Omni 提示詞

下面這段是我實際用的提示詞,你可以直接複製,把場景換成自己的題材。在 Gemini 對話框貼上這段、再上傳三張參考圖即可。9:16 直式、10 秒、按秒數描述,重點在開頭先綁定三張參考圖,並全程限制台北 101 只能一棟:

整體設定
請根據參考圖生成一支 10 秒、9:16 直式、高品質 3D 動畫影片。參考圖一作為台北城市街景與唯一一棟台北 101 背景參考;參考圖二作為布丁狗角色造型參考;參考圖三作為布丁狗造型巴士參考。整體風格是明亮、可愛、療癒、毛絨玩偶質感、童趣電影感。白天晴朗,藍天白雲,柔和陽光,台北城市大道乾淨寬闊。背景只能有一棟台北 101,位置固定在遠方背景中央或偏右,不要出現第二棟台北 101,不要複製地標,不要鏡像地標。

0 至 2 秒
台北市寬闊大道,白天晴朗,背景清楚可見唯一一棟台北 101。一台巨大可愛的布丁狗造型巴士從遠方開來,車體是淡黃色毛絨材質,車頭有布丁狗的臉、垂耳、粉紅臉頰與棕色帽子。鏡頭使用低角度斜前方跟拍,車窗內可看到多隻布丁狗坐在裡面。畫面中只允許出現一棟台北 101,不要重複地標。

2 至 4 秒
布丁狗巴士慢慢靠邊停下。鏡頭移到巴士側前方,遠方背景保留單一一棟台北 101。車門打開,車內露出溫暖光線,幾隻布丁狗從車門與車窗探頭看向鏡頭。台北 101 不要分裂、不要複製、不要變成兩棟。

4 至 6 秒
第一隻布丁狗從車門口走下車。牠外型圓潤可愛,淡黃色毛絨身體,棕色貝雷帽,垂耳,粉紅臉頰,表情呆萌。牠先看向鏡頭,再回頭看向車內,像在呼叫後面的同伴。背景城市保持穩定,只有一棟台北 101 作為遠方地標。

6 至 8 秒
大量布丁狗開始從車內陸續下車,數量越來越多。牠們擠在巴士門口,然後突然一起朝鏡頭奔跑。鏡頭低角度微微後退,布丁狗們像柔軟的黃色毛絨浪潮一樣靠近,耳朵晃動,表情開心。遠方台北 101 只保留單一一棟,不要產生第二棟。

8 至 10 秒
最後其中一隻布丁狗衝到最前面,正面面向鏡頭,整張臉直接貼住鏡頭玻璃。牠的眼睛、鼻子、嘴巴、粉紅臉頰與棕色帽子以超近距離出現在畫面前景中心,臉部有可愛擠壓感,像軟綿綿的毛絨玩偶把臉壓在鏡頭上一樣。同時畫面不要完全被牠遮住,牠的兩側與後方仍然可以看到其他幾隻布丁狗擠過來、探頭看鏡頭、繼續往前跑,形成前景、中景、背景層次。如果背景仍可見城市地標,台北 101 必須只有一棟。

負面提示詞
不要人類角色,不要字幕,不要 logo,不要浮水印,不要恐怖感,不要角色變形,不要五官錯亂,不要多眼睛,不要多手腳,不要普通巴士,不要車體變形,不要模糊,不要低解析,不要夜景,不要雨天,不要鏡頭劇烈抖動。不要兩棟台北 101,不要多棟台北 101,不要複製台北 101,不要鏡像台北 101,不要讓台北 101 分裂,不要生成多個相同地標。最後一幕不要背對鏡頭,不要側臉,不要只剩一團模糊黃色毛絨,不要讓單一角色完全遮住整個畫面,後方必須仍可見其他布丁狗。

第一版生成後,重點檢查這六件事

生成完第一版,不要只看「可不可愛」。這六件事才是決定要不要重生的關鍵:

檢查 看什麼
1 場景像不像台北、地標對不對:台北 101 有沒有清楚出現、是不是白天、有沒有寬闊乾淨的城市大道感,而且畫面裡只能有一棟台北 101,別被複製或鏡像成兩三棟
2 巴士是不是布丁狗造型:車頭有沒有布丁狗臉、垂耳、粉紅臉頰、棕帽,還是變成「普通車貼布丁狗圖案」
3 角色是否一致:每隻布丁狗造型有沒有跑掉、五官有沒有亂、有沒有多手多腳、毛絨感有沒有保留
4 下車畫面順不順:第一隻下車清不清楚、招呼同伴的動作有沒有出來、後面大量出現時自不自然
5 最後一幕是否成立:最前那隻是不是正面臉貼鏡頭、有沒有變背面或側臉、後方是否還看得到其他布丁狗
6 畫面乾不乾淨:有沒有模糊、低解析、抖動、跑出 logo 或字幕、有沒有恐怖感或變形

第一版不穩時,這樣局部修正

結果不夠好時,不要整段推翻,依問題局部補強提示詞再重生一次就好:

問題 補強方向
巴士不像布丁狗 強調「整台就是布丁狗造型巴士、不是普通巴士、車頭有布丁狗臉與垂耳、粉紅臉頰、棕帽」
台北 101 不明顯 強調「台北 101 清楚可見、每一段背景都保留台北 101、可辨識的台北城市天際線」
台北 101 被複製成多棟 強調「只能有一棟台北 101、位置固定在遠方中央或偏右」,並在負面提示詞加「不要兩棟、不要複製、不要鏡像、不要分裂台北 101」
最後一幕遮住整個畫面 強調「不要完全遮住畫面、前方角色的兩側與後方仍要看得到其他布丁狗、維持前中背景層次」
最後一幕變背面或側面 強調「正面臉貼鏡頭、不要背對鏡頭、不要側臉」
角色容易崩壞 強調「角色造型一致、不要五官錯亂、不要多手多腳、保留柔軟毛絨玩偶質感」

如果一次生 10 秒不穩,就拆兩段

最後兩秒是整支片最難的部分:角色變多、動作變快、鏡頭距離變近,很容易糊掉或崩壞。與其一次賭 10 秒,我的做法是拆成兩段各自生成、再進剪輯軟體接起來,成功率會高很多:

分段 任務 內容
第一段
0 至 6 秒
建立世界觀與角色 台北大道、巴士開來、靠邊停車、第一隻布丁狗下車
第二段
6 至 10 秒
做高潮 大量布丁狗下車、衝向鏡頭、最前一隻臉貼鏡頭,後方仍可見其他布丁狗

兩段都用同一組參考圖,確保造型銜接。剪接時在「臉貼鏡頭」前留一個乾淨的動作接點,再補一點音效或背景音樂,觀眾幾乎看不出是兩段拼的。

重要:布丁狗有版權,這件事一定要先搞懂

布丁狗(Pom Pom Purin)是日本三麗鷗 Sanrio 於 1996 年推出的角色,和 Hello Kitty、庫洛米一樣,都屬於三麗鷗的著作權與商標內容。在台灣,這類卡通角色屬於「美術著作」,只要創作者過世未滿 50 年,著作財產權就仍然存續,不是公共財。

關鍵觀念是:用 AI 生成布丁狗的畫面,並不等於你取得了商業授權。即使是 AI 產生的圖像或影片,只要畫面呈現的是可被清楚辨識的布丁狗造型,就涉及對該角色的重製或改作,未經授權的營利使用仍可能構成著作權侵權,而且因為是營利,也很難主張「合理使用」。

所以像這支影片,安全的使用範圍是:個人欣賞、單純社群分享。不能拿去做成商品販售、放進廣告、對外收費,也不能宣稱是官方合作或官方授權內容。

此外,這支片背景用到台北 101,若畫面出現其他真實地標、店家招牌、他人肖像或別的品牌元素,也各自要遵守對應的授權規範。若你真的有商業用途需求,正確做法是透過三麗鷗官方管道申請授權,取得書面同意後再使用,才能真正安心。

完整製作流程回顧

步驟 做什麼
1 整理三張參考圖:台北街景+台北 101、布丁狗角色、布丁狗巴士
2 打開 Gemini,在對話框準備輸入提示詞
3 貼上 10 秒提示詞,並依序上傳三張參考圖(場景、角色、巴士)
4 生成第一版,用上面六點清單檢查
5 不穩就先微調提示詞重生一次,仍不穩就拆兩段生成再剪接

想把 AI 影音變成品牌真正用得上的內容?

這篇拆的是流程與版權觀念,真正的手感要動手做才練得出來。我在兩堂實體工作坊裡,帶你從腳本、生圖、生影到剪輯,實際完成可發布的作品。

AI短影音即戰班課程
品牌短影音・4 小時實作
AI短影音即戰班

從品牌溝通、腳本、生圖、生影、配樂到剪輯組裝,一堂課完成一支品牌可發布的 AI 短影音,課堂也會帶你建立商用避坑的判斷力。

看課程

AI自媒體影音訓練營課程
個人 IP・兩日訓練營
AI自媒體影音訓練營

為個人品牌與自媒體經營者設計,用 AI 把自己變成可重複上場的數位分身,不露臉也能做、會露臉也能省下拍攝。

看課程

常見問題 FAQ

QGemini Omni 怎麼用?要另外開軟體嗎?

不用。直接在 Gemini 對話框輸入提示詞、上傳參考圖就能生成,還能用自然語言接著微調。目前單次生成長度是 10 秒,所以敘事節奏要照 10 秒來設計。

Q台北 101 老是變成好幾棟,怎麼辦?

這是生成城市地標很常見的問題。要在提示詞裡把「只能有一棟台北 101、位置固定在遠方中央或偏右」寫死,每一段都重申一次,並在負面提示詞加上「不要兩棟、不要複製、不要鏡像、不要分裂台北 101」。

Q巴士老是生成成普通車,怎麼辦?

這也是最常見的狀況之一。要在提示詞裡把「整台就是布丁狗造型巴士、不是普通巴士」寫死,並具體描述車頭有布丁狗臉、垂耳、粉紅臉頰、棕帽與毛絨材質,模型才不會退回成「普通車貼圖案」。

Q用 AI 生成布丁狗,是不是就代表我有權使用了?

不是。布丁狗是三麗鷗的著作權角色,AI 生成不會讓你取得商業授權。畫面若能辨識出布丁狗造型,未經授權的營利使用仍可能構成侵權,只能用於個人欣賞或社群分享。要商用請走三麗鷗官方授權,或改用原創、已授權的角色。

Q臉貼鏡頭那一幕總是失敗,怎麼修?

把描述寫得更具體:明確要求「正面臉貼鏡頭大特寫、臉部有可愛擠壓感」,並在負面提示詞排除「背對鏡頭、側臉、單一角色遮住整個畫面」,同時強調後方仍要看得到其他布丁狗。真的搞不定就把 8 至 10 秒單獨拆出來生成。


關於作者

紀澄 Abby Chi
紀澄 Abby Chi
AI 商業影音講師 / 社群營運顧問

雲時代數位有限公司執行長,15 年品牌行銷實戰經驗。顧問專業領域涵蓋 AI 營運系統應用、品牌年度行銷策略、AI 商業廣告、Meta 社群營運策略、個人品牌經營。提供一對一諮詢服務,歡迎聯絡。

帶領團隊榮獲 行銷傳播傑出貢獻獎金獎廣告流行語金句獎 4 座

預約諮詢

分享此內容: