
- 登入
- 註冊

我最近用 Google 的 Gemini Omni 做了一支很療癒的短影音:一台布丁狗造型的巴士開進台北街頭,背景是台北 101,停車、開門,然後一大群布丁狗衝下車、直直朝鏡頭跑過來,最後一隻把臉貼在鏡頭上。這篇把我從三張參考圖到 10 秒成片的完整流程拆給你看,包含提示詞怎麼寫、第一版要檢查哪六件事、哪裡最容易翻車,以及最重要的——布丁狗有版權,這支影片能做、不能做什麼,我在文末講清楚。
用 Gemini Omni 生成角色一致的 AI 短影音,操作很單純:直接在 Gemini 對話框輸入提示詞、上傳三張參考圖,就能生成一支 10 秒影片。關鍵是三張參考圖分工要清楚(場景、角色、巴士各一張),提示詞按秒數分段,並反覆強調角色與巴士維持造型不變形。
如果一次生 10 秒不穩,拆成 0 至 6 秒與 6 至 10 秒兩段各自生成再剪接會更好控。而角色若是布丁狗這類有版權的 IP,AI 生成不等於取得授權,只能個人欣賞或社群分享,不能商用。
畫面很單純,但情緒張力做得出來:白天晴朗的台北大道,背景清楚可見台北 101,一台淡黃色毛絨材質、車頭有布丁狗臉的巴士從遠方開進來,靠邊停下。車門打開,第一隻布丁狗探頭、下車,接著後面陸續冒出越來越多隻,最後整群像一波黃色毛絨浪潮衝向鏡頭,最前方那隻把整張臉貼在鏡頭玻璃上,後面還有好幾隻繼續擠過來。
會選這個題目,是因為它同時考驗 AI 影片最難的兩件事:角色一致性(一群角色都要長一樣、巴士不能變回普通車)和前中後景的層次(貼鏡頭那一幕不能只剩一團模糊)。把這兩件事做穩,其他題材就都好處理了。
先看成品,這就是這篇要教你做出來的東西:
Gemini Omni 是 Google 在 2026 年推出的多模態影片模型,最方便的一點是:不用另開專門的生成介面,直接在 Gemini 對話框輸入提示詞、上傳參考圖就能生成,還能用自然語言對話式微調。目前單次生成長度是 10 秒,所以這支片我就以 10 秒為目標來設計節奏。
另外一個做內容的人該知道的點:Gemini Omni 產出的每支影片都會嵌入 SynthID 隱形浮水印與標記為 AI 生成的來源資訊。這對「這支片是不是 AI 做的」是可被驗證的,跟後面要談的版權與揭露觀念也有關係。
用參考圖鎖定造型,是角色一致性的地基。我準備了三張,各司其職。以下就是我這次實際用的三張圖:
圖一 場景參考
|
圖二 角色參考
|
圖三 巴士參考
|
| 參考圖 | 用途 | 要強調的重點 |
| 圖一 場景 | 定義世界觀與背景 | 白天晴朗、台北城市街景、台北 101、寬闊大道、林蔭大道、乾淨街道 |
| 圖二 角色 | 固定主角造型 | 淡黃色毛絨、棕色貝雷帽、垂耳、粉紅臉頰、呆萌可愛表情 |
| 圖三 巴士 | 固定交通工具造型 | 整台就是布丁狗造型巴士、車頭有布丁狗臉、垂耳、粉紅臉頰、棕帽、毛絨材質、不是普通巴士 |
上傳順序建議照「場景、角色、巴士」放,因為這樣模型比較容易理解:第一張先定義背景世界觀,第二張定義主角造型,第三張定義交通工具這個重要道具。
不要把一整段劇情丟給 AI 讓它自由發揮。我的習慣是每兩秒一個節拍,每一段只交代一件事,這樣鏡頭節奏才穩。這支片我還特別在每一段都提醒「台北 101 只能有一棟」,因為模型很容易把地標複製成好幾棟:
| 秒數 | 畫面重點 |
| 0 至 2 秒 | 布丁狗巴士沿著台北大道駛入,背景是唯一一棟台北 101,低角度跟拍 |
| 2 至 4 秒 | 巴士靠邊停下,車門打開,幾隻布丁狗從車門與車窗探頭 |
| 4 至 6 秒 | 第一隻布丁狗下車,先看鏡頭再回頭招呼同伴 |
| 6 至 8 秒 | 大量布丁狗陸續下車、擠在門口,接著一起朝鏡頭奔跑 |
| 8 至 10 秒 | 最前方一隻臉貼鏡頭大特寫,後方仍有多隻擠上來 |
下面這段是我實際用的提示詞,你可以直接複製,把場景換成自己的題材。在 Gemini 對話框貼上這段、再上傳三張參考圖即可。9:16 直式、10 秒、按秒數描述,重點在開頭先綁定三張參考圖,並全程限制台北 101 只能一棟:
整體設定
請根據參考圖生成一支 10 秒、9:16 直式、高品質 3D 動畫影片。參考圖一作為台北城市街景與唯一一棟台北 101 背景參考;參考圖二作為布丁狗角色造型參考;參考圖三作為布丁狗造型巴士參考。整體風格是明亮、可愛、療癒、毛絨玩偶質感、童趣電影感。白天晴朗,藍天白雲,柔和陽光,台北城市大道乾淨寬闊。背景只能有一棟台北 101,位置固定在遠方背景中央或偏右,不要出現第二棟台北 101,不要複製地標,不要鏡像地標。
0 至 2 秒
台北市寬闊大道,白天晴朗,背景清楚可見唯一一棟台北 101。一台巨大可愛的布丁狗造型巴士從遠方開來,車體是淡黃色毛絨材質,車頭有布丁狗的臉、垂耳、粉紅臉頰與棕色帽子。鏡頭使用低角度斜前方跟拍,車窗內可看到多隻布丁狗坐在裡面。畫面中只允許出現一棟台北 101,不要重複地標。
2 至 4 秒
布丁狗巴士慢慢靠邊停下。鏡頭移到巴士側前方,遠方背景保留單一一棟台北 101。車門打開,車內露出溫暖光線,幾隻布丁狗從車門與車窗探頭看向鏡頭。台北 101 不要分裂、不要複製、不要變成兩棟。
4 至 6 秒
第一隻布丁狗從車門口走下車。牠外型圓潤可愛,淡黃色毛絨身體,棕色貝雷帽,垂耳,粉紅臉頰,表情呆萌。牠先看向鏡頭,再回頭看向車內,像在呼叫後面的同伴。背景城市保持穩定,只有一棟台北 101 作為遠方地標。
6 至 8 秒
大量布丁狗開始從車內陸續下車,數量越來越多。牠們擠在巴士門口,然後突然一起朝鏡頭奔跑。鏡頭低角度微微後退,布丁狗們像柔軟的黃色毛絨浪潮一樣靠近,耳朵晃動,表情開心。遠方台北 101 只保留單一一棟,不要產生第二棟。
8 至 10 秒
最後其中一隻布丁狗衝到最前面,正面面向鏡頭,整張臉直接貼住鏡頭玻璃。牠的眼睛、鼻子、嘴巴、粉紅臉頰與棕色帽子以超近距離出現在畫面前景中心,臉部有可愛擠壓感,像軟綿綿的毛絨玩偶把臉壓在鏡頭上一樣。同時畫面不要完全被牠遮住,牠的兩側與後方仍然可以看到其他幾隻布丁狗擠過來、探頭看鏡頭、繼續往前跑,形成前景、中景、背景層次。如果背景仍可見城市地標,台北 101 必須只有一棟。
負面提示詞
不要人類角色,不要字幕,不要 logo,不要浮水印,不要恐怖感,不要角色變形,不要五官錯亂,不要多眼睛,不要多手腳,不要普通巴士,不要車體變形,不要模糊,不要低解析,不要夜景,不要雨天,不要鏡頭劇烈抖動。不要兩棟台北 101,不要多棟台北 101,不要複製台北 101,不要鏡像台北 101,不要讓台北 101 分裂,不要生成多個相同地標。最後一幕不要背對鏡頭,不要側臉,不要只剩一團模糊黃色毛絨,不要讓單一角色完全遮住整個畫面,後方必須仍可見其他布丁狗。
生成完第一版,不要只看「可不可愛」。這六件事才是決定要不要重生的關鍵:
| 檢查 | 看什麼 |
| 1 | 場景像不像台北、地標對不對:台北 101 有沒有清楚出現、是不是白天、有沒有寬闊乾淨的城市大道感,而且畫面裡只能有一棟台北 101,別被複製或鏡像成兩三棟 |
| 2 | 巴士是不是布丁狗造型:車頭有沒有布丁狗臉、垂耳、粉紅臉頰、棕帽,還是變成「普通車貼布丁狗圖案」 |
| 3 | 角色是否一致:每隻布丁狗造型有沒有跑掉、五官有沒有亂、有沒有多手多腳、毛絨感有沒有保留 |
| 4 | 下車畫面順不順:第一隻下車清不清楚、招呼同伴的動作有沒有出來、後面大量出現時自不自然 |
| 5 | 最後一幕是否成立:最前那隻是不是正面臉貼鏡頭、有沒有變背面或側臉、後方是否還看得到其他布丁狗 |
| 6 | 畫面乾不乾淨:有沒有模糊、低解析、抖動、跑出 logo 或字幕、有沒有恐怖感或變形 |
結果不夠好時,不要整段推翻,依問題局部補強提示詞再重生一次就好:
| 問題 | 補強方向 |
| 巴士不像布丁狗 | 強調「整台就是布丁狗造型巴士、不是普通巴士、車頭有布丁狗臉與垂耳、粉紅臉頰、棕帽」 |
| 台北 101 不明顯 | 強調「台北 101 清楚可見、每一段背景都保留台北 101、可辨識的台北城市天際線」 |
| 台北 101 被複製成多棟 | 強調「只能有一棟台北 101、位置固定在遠方中央或偏右」,並在負面提示詞加「不要兩棟、不要複製、不要鏡像、不要分裂台北 101」 |
| 最後一幕遮住整個畫面 | 強調「不要完全遮住畫面、前方角色的兩側與後方仍要看得到其他布丁狗、維持前中背景層次」 |
| 最後一幕變背面或側面 | 強調「正面臉貼鏡頭、不要背對鏡頭、不要側臉」 |
| 角色容易崩壞 | 強調「角色造型一致、不要五官錯亂、不要多手多腳、保留柔軟毛絨玩偶質感」 |
最後兩秒是整支片最難的部分:角色變多、動作變快、鏡頭距離變近,很容易糊掉或崩壞。與其一次賭 10 秒,我的做法是拆成兩段各自生成、再進剪輯軟體接起來,成功率會高很多:
| 分段 | 任務 | 內容 |
| 第一段 0 至 6 秒 |
建立世界觀與角色 | 台北大道、巴士開來、靠邊停車、第一隻布丁狗下車 |
| 第二段 6 至 10 秒 |
做高潮 | 大量布丁狗下車、衝向鏡頭、最前一隻臉貼鏡頭,後方仍可見其他布丁狗 |
兩段都用同一組參考圖,確保造型銜接。剪接時在「臉貼鏡頭」前留一個乾淨的動作接點,再補一點音效或背景音樂,觀眾幾乎看不出是兩段拼的。
布丁狗(Pom Pom Purin)是日本三麗鷗 Sanrio 於 1996 年推出的角色,和 Hello Kitty、庫洛米一樣,都屬於三麗鷗的著作權與商標內容。在台灣,這類卡通角色屬於「美術著作」,只要創作者過世未滿 50 年,著作財產權就仍然存續,不是公共財。
關鍵觀念是:用 AI 生成布丁狗的畫面,並不等於你取得了商業授權。即使是 AI 產生的圖像或影片,只要畫面呈現的是可被清楚辨識的布丁狗造型,就涉及對該角色的重製或改作,未經授權的營利使用仍可能構成著作權侵權,而且因為是營利,也很難主張「合理使用」。
所以像這支影片,安全的使用範圍是:個人欣賞、單純社群分享。不能拿去做成商品販售、放進廣告、對外收費,也不能宣稱是官方合作或官方授權內容。
此外,這支片背景用到台北 101,若畫面出現其他真實地標、店家招牌、他人肖像或別的品牌元素,也各自要遵守對應的授權規範。若你真的有商業用途需求,正確做法是透過三麗鷗官方管道申請授權,取得書面同意後再使用,才能真正安心。
| 步驟 | 做什麼 |
| 1 | 整理三張參考圖:台北街景+台北 101、布丁狗角色、布丁狗巴士 |
| 2 | 打開 Gemini,在對話框準備輸入提示詞 |
| 3 | 貼上 10 秒提示詞,並依序上傳三張參考圖(場景、角色、巴士) |
| 4 | 生成第一版,用上面六點清單檢查 |
| 5 | 不穩就先微調提示詞重生一次,仍不穩就拆兩段生成再剪接 |
想把 AI 影音變成品牌真正用得上的內容?
這篇拆的是流程與版權觀念,真正的手感要動手做才練得出來。我在兩堂實體工作坊裡,帶你從腳本、生圖、生影到剪輯,實際完成可發布的作品。
不用。直接在 Gemini 對話框輸入提示詞、上傳參考圖就能生成,還能用自然語言接著微調。目前單次生成長度是 10 秒,所以敘事節奏要照 10 秒來設計。
這是生成城市地標很常見的問題。要在提示詞裡把「只能有一棟台北 101、位置固定在遠方中央或偏右」寫死,每一段都重申一次,並在負面提示詞加上「不要兩棟、不要複製、不要鏡像、不要分裂台北 101」。
這也是最常見的狀況之一。要在提示詞裡把「整台就是布丁狗造型巴士、不是普通巴士」寫死,並具體描述車頭有布丁狗臉、垂耳、粉紅臉頰、棕帽與毛絨材質,模型才不會退回成「普通車貼圖案」。
不是。布丁狗是三麗鷗的著作權角色,AI 生成不會讓你取得商業授權。畫面若能辨識出布丁狗造型,未經授權的營利使用仍可能構成侵權,只能用於個人欣賞或社群分享。要商用請走三麗鷗官方授權,或改用原創、已授權的角色。
把描述寫得更具體:明確要求「正面臉貼鏡頭大特寫、臉部有可愛擠壓感」,並在負面提示詞排除「背對鏡頭、側臉、單一角色遮住整個畫面」,同時強調後方仍要看得到其他布丁狗。真的搞不定就把 8 至 10 秒單獨拆出來生成。
|
紀澄 Abby Chi
AI 商業影音講師 / 社群營運顧問
雲時代數位有限公司執行長,15 年品牌行銷實戰經驗。顧問專業領域涵蓋 AI 營運系統應用、品牌年度行銷策略、AI 商業廣告、Meta 社群營運策略、個人品牌經營。提供一對一諮詢服務,歡迎聯絡。 帶領團隊榮獲 行銷傳播傑出貢獻獎金獎、廣告流行語金句獎 4 座。
|