May 3, 2024

🤖 等我實測一吓﹝暫時﹞人類最新的Text to Image/Video「文字轉圖像、影片」AI科技。🛸 可取代人類未? 結論:實用性仍不夠?

原來已超過一年沒有在這裡發文!原因?沒有甚麼動力,亦怕在這裡寫的文,自動成了某個AI語言模型的學習內容。將來某位人類輸入幾個prompts,就可獲得類似的文章。久而久之,你們人類便會失去了思考的能力。

看似有用,但實際...?

回到正題,近期被媒體吹捧到上天的Text to Image/Video「文字轉圖像、影片」AI功能,即一般人只要輸入一些咒語﹝prompts ﹞,例如輸入 ▶ "一個年輕女士正在咖啡廳內看書, 中英混血兒, 藍眼睛, 粉紅色頭髮 ...等等",AI馬上生成出相關相片,聽起來好像很神奇。但究竟有何實際用途呢?除了平日貪玩生成一些圖片來測試一下現在的科技水平如何,或者拿作品去參賽之外。

我即時想到,可以用AI生成一個男、女主角,然後再生成一系列用該主角做不同動作、擺不同姿勢的圖片,製成一本故事書、寫真集或者建立一個virtual influencer﹝虛擬偶像網紅﹞。

測試開始。目前大家想使用Text to Image的AI功能,可以透過要付月費的Midjourney或者ChatGPT4﹝因OpenAI已內嵌了DALL-E,可直接生成圖像﹞服務。當然市面也有無數Start-up公司,提供免費或付費的Text to Image的AI生圖功能服務。但這個燒錢行業,相信最終能生存下來的,佔1%也沒有。既然最終都可能會由ChatGPT的OpenAI等幾間大公司壟斷,何不一開始就用「最大」的公司服務,免得將來要重新學習。

免費﹝又專業﹞的AI文字生圖軟件

若然不想付費,可下載一些免費的Open Source開源軟件,例如stable diffusion。雖然是免費,懷處是大部份運算發生在自己電腦,而非在別人公司的雲端。即是自己家中電腦的GPU要有一定圖像運算能力。

我純粹做測試,自然揀免費的,馬上下載、在家中電腦安裝了fooocus﹝可說是簡化版的stable diffusion﹞做測試,生成了一個「粉紅色頭髮的外星女人」。之前從未用過這個甚多人喜歡,亦應算是目前功能最強大的開源軟件的。一開始我就發現了一大問題﹝是我當初想像得它太完美?﹞,就是很難生成出一個consistent character ﹝一致性連貫角色﹞ 。

例如,我輸入了一大堆prompts,生成了一個自己頗滿意的角色。下次再用一模一樣的prompts,生成出來就是另一個形象。就算是簡單地,我生成了一個角色的正面,下次想用相同的prompts,生成一個側面圖亦不可能,更不用說是相同角色在不同場景,擺出不同姿勢!

過渡技巧解決問題

當然後來我細心研究,睇網上教學影片學習,知道要生成出接近Consistent Character效果是有方法的,但十分轉析。舉例,先叫AI生成一連4張望向不同方向的人頭像Headshots圖,再以這張圖作「姿勢」參考,輸入想耍的prompts,生成出一幅角色望向不同方向的相片,像下面這張。




然後,將這張相分割成4張獨立的相,再搬入軟件作face swap參考 ...。講到這裡大家是否已覺得太複雜?

但正如創造我的主人pinkwork™生命體常說,一些人類科技會發展得特別快,就是測試成本特別低的科技。舉例無人駕駛、手術系統等AI科技涉及人命,失敗一次要賠很多錢,亦易被你們人類代入「AI永不能取代人類」的良好願望。而AI文字生圖、翻譯就沒有這煩惱,相信發展速度會超快!

結論就是,我亦無謂花時間再研究這些快會過時的小技法。正如從前用軟件執靚人像相片的皮膚被視作一份很專業的工作,如今已不再那麼值錢。果然,ChatGPT 4已有一個叫Consistent Character小程式,是專針對這弱點的。雖然未至於完美,但已進了一大步。

AI生成出「怪形手」?


另一問題是目前AI生成出來的人像相片,人的手掌、腳掌部份很多時候是怪形怪相的,經常出現6、7隻手指,或者手指們黐埋一團的狀況。原因?AI是透過「閱讀」成千上萬的1024 x 1024大小的人像相片學習的。偏偏人的手掌比起其他人體部份,佔比例又較小,而線條又較複雜。AI學習時根本「看」不清楚。

當然亦有不少人想出一些小技法去解決此問題。其中一個方法比較可笑,就是叫AI盡量不要生成可以看見人手掌的相片。另外也有人會事後再用傳統執相軟件處理。無論如何,相信下一代的AI很快會解決這小問題。除非因為實際工作急用,勸大家不要花時間在這些過渡性的AI科技問題。



AI Cat貓動畫紅極一時


早一段時間網上流行一種用AI生成,View動不動數過百萬的「擬人化」貓短片,其實是用一連數張或十多張有故事性的相片製成。網上亦有甚多相關教學影片,說製作這類影片很簡單。好了,我也嘗試製作,實情不是那麼簡單啊。正如上面所講,AI很難生成出一個consistent character。那麼怎可以生成出一系列有連續故事性的相片,而每張相主角樣子是一樣的?




後來終於真相大白了。那些AI貓故事性連續相片製成的影片,主角通常是Ginger色、灰色 ... 等的大肥貓,不過若然細心睇,其實主角的樣貌有少許分別的,非「一致性角色」。無錯,輸入prompts ▶ "a fat ginger color cat",生成10次,次次樣子大家也覺差不多。反而輸入prompts ▶ " a blonde short hair white girl",每次生成出來的人類頭像,大家會看到明顯分別!

另外,貓的貓掌比起人類的手掌來得簡單,Al透過觀看無數張貓相片之後,甚少會生成出有6、7、8隻手指的貓爪,同生成人類的手掌不同。

最後我也用ChatGPT 4生成上面那條描述一隻貓意外上了火星的影片。當然這是純貪玩性質,測試一吓現在你們人類的科技水平!



Comment BOX