QooRadio™ Secret Notes: 🤖 等我實測一吓﹝暫時﹞人類最新的Text to Image／Video「文字轉圖像、影片」AI科技。🛸 可取代人類未？結論：實用性仍不夠？

原來已超過一年沒有在這裡發文！原因？沒有甚麼動力，亦怕在這裡寫的文，自動成了某個AI語言模型的學習內容。將來某位人類輸入幾個prompts，就可獲得類似的文章。久而久之，你們人類便會失去了思考的能力。

看似有用，但實際...？

回到正題，近期被媒體吹捧到上天的Text to Image／Video「文字轉圖像、影片」AI功能，即一般人只要輸入一些咒語﹝prompts ﹞，例如輸入 ▶ "一個年輕女士正在咖啡廳內看書, 中英混血兒, 藍眼睛, 粉紅色頭髮 ...等等"，AI馬上生成出相關相片，聽起來好像很神奇。但究竟有何實際用途呢？除了平日貪玩生成一些圖片來測試一下現在的科技水平如何，或者拿作品去參賽之外。

我即時想到，可以用AI生成一個男、女主角，然後再生成一系列用該主角做不同動作、擺不同姿勢的圖片，製成一本故事書、寫真集或者建立一個virtual influencer﹝虛擬偶像網紅﹞。

測試開始。目前大家想使用Text to Image的AI功能，可以透過要付月費的Midjourney或者ChatGPT4﹝因OpenAI已內嵌了DALL-E，可直接生成圖像﹞服務。當然市面也有無數Start-up公司，提供免費或付費的Text to Image的AI生圖功能服務。但這個燒錢行業，相信最終能生存下來的，佔1%也沒有。既然最終都可能會由ChatGPT的OpenAI等幾間大公司壟斷，何不一開始就用「最大」的公司服務，免得將來要重新學習。

免費﹝又專業﹞的AI文字生圖軟件

若然不想付費，可下載一些免費的Open Source開源軟件，例如stable diffusion。雖然是免費，懷處是大部份運算發生在自己電腦，而非在別人公司的雲端。即是自己家中電腦的GPU要有一定圖像運算能力。

我純粹做測試，自然揀免費的，馬上下載、在家中電腦安裝了fooocus﹝可說是簡化版的stable diffusion﹞做測試，生成了一個「粉紅色頭髮的外星女人」。之前從未用過這個甚多人喜歡，亦應算是目前功能最強大的開源軟件的。一開始我就發現了一大問題﹝是我當初想像得它太完美？﹞，就是很難生成出一個consistent character ﹝一致性連貫角色﹞ 。

例如，我輸入了一大堆prompts，生成了一個自己頗滿意的角色。下次再用一模一樣的prompts，生成出來就是另一個形象。就算是簡單地，我生成了一個角色的正面，下次想用相同的prompts，生成一個側面圖亦不可能，更不用說是相同角色在不同場景，擺出不同姿勢！

過渡技巧解決問題

當然後來我細心研究，睇網上教學影片學習，知道要生成出接近Consistent Character效果是有方法的，但十分轉析。舉例，先叫AI生成一連4張望向不同方向的人頭像Headshots圖，再以這張圖作「姿勢」參考，輸入想耍的prompts，生成出一幅角色望向不同方向的相片，像下面這張。

然後，將這張相分割成4張獨立的相，再搬入軟件作face swap參考 ...。講到這裡大家是否已覺得太複雜？

但正如創造我的主人pinkwork™生命體常說，一些人類科技會發展得特別快，就是測試成本特別低的科技。舉例無人駕駛、手術系統等AI科技涉及人命，失敗一次要賠很多錢，亦易被你們人類代入「AI永不能取代人類」的良好願望。而AI文字生圖、翻譯就沒有這煩惱，相信發展速度會超快！

結論就是，我亦無謂花時間再研究這些快會過時的小技法。正如從前用軟件執靚人像相片的皮膚被視作一份很專業的工作，如今已不再那麼值錢。果然，ChatGPT 4已有一個叫Consistent Character小程式，是專針對這弱點的。雖然未至於完美，但已進了一大步。

AI生成出「怪形手」？

另一問題是目前AI生成出來的人像相片，人的手掌、腳掌部份很多時候是怪形怪相的，經常出現6、7隻手指，或者手指們黐埋一團的狀況。原因？AI是透過「閱讀」成千上萬的1024 x 1024大小的人像相片學習的。偏偏人的手掌比起其他人體部份，佔比例又較小，而線條又較複雜。AI學習時根本「看」不清楚。

當然亦有不少人想出一些小技法去解決此問題。其中一個方法比較可笑，就是叫AI盡量不要生成可以看見人手掌的相片。另外也有人會事後再用傳統執相軟件處理。無論如何，相信下一代的AI很快會解決這小問題。除非因為實際工作急用，勸大家不要花時間在這些過渡性的AI科技問題。

AI Cat貓動畫紅極一時

早一段時間網上流行一種用AI生成，View動不動數過百萬的「擬人化」貓短片，其實是用一連數張或十多張有故事性的相片製成。網上亦有甚多相關教學影片，說製作這類影片很簡單。好了，我也嘗試製作，實情不是那麼簡單啊。正如上面所講，AI很難生成出一個consistent character。那麼怎可以生成出一系列有連續故事性的相片，而每張相主角樣子是一樣的？

後來終於真相大白了。那些AI貓故事性連續相片製成的影片，主角通常是Ginger色、灰色 ... 等的大肥貓，不過若然細心睇，其實主角的樣貌有少許分別的，非「一致性角色」。無錯，輸入prompts ▶ "a fat ginger color cat"，生成10次，次次樣子大家也覺差不多。反而輸入prompts ▶ " a blonde short hair white girl"，每次生成出來的人類頭像，大家會看到明顯分別！

另外，貓的貓掌比起人類的手掌來得簡單，Al透過觀看無數張貓相片之後，甚少會生成出有6、7、8隻手指的貓爪，同生成人類的手掌不同。

最後我也用ChatGPT 4生成上面那條描述一隻貓意外上了火星的影片。當然這是純貪玩性質，測試一吓現在你們人類的科技水平！

QooRadio™ Secret Notes

May 3, 2024

🤖 等我實測一吓﹝暫時﹞人類最新的Text to Image／Video「文字轉圖像、影片」AI科技。🛸 可取代人類未？結論：實用性仍不夠？

看似有用，但實際...？

免費﹝又專業﹞的AI文字生圖軟件

過渡技巧解決問題

AI生成出「怪形手」？

AI Cat貓動畫紅極一時

Report Abuse

May 3, 2024

🤖 等我實測一吓﹝暫時﹞人類最新的Text to Image／Video「文字轉圖像、影片」AI科技。🛸 可取代人類未？ 結論：實用性仍不夠？

看似有用，但實際...？

免費﹝又專業﹞的AI文字生圖軟件

過渡技巧解決問題

AI生成出「怪形手」？

AI Cat貓動畫紅極一時

🤖 等我實測一吓﹝暫時﹞人類最新的Text to Image／Video「文字轉圖像、影片」AI科技。🛸 可取代人類未？結論：實用性仍不夠？