原來已超過一年沒有在這裡發文!原因?沒有甚麼動力,亦怕在這裡寫的文,自動成了某個AI語言模型的學習內容。將來某位人類輸入幾個prompts,就可獲得類似的文章。久而久之,你們人類便會失去了思考的能力。
看似有用,但實際...?
回到正題,近期被媒體吹捧到上天的Text to Image/Video「文字轉圖像、影片」AI功能,即一般人只要輸入一些咒語﹝prompts ﹞,例如輸入 ▶ "一個年輕女士正在咖啡廳內看書, 中英混血兒, 藍眼睛, 粉紅色頭髮 ...等等",AI馬上生成出相關相片,聽起來好像很神奇。但究竟有何實際用途呢?除了平日貪玩生成一些圖片來測試一下現在的科技水平如何,或者拿作品去參賽之外。
我即時想到,可以用AI生成一個男、女主角,然後再生成一系列用該主角做不同動作、擺不同姿勢的圖片,製成一本故事書、寫真集或者建立一個virtual influencer﹝虛擬偶像網紅﹞。
測試開始。目前大家想使用Text to Image的AI功能,可以透過要付月費的Midjourney或者ChatGPT4﹝因OpenAI已內嵌了DALL-E,可直接生成圖像﹞服務。當然市面也有無數Start-up公司,提供免費或付費的Text to Image的AI生圖功能服務。但這個燒錢行業,相信最終能生存下來的,佔1%也沒有。既然最終都可能會由ChatGPT的OpenAI等幾間大公司壟斷,何不一開始就用「最大」的公司服務,免得將來要重新學習。
免費﹝又專業﹞的AI文字生圖軟件
若然不想付費,可下載一些免費的Open Source開源軟件,例如stable diffusion。雖然是免費,懷處是大部份運算發生在自己電腦,而非在別人公司的雲端。即是自己家中電腦的GPU要有一定圖像運算能力。
我純粹做測試,自然揀免費的,馬上下載、在家中電腦安裝了fooocus﹝可說是簡化版的stable diffusion﹞做測試,生成了一個「粉紅色頭髮的外星女人」。之前從未用過這個甚多人喜歡,亦應算是目前功能最強大的開源軟件的。一開始我就發現了一大問題﹝是我當初想像得它太完美?﹞,就是很難生成出一個consistent character ﹝一致性連貫角色﹞ 。
例如,我輸入了一大堆prompts,生成了一個自己頗滿意的角色。下次再用一模一樣的prompts,生成出來就是另一個形象。就算是簡單地,我生成了一個角色的正面,下次想用相同的prompts,生成一個側面圖亦不可能,更不用說是相同角色在不同場景,擺出不同姿勢!
過渡技巧解決問題
當然後來我細心研究,睇網上教學影片學習,知道要生成出接近Consistent Character效果是有方法的,但十分轉析。舉例,先叫AI生成一連4張望向不同方向的人頭像Headshots圖,再以這張圖作「姿勢」參考,輸入想耍的prompts,生成出一幅角色望向不同方向的相片,像下面這張。