人類對AI最大的誤解，來自AI擴(kuò)圖

發(fā)布人：傳感器技術(shù) 時(shí)間：2023-12-10 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

" 是時(shí)候展示真正的技術(shù)了。

-----------------------
編輯|Moon來源|青投創(chuàng)新

這幾天，在各大媒體榜單中，你一定看到過“AI擴(kuò)圖”的話題。

為什么會火？

可以說，AI擴(kuò)圖的火爆程度和搞笑程度不相上下。

先上一張傳播度很高的AI擴(kuò)圖“佳作”：

這位博主憑借這一條視頻單條視頻點(diǎn)贊量171.7萬，轉(zhuǎn)發(fā)量213.2萬，評論區(qū)有23.2萬互動量。

許多網(wǎng)友紛紛效仿，在評論區(qū)留下自己通過AI擴(kuò)圖后的離譜照片，有些評論都能達(dá)到幾萬到幾十萬的點(diǎn)贊。

當(dāng)然，明星和影視劇成了AI擴(kuò)圖搞笑創(chuàng)作的“重災(zāi)區(qū)”，有這樣：

這樣的：

還有這樣的：

AI擴(kuò)圖仿佛打開了一扇新世界的大門，讓普通人和AI也能輕松發(fā)生交集，只是可能會讓人類產(chǎn)生“AI很弱”的錯(cuò)覺罷了。

其實(shí)，專業(yè)選手是十分驚艷的。

AI擴(kuò)圖的頂流們

AI擴(kuò)圖，就是基于AI算法的智能識別，它可以根據(jù)圖像的上下文和紋理預(yù)測和生成圖片缺失的部分，為原始圖片帶來更大的畫幅和更廣的視角。
其實(shí)AI擴(kuò)圖這個(gè)功能早在幾個(gè)月就已經(jīng)挺火了，最早是5月份Adobe Photoshop上線智能擴(kuò)圖功能，只需輸入文字提示，AI即可擴(kuò)圖生成我們想象中的場景。
那個(gè)時(shí)候就已經(jīng)有人用Photoshop生成惡搞影視劇照，表情包，可謂是小火了一把。

但，作為AI擴(kuò)圖圈的大哥大，Adobe Firefly可不是用來搞笑的。

它需要用戶使用畫筆進(jìn)行添加或減去圖片內(nèi)容，進(jìn)行局部重繪。隨后，就可以輸入新的描述詞進(jìn)行再創(chuàng)作。

10月左右，Adobe Firefly進(jìn)行了一次重大更新，這次更新之后，Adobe直接將其命名為Firefly 2。
在Firefly 2功能下，無論是圖片渲染程度、分辨率、還是圖像模型等，均有了質(zhì)的提升，特別是在渲染人體時(shí)，皮膚紋理、發(fā)絲等微小細(xì)節(jié)也均被照顧到。
從官方發(fā)布的圖片來看，相較于Firefly 1，F(xiàn)irefly 2明顯更為真實(shí)，細(xì)節(jié)之處也經(jīng)得起推敲。

（圖：Firefly 1&2對比）

值得一提的是，Adobe向Photoshop Beta用戶免費(fèi)開放公測的AI功能——Generative Expand，其核心功能就是擴(kuò)展。

如果對生成的圖片不滿意，還可以通過修改描述進(jìn)行無限生成，直到滿意為止。
據(jù)悉，單次圖片生成的時(shí)間約在1分鐘左右，再加上圖片生成后的精致效果，側(cè)面展現(xiàn)了其強(qiáng)大的算力水平。

Adobe的成功，讓其他AI巨頭也蠢蠢欲動。
7月份MidJourney正式對外更新了“平移擴(kuò)圖”功能，可以實(shí)現(xiàn)圖片進(jìn)行前后“擴(kuò)圖 1.5 倍”或“擴(kuò)圖 2 倍”，相對之前固定式的生成式功能顯得更加人性化。
說起MidJourney的擴(kuò)圖功能，簡直想象力拉滿。
我們先來看下這兩個(gè)畫面：

你能想象它們是出自同一張圖片嗎？
除此之外，還有更震撼的效果。，時(shí)長00:42這就是Midjourney在它最新5.2版本中帶來的Zoom Out功能。

效果一出，不少網(wǎng)友在驚嘆“太瘋狂”之余，也在猜測著它“擴(kuò)”了多少次，有網(wǎng)友大膽地給出了預(yù)估：50次！！

更多網(wǎng)友則是紛紛自己開始搞花活，不到一個(gè)小時(shí)，直接出一部大片：

，時(shí)長00:30

如此來看，MidJourney的擴(kuò)圖功能還是相當(dāng)可以的。

此外，還有我們前幾天介紹過的——Pika1.0。其可以完成視頻的擴(kuò)展。

不得不說專業(yè)選手果然是不一樣的。
02

AI擴(kuò)圖另類出圈

但說實(shí)話，像MidJourney、Adobe Photoshop這種專業(yè)軟件的擴(kuò)圖功能對于普通人來說，還是有一定門檻的，實(shí)用性并不高。
隨后，為了滿足普通用戶的需求，國產(chǎn)AI繪畫工具相仿上線AI擴(kuò)圖功能，比如美圖、海藝AI、觸手AI以及抖音等等。
拿抖音來說，AI擴(kuò)圖功能一上線，就因其用戶體量大，使用門檻低，無需提示詞，和平臺流量扶持，迅速火爆出圈，基本達(dá)到全民皆可玩透的境界。
抖音熱榜甚至達(dá)到幾千萬人在看的程度。
于是，才有了文章開頭的局面，AI擴(kuò)圖正在成為全民娛樂的工具。

似乎……這個(gè)邏輯，確實(shí)不是人能想出來的！！

大哥應(yīng)該很迷茫。

真的很想撬開AI的腦袋，看看它到底在想什么？！

不過，作為一款娛樂工具，可以給它們打個(gè)滿分，畢竟它為很多博主帶來了不少的粉絲和流量。

真正的AI擴(kuò)圖技術(shù)

針對AI擴(kuò)圖，其實(shí)不管是Midjourney、Photoshop、DALL-E 2還是Stable Diffusion，其背后原理也有些相似之處。

像DALL-E、Stable Diffusion、Photoshop的Generative Fill等都用到了一種叫做Outpainting的技術(shù)。

Outpainting是一種圖像處理技術(shù)，與Inpainting（圖像內(nèi)部填充）相反，可以根據(jù)現(xiàn)有圖像的內(nèi)容、風(fēng)格和上下文，合成與原始圖像相協(xié)調(diào)的新內(nèi)容，從而擴(kuò)展圖像的視覺范圍。

Outpainting通常依賴于深度學(xué)習(xí)模型，有基于內(nèi)容擴(kuò)散的、基于GAN的、基于語義理解的等。

此外，AI擴(kuò)圖不僅是增加像素的數(shù)量，更重要的是增加圖像分辨率的過程。

例如，CNN是AI擴(kuò)圖中常用的神經(jīng)網(wǎng)絡(luò)，通過學(xué)習(xí)大量的低分辨率和高分辨率圖像對，來理解圖像特征，學(xué)習(xí)如何從低分辨率重建高分辨率圖像。

超分辨率技術(shù)使得模型能夠填補(bǔ)低分辨率圖像中缺失的像素，從而生成更高分辨率的圖像。

在擴(kuò)圖過程中為了保證圖像細(xì)節(jié)還要注意細(xì)節(jié)增強(qiáng)、噪聲抑制等。

雖然目前AI擴(kuò)圖技術(shù)有了很大進(jìn)展，但實(shí)時(shí)處理能力還有待提升，通常來說更高質(zhì)量的圖像擴(kuò)展需要更多的計(jì)算時(shí)間。

現(xiàn)有的很多AI擴(kuò)圖工具生成速度已經(jīng)有了不小的提高，不過成品的質(zhì)量是否符合邏輯，這個(gè)概率還是比較隨機(jī)的。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

人類對AI最大的誤解，來自AI擴(kuò)圖

相關(guān)推薦

技術(shù)專區(qū)