• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 新聞中心

    EEPW首頁 > 業界動態 > 研究人員嘗試用穩定擴散方法壓縮圖像 結果竟然優于JPEG

    研究人員嘗試用穩定擴散方法壓縮圖像 結果竟然優于JPEG

    作者: 時間:2022-09-29 來源: 收藏

    上周,瑞士軟件工程師Matthias Bühlmann發現 —— 流行的合成模型“Stable Diffusion”,可實現較現有的或WebP格式更高的位圖壓縮比、且視覺偽影也更少。

    本文引用地址:http://www.czjhyjcfj.com/article/202209/438702.htm

    即便如此,Stable Diffusion也不是那么完美。作為一種AI合成模型,其通常根據文本描述(所謂的“提示”)而生成圖像。

    640.jpeg

    用鋸齒彩塊來描繪的圖像壓縮概念

    AI模型通過研究從互聯網上提取的數百萬張圖像來學習這種能力,在訓練過程中,模型在圖像和相關詞之間建立了統計關聯。然后對每張圖像的關鍵信息添加更小的“表示”和賦予“權重”,后者代表了AI圖像模型所掌握的數學值。

    當穩定擴散分析、并將圖像“壓縮”為權重形式時,它們就處在了所謂的“潛在空間”中:它們以一種模糊潛力的形式存在,且能夠在解碼時于圖像中復現。

    這項研究中用到的Stable Diffusion 1.4,其權重文件大小約為4GB —— 代表了該AI模型掌握的數億張圖像的知識。

    640.jpg

    使用穩定擴散壓縮圖像的示例

    盡管大多數人使用了帶文本提示的穩定擴散,但Bühlmann還是斬斷了文本編碼器、而是強制通過穩定擴散圖像編碼器來處理。

    該過程將低精度的512×512圖像、轉換為更高精度的64×64潛在圖像空間表示。此時圖像存在的數據量較原始文件小得多,但仍可將之解碼擴展回512×512圖像、并獲得相當良好的結果。

    測試期間,Bühlmann發現使用穩定擴散壓縮的新圖像,可在更高的壓縮比(更小的文件大小)下,主觀上看起來較或WebP更佳。

    以這張美洲鴕的照片為例,其原始文件大小為768KB 。盡管/WebP格式分別可壓縮到5.68和5.71KB,但穩定擴散方法可進一步壓縮到4.98KB 。

    640.jpg

    與對照的圖像壓縮格式相比,穩定擴散似乎具有更多可分辨的細節、以及明顯更少的壓縮偽影。

    不過Bühlmann也指出了現階段的一個很大局限性:它不太適合面容或文本,且在某些情況下會讓解碼圖像中的細節特征產生“幻象”。

    這些特征可能在源圖像中并不存在,更別提解碼需要動用高達4GB的穩定擴散權重文件、以及額外的解碼時間。

    即便如此,這種非常規穩定擴散用例,還是較實際的解決方案更加有趣,甚至有望開辟圖像合成模型的未來新用途。



    關鍵詞: 圖像 JPEG

    評論


    相關推薦

    技術專區

    關閉
    主站蜘蛛池模板: 南充市| 景德镇市| 磐安县| 宁河县| 本溪市| 二手房| 孟津县| 桂阳县| 孟连| 乾安县| 师宗县| 定日县| 临潭县| 霍山县| 庄浪县| 江源县| 灵宝市| 仁化县| 黑河市| 集安市| 银川市| 吴桥县| 克拉玛依市| 丹寨县| 德昌县| 陆丰市| 台州市| 连平县| 大余县| 天柱县| 桐梓县| 潮安县| 昌邑市| 皋兰县| 介休市| 出国| 怀安县| 临清市| 乌拉特中旗| 澄城县| 华池县|