《Pattern Recognition》:ChipDiff: Staged Diffusion Model with Loss Gradient Guidance for Chinese Ink Painting Style Transfer
編輯推薦:
本文提出ChipDiff分階段擴散模型,針對中國傳統水墨畫風格遷移設計。通過結構導向采樣與風格細節優化兩階段,結合內容結構、邊緣分割和語義分歧損失,有效平衡結構保留與風格融合。構建TCWP數據集并制定評估協議,實驗表明ChipDiff在風格保真度和結構完整性上優于現有方法。
Heng Liu|Zhiwei Song|Yongzheng Wang|Bingwen Hu|Yang Wang
安徽工業大學計算機科學與技術學院,馬鞍山,243032,安徽,中國
摘要
本文提出了ChipDiff,這是一個專為中式水墨風格遷移設計的新穎分階段擴散框架。傳統的生成模型往往難以捕捉傳統藝術中復雜的單色色調層次和“骨法”(結構化的筆觸)。我們提出了一種基于定制損失梯度的分叉采樣策略,以在保持結構完整性的同時實現風格上的精細化。受傳統藝術“先勾勒后著墨”工作流程的啟發,我們的方法將去噪過程分為兩個功能階段。在第一階段,我們結合了內容-結構損失、HED邊緣損失和語義差異損失來固定全局布局和潛在骨架。第二階段通過多尺度風格表示損失注入細粒度的水墨紋理和各向異性滲色效果,進一步細化合成結果。與之前的單階段方法不同,ChipDiff提供了一種具有數學基礎且符合藝術直覺的圖案生成機制。廣泛的實驗,結合我們精心策劃的傳統中國水墨畫(TCWP)數據集和全面的感知對齊評估協議,證明了ChipDiff在風格忠實度和結構完整性方面優于現有的最佳方法。項目代碼可在以下鏈接獲取:
https://github.com/hengliusky/ChipDiff/。
引言
風格遷移旨在合成能夠無縫融合目標風格特征紋理、色調和幾何圖案的圖像,同時保持結構真實性。自Gatys等人[1]的開創性工作以來,該領域已經從前饋網絡(FFN)[2] [3]發展到復雜的基于Transformer的架構[4]。盡管通用框架取得了顯著進展,但像中國水墨畫這樣的專業藝術領域通常需要專門的表示方法來捕捉通用模型無法解決的獨特美學細微差別。這主要是因為水墨畫更注重“精神共鳴”而非字面表現,其高度抽象的筆觸挑戰了標準神經網絡的像素級關聯機制。
最近,去噪擴散概率模型(DDPM)[5]重新定義了生成建模的現狀。除了基于逆向變換的風格化[6]之外,研究人員還通過基于損失的梯度[7]或多模態機制在采樣過程中引入了額外的指導。然而,標準的擴散框架通常缺乏精細的結構控制,尤其是在需要精確幾何保真的藝術場景中。分類器引導的采樣[8]僅提供粗略的方向性約束,對于傳統藝術的細膩紋理來說是不夠的。
中國水墨畫(水墨)面臨三個獨特的挑戰:(i)水和墨在宣紙上的各向異性流體擴散;(ii)由單色梯度定義的層次色調;(iii)基于特定點狀和線狀筆觸的構圖框架。除此之外,這種媒介還依賴于“留白”概念——即有意使用負空間來營造深度和氛圍——而這通常被傳統生成模型誤解為背景噪聲。此外,“骨法”(筆觸的骨架)決定了結構的節奏,需要一個能夠區分筆觸的剛性強度和水墨的流動性模型的能力。現有的基于FFN的方法[3] [4]通常會模糊這些筆觸結構,而基于GAN的方法如ChipGAN[9]和BitGAN[10]則常常產生過銳的輪廓或塊狀偽影。盡管當代基于擴散的模型[7]在處理色彩豐富的風格時效果良好,但通常無法再現真實的水墨滲色行為,導致紋理要么被沖淡,要么產生過多的高頻噪聲(見圖1)。
傳統的水墨創作遵循特定的藝術流程:藝術家首先使用大面積的水墨勾勒出整體構圖,然后細化筆觸和滲色效果。這一過程自然啟發了我們提出的方法ChipDiff,這是一個反映“先勾勒后著墨”藝術順序的新穎分階段擴散框架。因此,我們將水墨風格化表述為一個由損失梯度引導的逆向擴散問題[11]。采樣過程分為兩個階段:第一階段(以結構為導向的采樣),用于保持全局布局和粗略的色調骨架;第二階段(風格細節細化),用于增強局部色調層次和筆觸效果。
與基于提示的引導方法不同,后者往往無法捕捉非語言化的藝術細微差別,ChipDiff依賴于一套專門為水墨特性定制的可微分損失。這種基于梯度的控制允許進行像素級的色調調整,這是文本驅動模型無法實現的。通過結合ViT/VGG內容損失、HED邊緣損失[12](用于筆觸幾何)和塊對比損失[7]來確保結構完整性。通過VGG/ViT風格表示、一種新穎的可微分單色保真度顏色直方圖損失以及語義差異損失來保證風格的真實性,以穩定擴散步驟中的圖案形成。為了便于評估,我們策劃了TCWP(水墨畫紋理集)數據集,并引入了一個涵蓋顏色準確性、領域特定復雜性和結構真實性的全面定量評估協議。
我們的主要貢獻總結如下:
•我們提出了ChipDiff,一個具有損失梯度控制的新穎分階段擴散框架。通過在定制的采樣階段應用不同的梯度,它解決了早期結構鞏固與后期風格化水墨擴散之間的內在矛盾。
•我們為水墨領域設計了一套全面的定量指標(CTR、CDR、顏色數量和筆觸數量),為高層次的美學紋理和低層次的結構表示提供了數學上嚴謹的評估。
•我們提供了TCWP,一個高質量的中國水墨畫數據集,作為支持風格化任務和未來傳統藝術視覺合成研究的基準。
部分摘錄
圖像風格遷移
神經風格遷移(NST)起源于利用基于VGG的Gram矩陣統計[1],隨后通過前饋網絡[13]和多風格框架[14]得到了加速。為了實現任意風格的遷移,后續研究集中在靈活的特征轉換上。值得注意的是,自適應實例歸一化(AdAIN)[2]和特征裝飾[15]改善了全局對齊,而注意力機制[16]和領域特定表示[3]、[17]增強了局部
概述
我們將中國水墨風格遷移表述為一個由損失梯度引導的逆向擴散問題。受[11]的啟發,ChipDiff最小化總的內容和風格損失,以指導采樣軌跡朝向目標水墨流形。
具體來說,給定一個內容圖像xc和一個風格參考xs,我們首先通過前向擴散過程得到一個噪聲表示xT。從降至0,然后進行反向擴散采樣以獲得中間狀態xt。在每一步中,我們進行估計
數據集和實現細節
為了確保可靠的評估,我們按照五階段流程構建了TCWP數據集:數據采集、分辨率過濾、近復制去除、手動語義驗證和紋理平衡(見圖3)。TCWP包含2,195張來自[34]的水墨畫圖像以及從互聯網收集的1,133張額外圖像,主要包含三種典型的紋理元素:點、線和方形。實施了可量化的質量控制(QC)標準(表2)以保證
討論與局限性
為了驗證我們分階段損失梯度引導擴散框架的普遍適用性,我們將ChipDiff模型擴展到了其他藝術風格,包括漫畫、素描和油畫。如圖10所示,盡管損失組件是針對中國水墨畫的特性進行了專門調整,但將結構穩定性與風格細化分離的核心機制展示了強大的泛化能力。這表明“分階段引導”的理念
結論
在這項工作中,我們提出了ChipDiff,這是一個重新思考擴散采樣過程的新框架,以應對中國水墨畫的獨特美學挑戰。與那些難以在結構完整性和風格流動性之間取得平衡的傳統方法不同,我們的方法利用基于損失梯度的分階段擴散策略實現了高度可控和真實的風化效果。通過策劃TCWP數據集,我們為捕捉
CRediT作者貢獻聲明
Heng Liu:撰寫——審稿與編輯,撰寫——初稿,項目管理,方法論,資金獲取,形式分析,概念化。Zhiwei Song:可視化,資源,調查,數據策劃。Yongzheng Wang:撰寫——審稿與編輯,可視化,調查,形式分析。Bingwen Hu:撰寫——初稿,軟件,方法論,形式分析。Yang Wang:撰寫——審稿與編輯,調查,資金獲取,概念化。
利益沖突聲明
作者聲明他們沒有已知的可能會影響本文工作的競爭性財務利益或個人關系。
致謝
這項工作部分得到了中國國家自然科學基金(項目編號61971004)和安徽省中青年學術帶頭人培養計劃(項目編號DTR2023014)的支持。
Heng Liu是中國安徽工業大學計算機科學與技術學院的教授。他于2008年在上海交通大學獲得了模式識別與智能系統博士學位。他的當前研究興趣包括計算機視覺、生物識別和深度學習。他已經發表了100多篇研究論文,并曾擔任AAAI和IJCAI的項目委員會成員,以及ACM MM、ICCV、CVPR等會議的審稿人。