拼貼畫自動生成技術綜述

文:張開翼 程魯豫 汪云海 山東大學2022年第1期

  1 引言

  拼貼畫 (Collage) 是一種經典的視覺藝術形式,通過將圖片、文字、剪報、幾何圖形等元素拼接到畫布上,從而產生具有美感的藝術品。目前,較為流行的表現形式有 3 種:(1) 圖片馬賽克,通過拼接圖片或彩色多邊形來產生不同的結果;(2) 詞云 (Word Cloud),作為一種強大的文本可視化工具,通過拼接不同大小( 代表權重) 的單詞來產生美感;(3) 傳統拼貼畫, 通過規則和緊密地分布主題較為統一的圖形來產生美感。拼貼畫強大的藝術表現力具有美觀與信息傳遞的雙重優勢,能使受眾感受到美學的同時獲取足夠的信息。但由于其組合、角度、位置的多樣性,輸入特征的復雜性,以及設計目標的差異性, 使人工設計過程復雜、設計步驟繁瑣。設計師需要反復地試錯多種可能的拼接方式,才能制作出一個相對優秀的作品,這個過程需要耗費大量的時間和精力。即便如此,人工制作的拼貼畫也很難達到最優的效果。

  拼貼畫的生成屬于可視化與圖形學的交叉領域,其領域學者就拼貼畫問題提出不同思路。圖形學領域學者將該問題視作一個打包問題:先利用形狀描述符對輸入的圖形進行相似度分析,然后將全局或局部輪廓相似的圖形進行拼接;抑或是使用輪廓細分與匹配的方法,將目標輪廓按一定規則細分成格子后, 將與格子相似的圖形填充到格子中。可視化領域學者側重如何傳遞信息,即如何將輸入數據中包含的信息與拼貼畫元素進行映射:將輸入的圖形抽象為特征向量,從而與最終可視化的位置進行映射,更好地展現圖形特征數據;抑或是在可視化文本中,將帶有詞頻的文字視作圖形輸入,通過算法將填充文字與目標輪廓進行映射,從而生成信息量與美觀度俱佳的結果。

  為更有邏輯地梳理不同學者在拼貼畫自動生成領域提出的思路,本文將其粗略地分為自頂向下的生成技術和自底向上的生成技術,并按兩大類四小類的分類方式,從中具體介紹具有代表性或開創性的方法。旨在幫助相關研究人員快速了解本領域演進過程與代表性工作。并將本文中提到的常見算法整理為表 1 方便查看與對比。

  2 形式化定義

  如圖 1 所示為常見的 3 種拼貼畫形式,首先對拼貼畫自動生成技術進行形式化定義—— 拼貼畫生成的輸入集主要分為兩部分:

  第一個輸入集為目標外輪廓約束,一般分為兩種:一種為強外輪廓約束,如復雜圖形、照片等,填充時需要充分考慮外輪廓的約束,使填充圖形的邊緣盡可能貼合強外輪廓約束的邊緣,這屬于較復雜問題;另一種約束為弱外輪廓約束,如矩形、圓形、簡單字母等,填充時外輪廓的約束較小,只需考慮邊界問題即可。

  第二個輸入集為填充圖形,主要分成兩類。第一類是核心圖形,即填充中主要考慮的圖形。核心圖形分為規則圖形 ( 如矩形、圓形等 ) 和非規則圖形 ( 如照片、文字等 )。規則圖形主要通過其顏色、大小、密度等參數表示輸入的外輪廓,且圖形間的拼接相對容易,可簡化拼接算法。非規則圖形的難度主要在于非規則圖形邊緣的匹配以及對接,該部分的搜索空間會急劇膨脹,因此如何有效減少搜索空間成為加速和優化匹配速度的核心問題。第二類填充圖形為輔助圖形,此概念來自設計師作品中為了減少拼接時間、提高填充率的技巧,如圖 1(c) 中小方片與小五邊形等。在人工拼接時,依靠窮舉達到最佳結果是非常困難的,所以設計師會引入較小且不引人注目的輔助圖形,來提高最終結果的填充率和非最優拼接結果的視覺效果。

  

拼貼畫生成算法結構表.jpg

  表 1 拼貼畫生成算法結構表

  

圖片馬賽克.png

  (a) 圖片馬賽克 (b) 詞云 (c) 傳統拼貼畫圖 1 常見的拼貼畫設計

  3 自頂向下的生成技術

  自頂向下的生成技術思路是從生成的目標輪廓分析或是從填充圖形的整體分析,先確定填充圖形在輪廓的粗略位置,再小范圍地改動圖形的細節、角度、位置以得到更優的結果。

  3.1 基于輪廓細分與匹配算法

  基于輪廓細分與匹配算法常由 3 個步驟構成:首先對目標輪廓進行細分,將輪廓分成多個規則或不規則的單元格;然后給每個單元格匹配最合適的填充圖形;最后對每個單元格的填充圖形進行調整以增強效果。

  3.1.1 相關算法介紹

  Finkelstein 在 1998 年提出 Image Mosaics 技術,其針對的問題為:如何將用戶輸入的一組圖片拼接到另一張目標圖片中,產生近距離看是一組圖片,遠距離看是目標圖片的效果。在算法上,首先將目標圖片分割成規律的矩形,利用基于小波變換的圖形匹配算法對每個矩形匹配最相似的輸入圖片;然后對矩形內圖片的亮度、灰度值進行調整,從而使結果更接近目標圖片。但由于其在分割目標圖片時,將圖片僅簡單地分割為規則的矩形,而未考慮圖片本身的特點,故被分割圖片不能很好地呈現目標圖片的輪廓。

  Haeberli 引入 Voronoi 算法,將不規則圖形 ( 如油畫的筆觸或多邊形 ) 隨機地擺放并填充至目標區域,以達到轉換輸入圖片風格的目的。其思路是將油畫的筆觸或者多邊形抽象成填充圖形,并在填充至目標圖片過程中,先使用 Voronoi 算法細分目標圖片,再將筆觸填充至網格內。在這一過程中,為了使筆觸更接近真實油畫效果,Haeberli 引入根據輸入圖片計算梯度方向的方式來引導筆觸的填充方向,使其更接近手繪效果。但該方法忽略了原始圖片中物體的邊緣 ( 如人物圖片的人物輪廓、物體圖片中不同物體的邊緣 ),沒有使填充圖形貼合或者表達原圖片中的輪廓,導致生成結果中的輪廓不清晰。而清晰的輪廓可以幫助用戶迅速感知圖片本體,所以該方法生成的結果辨識度不佳。

  在 Haeberli 方法基礎上,Hausner 引入基于重心的泰森多邊形圖 (Centroidal Voronoi Diagram,CVD),其針對的目標問題為:使用多邊形填充目標圖片,著重表現輸入圖片中的邊緣與輪廓,來增強結果的辨識度。傳統的 CVD 圖使用歐式距離度量,通過多次迭代使全局歐式距離最小,導致計算出來的區塊趨近于六邊形。在 Hausner 的研究中,通過將度量修改為曼哈頓距離使最終區塊接近正方形,并用于填充。此外, 也可以通過修改度量的方向來影響 CVD 圖中格子的方向。為了高效地生成帶方向度量的 CVD 圖,該研究借鑒了 Hoff 提出的生成技術。并在 Hoff 生成技術的基礎上,將歐式距離替換成曼哈頓距離。為了提取原始圖片中的方向信息,Hausner 引入了方向場,從原始圖片的輪廓中產生方向場來指導帶方向度量的 CVD 圖的生成。結果顯示,作為填充圖形的小正方形可以很好地表達原始圖片中的邊緣,用戶可以非常迅速地辨認僅由帶色彩的正方形組成的拼貼畫。該方法有足夠的創新性, 產生了具有強大表現力的拼貼畫。但缺陷在于其構成要素僅為正方形,很難表現更為復雜的圖片,這很大程度上限制了輸入圖形的類型,普適性較差。

  3.1.2 代表性算法介紹

  Kim 提出一種基于最小化能量函數的生成技術,與 Hausner 方法相比,更具有普適性:將填充圖形從簡單的多邊形,擴充到任意的輸入圖形,并填充到任意的目標輪廓中。該算法屬于基于輪廓細分與匹配算法中較有代表性的算法,綜合了該線路上前人的研究結果。如借鑒 Hausner 的思路,使用 CVD 圖來輔助拼接等,在此基礎上將問題抽象成能量函數最優化的過程, 并結合多種優化方式來加速生成。同時,Kim 將輸入集的范圍擴充到任意圖形,進一步擴大了算法的適用范圍。具體來說, 能量化定義的優勢就是可以通過增減或調整各能量項的權重使最終的結果呈現不同的風格,其能量 E 定義為:

 公式1.jpg(1)

  其中,能量 E 由各項的加權和構成;顏色項 Ec 為圖形顏色與當前位置目標容器顏色不符的程度,wc 為權重;間隙項EG 為最終結果中空白區域的大小,wG 為權重;重疊項 Eo 為最終結果中圖形之間的重疊程度,wo 為權重;變形項 ED 為圖形過度變形的程度,wD 為權重。

  拼接時,是在不對圖形進行變形的前提下減少間隙和重疊, 并使圖形的顏色與目標容器位置的顏色保持一致,從而得到圖形的初步匹配結果。為使每次拼接操作后,更新的容器更便于下一次拼接。在每次拼接之前,借鑒 Hausner 的思路,按圖形的平均大小對容器構建 CVD 圖,隨機選擇鄰居數量最少的位置,從而減少拼接后容器產生突出或不連通的問題,便于后續的拼接。如圖 2 所示,構建 CVD 鄰接圖后,圖中綠色點為被選中的位置,其僅有 2 個鄰居,拼貼在此位置對網格的影響最小。

  當某一步無法找到合適的圖形去填充目標容器時,算法需要退回上一能量最小處。為減少這種回溯,Kim 借鑒 Russell 的思想,使用超前技術,懲罰拼接之后無法放置圖形的小面積區域。

  前文所述,在不對圖形變形的情況下進行拼接,盡可能形成少重疊和少間隙填充的目標容器的布局。但其中仍會出現很多空隙與重疊,導致生成結果并不美觀。為此,該研究借鑒了Kass 的思路,使各個圖形可以在保持原始形狀和最小化能量 E之間平衡,通過微小的變形來取得更好的結果。在 CVD 圖的變形過程中,初始拼接得到的 CVD 結果,會造成較多的重疊與空隙。經過優化過程,重疊與空隙有一定程度的減少。最終, 在各個 CVD 格子變化程度較小的前提下,減少了格子之間的重疊與空隙,達到控制變形程度與提高結果填充率、降低重疊率之間的平衡。

  

使用 CVD 鄰接圖選擇拼接位置.png

  圖 2 使用 CVD 鄰接圖選擇拼接位置

  因拼貼畫的生成過程中需要考慮多種因素,如美觀度、空隙等,所以基于最小化能量函數的生成技術在拼貼畫的生成中非常常見。其大致流程為將拼貼畫生成中多種因素抽象為能量函數中的參數項,并賦予不同的權重以形成能量函數,之后通過算法最小化該能量函數。Xu 提出的 Calligraphic packing 算法亦是如此,其將拼貼畫生成的范圍擴展到書法中,將任意文字作為拼貼畫生成算法的輸入,通過傾斜、扭曲等操作使文字填充到任意給定的圖形中,形成有美感的書法藝術作品。并在能量函數中引入風格因素,算法可以根據不同的風格調整能量函數中各項的參數,生成不同風格的輸出結果。

  3.2 基于特征提取算法

  基于特征提取的方法一般分為 3 個步驟:首先對輸入圖形進行特征提取;然后處理特征信息,并進行初步布局;最后對布局進行優化調整,以減少重疊和間隙。

  3.2.1 相關算法介紹

  鑒于使用參數控制圖形的分布十分困難,Hurtut 提出一種基于結果統計的方式。其針對的問題為:如何從用戶輸入的拼貼畫學習拼貼畫結構,并以該結構為基礎,生成更大范圍的拼貼畫結果。算法輸入一張包含多種圖形的拼貼畫,系統使用基于圖形外觀的分類算法將原始拼貼畫中的組成圖形根據外觀分類,并抽象出布局。系統通過構建統計學習模型,從輸入的布局中學習同類別內部以及不同類別之間的布局關系,從而在輸入布局的基礎上擴充出更大范圍的結果。其缺點是不能像傳統拼貼畫的構造過程,輸入足夠的圖形與輪廓生成指定的結果。并且,由于采用了基于統計的生成方式,因此無法控制生成結果的風格,也很難根據不同的情景生成不同的結果,使用戶對結果的控制力大大下降。

  在特征提取上,Maharik 等將特征提取的對象轉移到輪廓,其針對的問題為:如何將輸入的文本以流線的形式填充到目標輪廓上。該系統首先在目標輪廓中生成矢量場;進而生成符合代表目標輪廓的流線,并使其接近正常閱讀方式;再在生成的流線上填充文本,從而使文本既能夠較好地填充目標輪廓,又具有較強的可讀性。其結果在文本對目標輪廓的表現力以及文本的可讀性之間取得了較好的平衡。

  基于特稱提取的算法也被應用在其他類型的可視化中,如Afzal 等提出的 Typographic Maps,其針對的問題為:如何將文本依照地理信息填充到地圖中。該系統以地圖中提取的信息和用戶的約束作為特征填充文本,即以輸入地理信息作為布局文本的主要依據,同時接受用戶定義的視覺屬性和約束條件。從地圖中提取的特征為文本布局的位置提供了基礎,而文本又給地圖提供了更多的信息,最終提高了可視化信息傳遞的效率。

  3.2.2 代表性算法介紹

  Hurtut[15] 和 ?ztireli 都認為利用參數控制圖形的分布是非常困難的,但他們都選擇基于統計的方式來布局。而Reinert 提出一種不基于統計數據的方法,即從用戶的輸入中推導布局規則。基于特征提取算法中,具有代表性的 Reinert 算法摒棄了以往使用參數或基于統計的布局方式,將拼貼問題形式化為從每個圖形的高維特征空間映射到二維的布局問題。同時,通過在系統中引入交互,用戶可以使用圖釘固定一部分圖形的位置,系統從用戶確定的子集中計算出用戶期望的布局, 并影響圖形的最終布局。

  具體來說,系統首先對高維特征空間進行投影,將圖形以一定的規則映射到二維向量上。對每個圖形定義特征向量,圖標1.png

表示MEN個不同的特征。特征是由程序自動獲取的視覺特征,如:大小、形狀、亮度、紋理等。通過公式 (2),將高維特征空間降維為二維坐標矩陣 X:

公式2.png(2)

  其中,P 為特征投影矩陣;t 為轉換參數;f 為特征向量;小標1.png為布局函數;X 為轉換后的坐標矩陣。 可以將結果投影到不同的坐標系統中,t 可以使參數向量 x 沿參數的軸作偏移。如在笛卡爾坐標系下,改變 t 可以使圖形沿坐標軸偏移。

  系統引入了布局函數可以使布局結果更具多樣化。布局函數小標1.png是一個小標2.png的映射,可以通過輸入不同的布局函數將同樣的二維向量映射到不同布局中。如對輸入的二維向量的第一個數值映射為 x 軸坐標、第二個數值映射為 y 軸坐標,則得到在笛卡爾坐標系下的布局。同樣,如果將第一個數值映射到角度而第二個數值映射到半徑,則得到徑向布局。

  平衡臨近圖形的距離可以產生良好的最終布局,但從高維特征空間映射到二維坐標時,每個圖形被看作一個特征向量,并未考慮圖形之間的重疊與間隙。即映射時未考慮圖形在空間上的相互關系,故需在映射之后,對圖形的布局進行優化。

  在布局上,系統也使用了基于 CVD 圖的方式,通過逐步迭代目標函數來達到優化目的。在目標函數中,使用圖形邊界與 CVD 區域邊界的差值的平方和來衡量布局 X 偏離平衡的程度:

標示3.png

  其中,小標3.png為第 i 個圖形的 CVD 區域邊界;小標4.png為 CVD 邊界上的點w 和第 i 個圖形邊界上的點 xi 的最短歐幾里得距離。為了解決最小化小標5.png這一問題,系統使用了一些優化與近似方式來提高計算速度,并通過 GPU 并行運算的方式實現交互級的流暢度。

  交互時,系統首先生成一個初始結果,用戶可以使用圖釘工具在界面中固定一部分圖形的位置;隨后,系統根據用戶指定圖形的特征向量,推測用戶期望的布局,并將其應用到全局。

  4 自底向上生成技術

  自底向上生成技術的思路為從每個圖形出發,依次向已有的圖形上拼接最合適的圖形,最終逐步填充整個目標輪廓。

  4.1 基于形狀描述符匹配算法

  在自底向上的拼接過程中,由于每當系統將一個圖形拼接到拼貼畫中,必須不斷地對圖形進行角度、比例的調整,并評估兩者的匹配程度,因此需要高效的局部形狀匹配。這個過程涉及巨大的搜索空間——大量的圖形,且對于每個圖形又有無限個角度、位置、比例的組合。現有的描述符,如基于曲率比例空間 (Curvature Scale Space)、形狀上下文 (Shape Context)、三角區域表示 (Triangle-area Representation), 可以很好地測量形狀之間的整體相似度,但不能直接應用到拼貼畫的生成中。拼貼畫的生成核心在于兩個圖形的局部形狀的拼接,而并不考慮兩個圖形的整體相似度,且全局描述符帶來的巨大搜索空間會導致拼接效率極速下降。

  Kaplan 提出一種利用給定的封閉圖形在平面上進行緊密平鋪的算法,其使用模擬退火算法優化參數化抽象后的拼接問題,生成“埃舍爾”風格的拼貼畫。但其對輸入、輸出的限制均比較大,只能輸入單一的封閉圖形,很難限制與自定義輸出, 這些缺點較大地限制拼貼畫的多樣性。并且其算法只對圖形進行旋轉,而不考慮比例縮放等操作,從而影響輸出結果的豐富性,很難滿足用戶多元的需求。

  Kwan 提出的算法可以對任意填充元素與任意指定的輪廓進行拼貼畫生成,并支持對輸入元素進行旋轉與比例縮放來優化填充結果,極大地擴展了算法的應用場景。該算法在拼貼畫生成領域具有開創性,引入了以局部圖形描述符為基礎, 在填充圖形中搜索最適合填充的圖形。相比于傳統的形狀描述符在匹配時需要考慮位置、角度和比例的組合,Kwan 提出的 PAD(Pyramid of Arclength Descriptor) 描述符在匹配時比例和角度不變,這意味著在匹配最相似的圖形時,無需計算角度和比例。通過該描述符確定最優匹配圖形以及最優匹配點之后,可使用較小的搜索代價確定該圖形的角度和縮放。PAD 描述符也可以通過改變參考點的數量,動態調整 PAD 向量的描述能力和計算復雜度。

  PAD 描述符的核心是一個基于角度和比例不變域的塔式描述符。首先算法確定一個縮放比例不變域,此處使用的是絕對曲率的積分。給定一段曲線,對 t、s 點的絕對曲率積分的定義為:

 公式3.png (3)

  其中,小標6.png為 x 點的絕對曲率。研究證明該積分是對縮放比例不變的。

  但僅使用絕對曲率的積分并不能準確地表達圖形,或者說, 不能依靠絕對曲率的積分來進行形狀匹配。所以研究中引入了弧長這一形狀信息來輔助形狀匹配。弧長并不是對縮放比例不變的,但可以通過簡單的變形來解決。

  首先是對輸入圖形進行離散化,離散化后的每兩個點之間具有相同的絕對曲率的積分變化率。然后開始構建描述符, 對于圖形輪廓上的任意點p,需要同時考慮 p 點的左側和右側。為了更精確描述圖形的局部,一個 n 維的向量被引用進來:公式4.png(4)

       其中,li和ri 為 p 點的左側和右側在同樣的絕對曲率的積分變化率 的間隔弧長;n 可以根據需要進行調整,來獲得更高的準確度。則 點的描述向量 為:

公式5.png(5)


公式6.png(6)

公式7.png(7)


  

PAD 拼接示意圖.png

  圖 3 PAD 拼接示意圖

  其中,1.png表示凸 ( + 1) 和凹 ( - 1)。

  可以通過計算兩點的 PAD 向量之間的距離,來計算兩圖形輪廓上兩點的相似度。其距離公式為:

公式8.png(8)

       其中,1.png為m(p) 中第 i 個元素,小的 D(p,q)意味兩者更相似,即使兩個圖形的縮放比例并不相同。通過描述符確定兩個圖形的最相似點之后,算法會在該位置遍歷所有可能的角度和縮放比例。因為此時已經確定了相似點,故遍歷的搜索空間并不大,可以通過并不復雜的計算找到最優的匹配結果。

  對圖形局部進行匹配之后,即可進行拼貼畫的整體生成。給定一個比例任意的圖形庫,其生成是一個迭代的過程。如圖3 所示,每次迭代都是從一個目標形狀開始,最初的目標形狀為種子圖形,由用戶指定,或者隨機產生。每次迭代都是從未拼接的圖形庫中尋找局部輪廓距離最近的 K% 個作為候選,并對每個候選的拼接結果通過公式 (9) 進行打分,選取最終打分高的結果作為最終的拼接圖形。公式9.png(9)


  其中,L 為兩個圖形共享的邊長;圖片.png為第 i 個重疊部分的面積;2.png為兩圖形第 i 個間隙部分的面積; ω1、ω2 、ω3 為權重。由此通過不斷的迭代,將局部相似度高并且適合目標形狀的圖形進行拼接,產生最終的結果。

  通過弧長與曲率的結合,對圖形局部輪廓進行特征描述, 并計算圖形局部的相似度,可取得較優的拼接效果。但這樣可能會陷入僅考慮輪廓的局部而忽略了整體的問題,從而導致圖形局部匹配度較高,但全局相對較差。該方法通過引入對候選位置打分的方式來選擇最優的拼接,一定程度上緩解了這個問題。但從本質上來說,PAD 的生成過程是貪婪的,并不能得到全局最優的結果。

  4.2 基于螺旋線算法

  基于螺旋線算法將從文本中提取的核心詞作為主要的輸入圖形,文本的大小代表權重,最終拼接成完整的拼貼畫,其主要用于詞云可視化中。Viegas 最初提出使用阿基米德螺旋線來生成詞云,將單詞沿著以畫布為中心的螺旋線按照權重從大到小的順序依次拼接,生成最終結果。詞云作為經典的文本可視化工具,可以迅速生成美觀且信息量豐富的可視化結果。但在生成詞云的過程中,并不會考慮目標輪廓,所以生成的結果不能很好地填充目標輪廓,不適合生成有目標輪廓的拼貼畫。故許多研究者在詞云算法的基礎上進行了諸多改進,使詞云可以有效填充目標輪廓。

  4.2.1 相關算法介紹

  Buchin 提出 Geo Word Clouds 算法,其輸入是一個在每個位置均有文本標簽的目標輪廓。首先,采用聚類的方式對輸入的文本進行分組;然后,根據填充詞的頻率,在填充目標輪廓時盡可能使大小合適、不重疊的文本靠近。這一定程度上解決了詞云不能很好地填充目標輪廓的問題,并且取得了相對不錯的效果。但其對用戶的輸入要求比較高,需要目標輪廓的各個位置帶有文本標簽,不具有普適性。

  Chi 等提出一種不同的思路,其輸入不同于傳統的帶權重文本:將傳統螺旋線生成的詞云作為輸入,使用受約束的剛體動力學牽引單詞重新排布為目標形狀。這大大降低了用戶的輸入要求,比較容易使用。但其生成方式的限制在于,如果輸入的詞云布局與目標輪廓差距較大,則需要多次迭代才能得到較優的布局。而迭代過程需要耗費大量的時間,且其魯棒性較差, 在部分情況下無法保證良好的填充效果,仍需要手動參與。

  4.2.2 代表性算法介紹

  Wang 提出一種具有輪廓約束的詞云算法,降低了用戶使用的門檻——僅需要用戶輸入普通的文本和目標輪廓,而無需額外的信息即可得到填充率高且美觀的結果。該算法復雜度較低、生成速度較快,適合大規模的文本可視化生成。

  具體來說,系統首先提出了形狀感知的阿基米德螺旋線( 如圖 4 所示 ),其核心在于將目標輪廓的距離場和阿基米德螺旋線結合起來。傳統的螺旋線是以畫布中心為原點,沿著圓的切線方向逐步擴大半徑而繪制出來。在這個過程中,螺旋線的方向一直是圓的切線方向,所以繪制結果與目標輪廓無關。而引入距離場后,距離場可以很好地反映目標輪廓的信息。在繪制螺旋線時,以距離場的極點為原點,每一點的前進方向并非一直是圓的切線方向,而是根據每一點的距離場信息確定, 由距離場引導生成符合目標輪廓的螺旋線。

  為了使算法更具有普適性,系統加入了對復雜圖形的處理。為了防止極端情況下,以中心為原點的螺旋線不能很好地對輪廓邊緣進行處理,算法引入了圖形切割的步驟。在輸入圖形后系統會首先檢測目標輪廓內的所有分區,并為每個分區生成單獨的距離場;然后使用一個迭代的梯度下降過程,在每個分區中定位出局部最大值;最后生成單獨的螺旋線來排布單詞。其效果如圖5 所示,(a) 中圖形僅被分為兩個區域,填充效果較差,

  (b) 為 ShapeWordle 所采用的圖形切割后的分區結果,(c) 為在新的分區結果上使用形狀感知的螺旋線所產生的效果。結果表明,經過分區后,螺旋線對目標輪廓的貼合能力得到提升, 實現了文本填充目標輪廓。但基于螺旋線算法的限制在于,螺旋線的排布適合規則的輸入,如矩形文本或常規且相似的圖形, 而難以對不規則的輸入圖形進行排布。

  

形狀感知的阿基米德螺旋線.png


  圖 4 形狀感知的阿基米德螺旋線

  5 發展趨勢與創新研究

  拼貼畫的生成算法優勢突出——加快設計速度、提高設計質量、降低人工時間,可以迅速應用于工業界。近年來,隨著傳統電商及社交電商的發展,海報設計、營銷設計的需求成幾何倍數增長,傳統靠人力設計的速度與效率已跟不上時代的需求,自動化海報設計成為大勢所趨。如阿里推出的鹿班系統能智能生成大量的海報來應對雙十一這類電商節的需求,但其海報生成的結果大多設計簡單、內容單調,容易引起大眾審美疲勞。現有的拼貼畫生成技術非常適合生成風格與眾不同的海報設計,鑒于目前學界對兩者結合的研究并不多,所以如何針對海報等宣傳版面進行拼貼畫算法設計將成為未來可能的研究方向。

  在生成算法上,自頂向下的生成技術和自底向上的生成技術各自取得了相當優秀的結果,但也存在一些的問題尚待解決。

  5.1 自頂向下相關算法

  自頂向下的生成技術可以快速地確定物體的初始位置,再對細節進行微調。受限于算力與速度的同時,由于系統確定初始位置時并不會過多考慮圖形的輪廓,使得圖形輪廓匹配不佳或微調耗費時間長。基于輪廓細分生成算法思路受限于先將目標輪廓細分,然后將填充圖形變形以適應細分后的網格。在網格已經確定的情況下對填充圖形進行調整時,若對復雜的填充圖形進行較大的改變易導致其失真,而微調算法也需要較為復雜的運算。且這種變形往往不能取得全局最優的結果。其中一個可行的思路是在進行網格細分之前,先對填充圖形的輪廓進行簡化,達到計算可以接受的程度。即在網格生成之初,將簡化后的圖形輪廓與網格細分的形狀結合起來,使生成的網格更加接近填充圖形的輪廓,以提高匹配度、減少后續微調。

  

ShapeWordle 分區方式對比.png

  圖 5 ShapeWordle 分區方式對比

  

  在自頂向下的生成技術中,Hurtut 和 Reinert 將不同的思路引入拼貼畫生成中。Hurtut 借助統計模型,將用戶生成的拼貼畫進行擴展,這種方式非常適合墻紙、瓷磚等需要重復圖案生成的應用場景。其問題也相對明顯,用戶對生成結果的控制力較差,不能有效地對結果進行定制。在該思路的基礎上可以嘗試拓展可控的參數,增加用戶對生成過程的參與度或對結果的可操作性,從而有效提高算法的適用范圍。Reinert 的創新之處在于,從用戶的輸入中推導布局,將拼貼畫生成看作每個圖形的高維特征向量降維到二維坐標的問題,在降維之后進行局部的微變以優化最終結果。該思路與常規的解決方式有較大區別,可以迅速確定圖形的大概位置,但系統中微調的算法只能減少重疊問題,而不能提高圖形之間的匹配度,造成結果的填充率較低。該算法的缺點在于,初始降維時圖形輪廓完全被忽略。因此,可以在特征向量中進一步引入對圖形輪廓的描述符,降維時將圖形相似或可拼接的圖形盡可能靠近,并在降維后小范圍內引入圖形描述符來進行局部圖形的位置調整。也可以進一步對局部圖形的位置進行小范圍的再分配,改變其角度與縮放比例,完善局部圖形的拼貼效果。

  5.2 自底向上相關算法

  在自底向上的生成技術中,Kwan 提出的基于局部圖形描述符算法在生成時需要對所有圖形進行描述與匹配,適用于少數需要精確匹配的場景。對于大規模的圖形匹配,則需要借助多塊高性能 GPU 進行并行運算,才能將生成時間壓縮到一個可以接受的范圍。原文使用了 8 塊 NVIDIA Tesla K20m 進行并行運算才將生成時間壓縮到 3h 左右。考慮到原文設計的描述符已足夠精簡,所以在硬件計算能力未達到質的突破情況下, 描述符的生成方式并不適合廣泛使用。但 PAD 描述符后續被用于小范圍的圖形識別說明,局部的描述符不僅可以進行全局、窮舉式的匹配,還可以作為其他拼貼算法進行局部優化的補充。通過對小范圍圖形的局部輪廓進行匹配,將小范圍內相似的局部輪廓進行拼接,或作為圖形調整角度與縮放的依據,從而優化局部的拼貼效果與填充率。

  而對于基于螺旋線算法,目前 Wang 的形狀感知的螺旋線在實現將文本填充到目標輪廓上取得了較為不錯的效果,且能夠移植到其他類矩形的填充圖形上。但由于沿螺旋線的初始布局過程中僅考慮了矩形之間簡單的重疊避免,不適用于復雜圖形的重疊避免與局部輪廓拼接。同時,形狀感知的螺旋線在將圖形填充到目標輪廓中的價值很大,可以有效地提高填充算法對目標輪廓的感知能力。且其算法復雜度較低,可與其他算法結合,增強其他算法對目標輪廓的感知能力。如先用包圍盒算法將圖形抽象成易于計算重疊的簡單圖形,然后使用形狀感知的螺旋線將圖形拼接到目標輪廓中,以此為基礎進行微調, 提高局部輪廓的匹配度,從而充分發揮其算法對輪廓的感知能力。

  5.3 智能算法

  隨著智能算法的發展和應用,越來越多學者嘗試將智能算法引入拼貼畫領域。根據目的,將應用于拼貼畫自動生成的智能算法簡單分為兩類:第一種是將智能算法應用在對輸入圖形的預處理中,如提取圖片的核心區域、人臉等,或對圖形的特征進行提取,并根據提取的特征進行降維,從而確定圖形的初始位置;第二種則直接將智能算法應用于確定圖形的最終位置, 即應用于拼接,如根據統計學習對已有的拼貼畫進行擴展。

  5.3.1 應用于預處理

  對于第一種智能算法的應用,以 Liu 在 2017 年的相關工作為例,其首先使用 VGG-16 特征提取網絡對圖像進行特征提取,得到對應的特征向量,然后通過 t-SNE 將特征向量維度降至二維平面,并進行聚類。該類智能算法的應用可看作以Reinert 為代表的使用特征提取算法進行初步布局的后續工作, 通過智能算法可以顯著提高根據特征聚類的準確度。但僅針對圖形特征預處理的智能算法并不能完善拼貼畫生成中的“硬性標準”,如輪廓匹配度、填充率等。

  而使用智能算法進行核心區域與人臉的提取,常應用于圖片拼貼中,可以有效去除圖片中無效的背景區域,使拼貼算法的重心處于圖片中的核心區域。

  對于該種類型的智能算法應用,核心區域的語義性提取具有較大的研究價值。此類型拼貼畫大多為表現同一主題的圖片的拼貼結果,提高語義性提取可以增強主題信息表現的力度。目前,在特征提取方向,利用 CNN 進行特征提取可使提取到的特征向量較好地對輸入集進行聚類。但對用戶來說,CNN 的聚類結果是不可解釋的,相關智能算法更接近黑盒模式, 很難進行語義化的解釋,也很難讓用戶介入參數調整過程。Reinert 的算法說明,通過讓用戶交互地調整聚類后的結果, 從調整后的結果中推測用戶意圖并進行重新聚類,較為有效地讓用戶影響聚類結果,降低用戶介入聚類過程的理解成本。

  5.3.2 應用于拼接

  本文討論的拼接算法大多為傳統算法,如何將智能算法應用于拼接仍然是一個待探索的問題。Hurtut 基于統計模型學習輸入拼貼畫的布局,從而實現對布局的擴展是一個很好的嘗試,但其應用場景較為單一,并不能廣泛用于拼貼畫生成中。 Kwan 的工作表現了局部匹配的強大效果,但由于其忽略整體輪廓,出現了輪廓重疊現象。在某些輸入集中,局部輪廓的匹配度與整體輪廓的匹配度是相關聯的,能否通過建立模型來構建圖形局部與整體之間的關系,提高局部輪廓計算中對整體輪廓的感知,從而在使用局部匹配的拼接算法中,用較低的局部輪廓計算量達到接近整體輪廓的匹配效果。

  5.4 交叉領域

  拼貼畫算法的輸入主要為規則的簡單圖形或不規則的復雜圖形,輸出為在少量重疊下高填充率的拼接結果。其布局算法可對其他涉及布局問題的領域有借鑒作用——直接使用算法產生布局結果,或應用于對布局結果的調優中。如可以借鑒Reinert 的方法對降維算法結果在二維平面可視化的分布:在降維后,對降維結果在二維平面使用 CVD 相關算法進行迭代優化,降低投影點之間的重疊,平衡投影點之間的距離,提高降維結果的易讀性。

  同時,拼貼畫拼接過程中降低重疊率、提高填充率的目標與其他可視化布局問題的目標基本一致,有很好的借鑒與啟發作用。拼貼畫領域針對目標輪廓的相關算法可以提高其他領域布局問題中對目標輪廓的感知能力,如樹圖等可視化形式,可以從 Wang 針對輪廓的螺旋線算法中得到啟發,將樹圖或其他可視化方式與用戶提供的目標輪廓相結合,增強結果的視覺效果。

  5.5 創新趨勢

  在設計拼貼畫生成算法之外,擴大拼貼畫算法的適用范圍也是發展該領域的重要方向。如 Xu 將拼貼畫的輸入擴展到書法領域,通過應用拼貼畫算法的思想將文字填充生成藝術性較強的文字畫。基于這一思路,可將拼貼畫的輸入擴大到其他元素,從而產生創意性的結果。將算法的輸出載體擴展到其他領域亦是如此,如 Gal 將拼貼這一概念擴展到三維空間,使三維的物體拼接到三維的輪廓中,增強了結果的表現能力與表現空間。在拓展維度方面,也可以在不同載體上做更多的嘗試,如將載體擴展到 3D 打印、虛擬現實技術與增強現實技術等方向。

  在當前算法的基礎上進行創意性改良也是一個有趣的研究方向。Huang 將傳統的用戶給定輸入集更改為用戶指定輸入集的主題,算法從互聯網中匹配適合指定主題的拼貼元素。該改進思路既減少了用戶尋找輸入集的繁瑣工序,也由于每次互聯網圖片的隨機性,增加了生成結果的多樣性。鑒于拼貼畫的結果與藝術有一定的相關性,研究者可在傳統算法基礎上,添加更多創意性、藝術性的改進,擴展和增強算法結果的藝術表現能力。

  6 總結

  本文從自頂向下與自底向上兩種思路歸納概述了計算機用于拼貼畫自動生成的研究進展 , 對其中較有創新性的算法進行了分析,并對該技術的未來發展趨勢進行了總結和展望。

  隨著社交電商與社交互聯網的發展,工業界對自動生成較為復雜的設計需求將持續增長,而拼貼畫自動生成技術作為結合了圖形學與可視化兩個領域的自動技術,可在可視信息表達與圖形展示效果之間取得良好平衡。目前,該領域仍然存在許多重要的問題和挑戰,需要更多的研究人員繼續進行深入研究與探索。


中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

伺服與運動控制

關注伺服與運動控制公眾號獲取更多資訊

直驅與傳動

關注直驅與傳動公眾號獲取更多資訊

中國傳動網

關注中國傳動網公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2025年 第1期

    2025年 第1期

    伺服與運動控制

    2025年 第1期

  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期