在計算機視覺中分離“融合”的人類
新加坡現(xiàn)代汽車集團創(chuàng)新中心的一篇新論文提供了一種在計算機視覺中分離“融合”人類的方法——在物體識別框架發(fā)現(xiàn)人類在某種程度上與另一個人類“太接近”的情況下(例如作為“擁抱”動作或“站在后面”的姿勢),并且無法解開所代表的兩個人,將他們混淆為一個人或一個實體。
兩者合而為一,但這在語義分割中并不是一件好事。在這里,我們看到論文的新系統(tǒng)在復雜且具有挑戰(zhàn)性的圖像中對相互交織的人進行個體化方面取得了最先進的結果。
這是一個值得注意的問題,近年來在研究界受到了極大的關注。在沒有明顯但通常負擔不起的超大規(guī)模費用的情況下解決這個問題,以人為主導的自定義標簽最終可以改善文本到圖像系統(tǒng)中的人類個性化,例如穩(wěn)定擴散,在提示姿勢需要多人的情況下,這種系統(tǒng)經(jīng)常將人們“融化”在一起彼此靠近。
擁抱恐怖——文本到圖像的模型,如 DALL-E 2 和 Stable Diffusion(均在上面介紹)難以代表彼此非常接近的人。
盡管 DALL-E 2 和 Stable Diffusion 等生成模型(據(jù)任何人所知,在閉源 DALL-E 2 的情況下)目前無論如何都沒有使用語義分割或?qū)ο笞R別,但這些怪誕的人工合成器不能目前可以通過應用這種上游方法來治愈——因為最先進的對象識別庫和資源在解開人方面并不比基于CLIP的潛在擴散模型工作流好多少。
為了解決這個問題,題為“人類不需要標記更多人類:遮擋復制和粘貼用于遮擋人類實例分割”的新論文調(diào)整并改進了最近對半合成數(shù)據(jù)的“剪切和粘貼”方法,以實現(xiàn)新的 SOTA 領先任務,即使面對最具挑戰(zhàn)性的源材料:
新的遮擋復制和粘貼方法目前在該領域處于領先地位,甚至與以前的框架和方法相比,這些框架和方法以復雜和更專用的方式應對挑戰(zhàn),例如專門為遮擋建模。
把它剪掉!
修改后的方法——名為Occlusion Copy & Paste——源自 Google Research 領導的 2021 年Simple Copy-Paste論文,該論文表明,將提取的對象和人疊加在不同的源訓練圖像中可以提高圖像識別系統(tǒng)的離散化能力在圖像中找到的每個實例:
從 2021 年 Google Research 主導的論文“Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation”中,我們看到從一張照片“遷移”到其他照片的元素,目的是訓練更好的圖像識別模型。
新版本在這種自動和算法“重新粘貼”中增加了限制和參數(shù),將這個過程類比為一個圖像“籃子”,其中充滿了基于幾個關鍵因素“轉移”到其他圖像的潛在候選者。
OC&P 的概念工作流程。
控制元素
這些限制因素包括發(fā)生剪切和粘貼的可能性,這確保了該過程不會一直發(fā)生,這將實現(xiàn)破壞數(shù)據(jù)增強的“飽和”效果;一個籃子在任何時候都會擁有的圖像數(shù)量,其中更多的“片段”可能會提高實例的多樣性,但會增加預處理時間;和range,它確定將粘貼到“主機”圖像中的圖像數(shù)量。
關于后者,論文指出“我們需要發(fā)生足夠的遮擋,但不要太多,因為它們可能會使圖像過度混亂,這可能不利于學習。”
OC&P 的另外兩項創(chuàng)新是目標粘貼和增強實例粘貼。
有針對性的粘貼可確保合適的圖像落在目標圖像中的現(xiàn)有實例附近。在之前的方法中,從之前的工作來看,新元素只被限制在圖像的邊界內(nèi),沒有考慮上下文。
盡管這種帶有針對性粘貼的“粘貼”對人眼來說是顯而易見的,但 OC&P 及其前身都發(fā)現(xiàn),增加視覺真實性并不一定很重要,甚至可能是一種負擔(參見下面的“現(xiàn)實咬傷”)。
另一方面,增強的實例粘貼確保粘貼的實例不會表現(xiàn)出“獨特的外觀”,最終可能會以某種方式被系統(tǒng)分類,這可能會導致排除或“特殊處理”,從而阻礙泛化和適用性. 增強粘貼可調(diào)節(jié)亮度和銳度、縮放和旋轉以及飽和度等視覺因素以及其他因素。
從新論文的補充材料來看:將 OC&P 添加到現(xiàn)有的識別框架中是相當簡單的,并且會在非常接近的范圍內(nèi)產(chǎn)生優(yōu)越的個體化。
此外,OC&P 規(guī)定了任何粘貼實例的最小大小。例如,可以從大量人群場景中提取一個人的圖像,然后將其粘貼到另一幅圖像中——但在這種情況下,所涉及的少量像素不太可能有助于識別。因此,系統(tǒng)根據(jù)目標圖像的均衡邊長比應用最小比例。
此外,OC&P 制定了規(guī)模感知粘貼,除了尋找與粘貼主題相似的主題外,它還考慮了目標圖像中邊界框的大小。然而,這并不會導致人們認為合理或真實的合成圖像(見下圖),而是以有助于訓練的方式將語義上恰當?shù)脑亟M合在一起。
眼見為實
OC&P 所基于的先前工作和當前實施都對真實性或任何最終“蒙太奇”圖像的“照片真實性”給予了低溢價。雖然重要的是最終的組裝不要完全落入達達主義(否則受過訓練的系統(tǒng)的真實世界部署永遠不會希望在他們接受訓練的場景中遇到元素),但這兩項舉措都發(fā)現(xiàn)“視覺”的顯著增加可信度”不僅增加了預處理時間,而且這種“真實感增強”實際上可能適得其反。
來自新論文的補充材料:帶有“隨機混合”的增強圖像示例。盡管這些場景對一個人來說可能會讓人產(chǎn)生幻覺,但它們?nèi)匀粚⑾嗨频闹黝}放在一起;盡管遮擋對人眼來說是奇幻的,但無法提前知道潛在遮擋的性質(zhì),也無法對其進行訓練——因此,這種奇異的“截斷”形式足以迫使受過訓練的系統(tǒng)去尋找識別出部分目標對象,而無需開發(fā)復雜的 Photoshop 風格的方法來使場景更加合理。
數(shù)據(jù)和測試
在測試階段,該系統(tǒng)在MS COCO數(shù)據(jù)集的person類上進行了訓練,包含 64,115 張圖像中的 262,465 個人類示例。然而,為了獲得比 MS COCO 質(zhì)量更好的掩碼,圖像還接受了LVIS掩碼注釋。
來自 Facebook 研究的 LVIS 于 2019 年發(fā)布,是用于大型詞匯實例分割的海量數(shù)據(jù)集。
為了評估增強系統(tǒng)對抗大量被遮擋的人體圖像的能力,研究人員將 OC&P 與OCHuman(Occluded Human)基準進行對比。
OCHuman 數(shù)據(jù)集的示例,在 2018 年為支持 Pose2Seg 檢測項目而引入。該計劃旨在通過使用人的姿態(tài)和姿勢作為代表身體的像素的語義分隔符來改進人的語義分割。
由于沒有對 OCHuman 基準進行詳盡的注釋,新論文的研究人員創(chuàng)建了一個僅包含完全標記的示例的子集,名為 OCHuman FL。這將用于驗證的 1,113 個圖像中的人員實例數(shù)量減少到 2,240 個,在用于測試的 951 個實際圖像中減少 1,923 個實例。使用平均平均精度 (mAP) 作為核心指標,對原始集和新策劃的集進行了測試。
為了保持一致性,該架構由具有ResNet-50主干和特征金字塔網(wǎng)絡的Mask R-CNN組成,后者在準確性和訓練速度之間提供了可接受的折衷。
由于研究人員已經(jīng)注意到上游ImageNet影響在類似情況下的有害影響,整個系統(tǒng)在 4 個 NVIDIA V100 GPU 上從頭開始訓練 75 個 epoch,遵循 Facebook 2021 年發(fā)布的Detectron 2的初始化參數(shù)。
結果
除了上述結果之外,針對測試的MMDetection(及其三個相關模型)的基線結果表明,OC&P 在從復雜的姿勢中識別出人類的能力方面明顯領先。
除了優(yōu)于PoSeg和Pose2Seg 之外,也許該論文最杰出的成就之一是該系統(tǒng)可以非常普遍地應用于現(xiàn)有框架,包括那些在試驗中與之抗衡的框架(參見第一個結果框中的有/無比較,在文章開頭附近)。
論文的結論是:
'我們方法的一個主要好處是它很容易與任何模型或其他以模型為中心的改進一起應用??紤]到深度學習領域發(fā)展的速度,擁有與訓練的其他各個方面高度互操作的方法對每個人都是有利的。作為未來的工作,我們將其與以模型為中心的改進相結合,以有效解決被遮擋的人實例分割問題。
改進文本到圖像合成的潛力
主要作者 Evan Ling 在給我們的一封電子郵件中觀察到,OC&P 的主要好處是它可以保留原始面具標簽,并在新的環(huán)境中“免費”從它們那里獲得新的價值——即它們一直存在的圖像粘貼到。
盡管人類的語義分割似乎與穩(wěn)定擴散等模型在個體化人方面的困難密切相關(而不是像通常那樣“將它們混合在一起”),但語義標簽文化可能對噩夢般的人類產(chǎn)生任何影響SD和DALL-E 2經(jīng)常輸出的渲染是非常非常上游的。
填充穩(wěn)定擴散生成能力的數(shù)十億個LAION 5B子集圖像不包含對象級標簽,例如邊界框和實例掩碼,即使從圖像和數(shù)據(jù)庫內(nèi)容組成渲染的 CLIP 架構可能在某些時候受益于此類實例化;相反,LAION 圖像被標記為“免費”,因為它們的標簽來自元數(shù)據(jù)和環(huán)境說明等,當它們從網(wǎng)絡上抓取到數(shù)據(jù)集中時,它們與圖像相關聯(lián)。
“但除此之外,”玲告訴我們。'在文本到圖像生成模型訓練期間可以使用類似于我們的 OC&P 的某種增強。但我認為增強訓練圖像的真實性可能會成為一個問題。
“在我們的工作中,我們表明,監(jiān)督實例分割通常不需要‘完美’的真實性,但我不太確定是否可以為文本到圖像生成模型訓練得出相同的結論(尤其是當它們的輸出預計將是高度現(xiàn)實的)。在這種情況下,可能需要在增強圖像的“完美”真實性方面做更多的工作。
CLIP已經(jīng)被用作語義分割的一種可能的多模態(tài)工具,這表明改進的人識別和個性化系統(tǒng)(如 OC&P)最終可以開發(fā)成系統(tǒng)內(nèi)過濾器或分類器,可以任意拒絕“融合”和扭曲的人類表征——這是一項任務目前使用 Stable Diffusion 很難做到這一點,因為它理解錯誤所在的能力有限(如果它有這樣的能力,它可能一開始就不會犯錯誤)。
只是目前使用 OpenAI 的 CLIP 框架(DALL-E 2 和穩(wěn)定擴散的核心)進行語義分割的眾多項目之一。
“另一個問題是,”凌建議道。'會在訓練工作期間簡單地為這些生成模型提供被遮擋的人類圖像,而不需要補充模型架構設計來緩解“人類融合”的問題嗎?這可能是一個很難直接回答的問題??纯次覀?nèi)绾卧谖谋镜綀D像生成模型訓練期間注入某種實例級指導(通過實例級標簽,如實例掩碼)肯定會很有趣。