<menu id="ycqsw"></menu><nav id="ycqsw"><code id="ycqsw"></code></nav>
<dd id="ycqsw"><menu id="ycqsw"></menu></dd>
  • <nav id="ycqsw"></nav>
    <menu id="ycqsw"><strong id="ycqsw"></strong></menu>
    <xmp id="ycqsw"><nav id="ycqsw"></nav>
  • 計算機視覺技術的發展方向(計算機視覺三大領域)


    隨著深度學習的進步、計算存儲的擴大、可視化數據集的激增,計算機視覺方面的研究在過去幾年蓬勃發展。在自動駕駛汽車、醫療保健、零售、能源、語言學等諸多領域,計算機視覺的應用都越來越廣。

    我將在本文中介紹 2018 年主導了計算機視覺研究的 5 個主要趨勢。詳盡回顧太難,此處只會分享這個領域中令我印象深刻的成就。


    1?—?合成數據

    合成數據,即人工合成、用來訓練深度學習模型的數據,在 2018 年的計算機視覺研究領域絕對是重頭戲。例如這個 SUNCG 數據集 被用于模擬室內環境,這個 Cityscapes 數據集被用于駕駛和導航,這個合成人類的 SURREAL 數據集 被用于學習姿勢估計和追蹤。讓我們一起來過一遍 2018 年利用合成數據的最佳成果們:

    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • 在 How Well Should You Label (你該標記得多好) 中, 作者著眼于為了從現代 CNN 架構中得到良好的分割質量,對訓練標簽的質量要求有多低。 這很重要,因為合成數據通常以其像素完美的質量而聞名。 作者在 Auto City 數據集上進行實驗,證明最終的分割質量確實與標記所花費的時間量密切相關,但與每個標簽的質量無關。
    • Soccer on Your Tabletop (桌面上的足球) 提出了一個可以拍攝足球比賽的視頻流并將其轉換為移動 3D 重建的系統,該重建可被投影到桌面上并使用增強現實設備進行觀看。系統提取運動員的邊界框,使用姿勢和深度估計模型分析人物圖形,最終得到非常精確的3D場景重建。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • 現有的大多特征學習方法都缺乏人類那樣同時從不同信息源學習的能力。Cross-Domain Self-supervised Multi-task Feature Learning(跨領域自監督多任務特征學習) 使用合成圖像通過提出一個原始的多任務深度學習網絡來解決這個差距,該網絡使用合成圖像來更好地學習跨模態設置中的視覺表示。通過合成圖像訓練網絡大大減少了多任務學習所需的往往昂貴且耗時的數據注釋。為了彌合真實數據和合成數據之間的跨域差距,在無監督的特征級域適應方法中采用對抗性學習,增強了在視覺特征知識到現實世界任務的遷移方面的表現。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • Training Deep Networks with Synthetic Data (用合成數據訓練深度網絡) 提出了一種依賴合成數據的域隨機化訓練用于真實物體檢測的深度神經網絡數據的精確方法。域隨機化通過刻意和隨機地干擾環境的紋理來迫使網絡聚焦并識別對象的主要特征,從而減少對高質量模擬數據集的需求。為了增強這一過程的性能,會進行結合合成數據和真實數據的額外訓練,從而彌合現實差距、得到更好的性能。論文還提出了不同的方法來發揮合成數據的潛力,認為這一領域將在未來幾年進一步發展。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢

    2?—?視覺問答

    視覺問答(Visual question answering,VQA)是一種結合計算機視覺和自然語言處理的新問題。通常涉及到給計算機展示一張圖片,讓計算機回答關于圖片的問題。答案可以是以下任何一種形式:一個單詞,一個詞組,是/否,選擇題答案,或者是填空題答案。

    諸如 DAQUAR, Visual7W, COCO-QA, VQA 之類的多種數據集都致力于解決這項任務. 讓我們同樣來看看視覺問答領域的今年最佳:

    • Embodied QA 以創建完全智能代理為目標,這些代理可以主動感知,在基于環境的對話中自然交流、表現和執行命令。通過目標驅動的 3D 設置智能導航,代理被要求基于對象識別和視覺定位和理解來回答問題。有趣的是,該代理僅使用自我中心視覺來導航其周圍環境。這意味著代理沒有提供地圖,只能通過原始感官輸入(像素和單詞)進行訓練,并且必須依靠常識來導航不熟悉的環境。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • 標準的 VAQ 模型不如人類自然互動那樣采樣高效、簡要,而是被動地依賴于大型靜態數據集。Learning by asking questions 通過引入模仿自然學習的更具互動性的 VQA 模型填補了這一研究空白。在這篇文章中,通過評估其先前獲得的知識并詢問相關的好問題來最大化來自發送到 oracle 的每個圖像-問題對學習信號,訓練代理像人一樣學習。該論文還展示了交互式提問如何顯著減少冗余和訓練所需樣本,以實現準確率提高40%。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • Inverse Visual QA (iVQA) 連接了其他旨在通過專注于開發視覺定位來提高標準 VQA 模型性能的模型。本文顛倒了流行的 VQA 任務,目標是在給定圖像/答案對的情況下生成問題。標準 VQA 的學習偏差破壞了評估過程。iVQA 使用部分生成的問題,對應于圖像-答案對的偏差較小的學習先驗,以實現更多的視覺定位。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • Interactive QA 致力于解決標準 VAQ 模型的一個短板:通常是被動的,不能訓練能夠在其環境中導航、交互和執行任務的完全智能的代理。該模型使用具有語義空間記憶的多級控制器方法,收集模擬真實場景的豐富數據集和廣泛的問題以評估模型。它推動標準 VQA 朝著創建完全視覺智能代理的最終目標邁進。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • 有效地評估當前最先進的 VQA 模型的性能并防止它們依賴有偏差的訓練先驗是一個仍在開發中的領域。為了這一目標,Grounded Visual QA 模型提供了一種新方法,可以直接分離從合理的先前答案中識別出的對象,從而迫使模型更多地去視覺定位。從該報告的優異成果以及當前社區對這一研究領域的關注來看,未來用創新方法進一步推進 VQA 模型很有希望。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢

    3?—?域適應

    2018年有一些特定的研究方向,一個是域適應。該領域實際上與合成數據密切相關。它解決了為監督學習收集標記數據集并確保數據足夠可靠和多樣化這一巨大挑戰。 這個問題的本質是,我們如何使用一種數據來讓網絡能處理不同的數據。

    • Unsupervised Domain Adaptation with Similarity Learning(用相似度學習實現無監督域適應 使用對抗性網絡處理域適應。作者讓一個網絡從標記的源域和另一個網絡中提取特征,以實現從一個未標記的目標域中提取具有相似但不同數據分布的特征。訓練模型以將目標原型與所有其他原型區分開來的分類是不同的。為了標記來自目標域的圖像,作者將圖像的嵌入與來自源域的原型圖像的嵌入進行比較,然后分配其最鄰近標簽。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • Image to Image Translation for Domain Adaptation (域適應的圖像到圖像轉換 研究用于圖像分割的域適應,其廣泛用于自動駕駛汽車,醫學成像和許多其他領域。從根本上來說,這一域自適應技術必須找到從源數據分布到目標數據分布的映射結構。該方法使用3種主要技術:(i)domain-agnostic feature extraction(從源域和目標域提取的特征的分布無法區分),(ii)domain-specific reconstruction(嵌入可以被解碼回源域和目標域 ),和(iii)cycle consistency(正確學習映射)。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • Conditional GAN for Structured Domain Adaptation (用于結構化域適應的條件 GAN 提供了一種新方法,通過結構化域自適應方法克服語義分割模型中跨域差異的挑戰。與無監督域自適應不同,該方法不假設存在跨域公共特征空間,而是采用條件生成器和鑒別器。因此,條件 GAN 被集成到 CNN 框架中,遷移標記的合成圖像域到未標記的真實圖像域。該方法的結果優于以前的模型,凸顯了合成數據集在推進視覺任務方面不斷增長的潛力。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • 訓練基于深度學習的模型依賴大量帶注釋的數據集需要大量資源。盡管在許多視覺識別任務中實現了最先進的性能,但跨域差異仍然是一個巨大的挑戰。為了跨域遷移知識, Maximum Classifier Discrepancy for Unsupervised Domain Adaptation 使用新穎的對抗性學習方法進行域適應,而不需要來自目標域的任何標記信息。據觀察,這種方法最小化來自目標域的樣本的兩個分類器的概率估計之間的差異,可以產生用于從分類到語義分割的各種任務的類判別特征。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢

    4?—?生成對抗網絡

    2018 年對于計算機視覺最成功的生成模型 – 生成對抗網絡(GAN)來說無疑是重要的一年。 讓我們來欣賞一些改進 GAN 模型的本年度最佳作品:

    • 條件 GANs 已經廣泛用于圖像建模,但它們對于風格遷移也非常有用。尤其是它們可以學習與特定圖像元素相對應的顯著特征,然后改變它們。在PairedCycleGAN for Makeup中,作者們提出了一個圖片妝容修整的框架。他們為不同的面部組件訓練各自的生成器并單獨應用它們,用不同的網絡提取面部要素。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • Eye Image Synthesis with Generative Models(生成模型的眼睛圖像合成) 著眼于生成人眼圖像的問題。這是一個有趣的用例,因為我們可以使用生成的眼睛來解決視線估計問題——一個人在看什么?作者使用眼形合成的概率模型和 GAN 架構來生成遵循該模型的眼睛。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • Generative Image In-painting with Contextual Attention(基于內容感知生成模型的圖像修復) 探討了填補圖像空白這一挑戰性問題。通常,要修復圖像,我們需要了解基礎場景。而這種方法使用 GAN 模型,使用周圍圖像中的特征來顯著改善生成。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • 當前最先進的基于 GAN 的文本到圖像生成模型僅在句子級別編碼文本描述,并忽略能夠改善生成圖像質量的單詞級別的細粒度信息。AttnGAN 提出了一種新穎的詞級注意力機制,在制作復雜場景時效果更贊。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • 和普遍的看法不同的是,神經網絡的成功主要來自于他們從數據中學習的強大能力,Deep Image Prior(深度圖像先驗) 展示了網絡結構對于建立良好的圖像先驗的重要性。本文提出了一種作為成像任務先驗的解碼網絡。有趣的是,作者展示了在任何學習之前,生成器網絡就足以捕獲大量的低級圖像統計數據。作者還使用該方法通過產生所謂的自然預圖像(natural pre-images)來研究保留在網絡的不同級別的信息內容。同樣有意思的是,使用深度圖像先驗作為正則項,從非常深的層級獲得的預圖像中仍然能獲取大量信息。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • 盡管 GANs 很成功,但其鑒別器網絡作為普通監督任務(如語義分割)的通用損失函數并不算很成功。Matching Adversarial Networks(匹配對抗網絡) 強調了背后的原因,即損失函數不直接依賴生成器訓練期間的真實值(ground truth)標記,這導致從數據分布中隨機產生樣本而不以監督方式關聯輸入-輸出關系。為了克服這個問題,本文提出用匹配網絡替換鑒別器,同時考慮真實值輸出以及生成的示例——由孿生網絡架構促成。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢

    5?—?3D 對象理解

    3D 對象理解對于深度學習系統成功解釋和指引現實世界至關重要。 例如,網絡或許能夠在街道圖像中定位汽車,為其所有像素著色,并將其歸類為汽車。 但問題在于它是否真的能夠理解圖像中的汽車相對于街道中的其他物體的位置。

    3D 對象理解涉及廣泛的研究領域,包括對象檢測,對象跟蹤,姿態估計,深度估計,場景重建等。 讓我們來看看 2018 年該領域的主要論文:

    • Detect-and-Track 是 2017 年出現的最有前途的圖像分割方法之一 Mask R-CNN 的延伸。作者提出了一種 3D Mask R-CNN 架構,它使用時空卷積來提取特征并直接識別短片中的姿勢。完整的架構如下所示。它在姿勢估計和人體追蹤方面實現了當前最優結果。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • Pose-Sensitive Embeddings for Person Re-Identification 應對了行人重識別(person re-identification)的挑戰。通常,這個問題通過基于檢索的方法來解決,即求導查詢圖像與來自某個嵌入空間的存儲圖像之間的相似度度量。這篇論文提出將姿勢信息直接嵌入到 CNN 中,并設計了一個無監督的重排序新方法。架構如下圖所示。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • 3D Poses from a Single Image(基于單色圖像的 3D 姿勢 ) 提出了一種姿勢估計的特別方法。它直接通過一種結合了姿勢估計、人體輪廓分割和網格生成的端到端卷積結構生成人體的 3D 網格,關鍵點在于它使用了 SMPL,一種統計學身體形狀模型,為人體的形狀提供了良好的先驗。因此,它得以從一張單色圖像構造人體的 3D 網格。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • Flow Track (光流相關濾波) 則致力于對象追蹤問題。它是相關濾波類方法(DCF,discriminative correlation filter)的擴展,學習與對象相對應的濾波并將其應用于所有視頻幀。其模型體系結構具有空間-時間注意力(spatial-temporal attention)機制,關注視頻中的不同時間幀。(譯者注:在 spatial attention 中,用余弦距離衡量,對空間位置上每一個待融合的點分配權重:和當前幀越相似,權重越大,反之越??;這么做的問題是當前幀的權重永遠是最大的,于是作者借鑒 SENet 的思想設計了時間權重 temporal attention,即把每一幀看做一個channel,設計一個質量判斷網絡,網絡輸出的結果是每一幀的質量打分。temporal attention 和 spatial attention 結合,實現 feature map 的融合。)
    20大熱門項目告訴你,計算機視覺未來的五大趨勢
    • 與上述的 Flow Track 相同,Correlation Tracking 也是用相關濾波處理對象追蹤。然而這種方法不使用深度神經網絡,相反,它包含可靠性信息 – 這意味著作者在目標函數中添加了一項,用于模擬學習過濾器的可靠性。
    20大熱門項目告訴你,計算機視覺未來的五大趨勢

    希望你會喜歡這篇短評。 如果你有興趣探索更多,建議閱讀CVPR,ICLR, 以及機器學習和人工智能領域最負盛名的會議——NeurIPS。

    版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。

    發表評論

    登錄后才能評論
    国产精品区一区二区免费