ICCV 2017 papers on the web

Oral 1

3D Vision

Globally-Optimal Inlier Set Maximisation for Simultaneous Camera Pose and Feature Correspondence (PDF): Dylan Campbell, Lars Petersson, Laurent Kneip, Hongdong Li
Robust Pseudo Random Fields for Light-Field Stereo Matching (PDF): Chao-Tsung Huang
A Lightweight Approach for On-The-Fly Reflectance Estimation (PDF): Kihwan Kim, Jinwei Gu, Stephen Tyree, Pavlo Molchanov, Matthias Nießner, Jan Kautz
Distributed Very Large Scale Bundle Adjustment by Global Camera Consensus (PDF): Runze Zhang, Siyu Zhu, Tian Fang, Long Quan
Practical Projective Structure From Motion (P2SfM) (PDF, videos): Ludovic Magerand, Alessio Del Bue

Spotlight 1

3D Vision & Video Analysis

Anticipating Daily Intention Using On-Wrist Motion Triggered Sensing: Tz-Ying Wu, Ting-An Chien, Cheng-Sheng Chan, Chan-Wei Hu, Min Sun
Rethinking Reprojection: Closing the Loop for Pose-Aware Shape Reconstruction From a Single Image: Rui Zhu, Hamed Kiani Galoogahi, Chaoyang Wang, Simon Lucey
End-To-End Learning of Geometry and Context for Deep Stereo Regression: Alex Kendall, Hayk Martirosyan, Saumitro Dasgupta, Peter Henry, Ryan Kennedy, Abraham Bachrach, Adam Bry
Using Sparse Elimination for Solving Minimal Problems in Computer Vision: Janne Heikkilä
High-Resolution Shape Completion Using Deep Neural Networks for Global Structure and Local Geometry Inference: Xiaoguang Han, Zhen Li, Haibin Huang, Evangelos Kalogerakis, Yizhou Yu
Temporal Tessellation: A Unified Approach for Video Analysis: Dotan Kaufman, Gil Levi, Tal Hassner, Lior Wolf
Learning Policies for Adaptive Tracking With Deep Feature Cascades: Chen Huang, Simon Lucey, Deva Ramanan
Temporal Shape Super-Resolution by Intra-Frame Motion Encoding Using High-Fps Structured Light: Yuki Shiba, Satoshi Ono, Ryo Furukawa, Shinsaku Hiura, Hiroshi Kawasaki

Poster 1

Oral O1 Posters

Globally-Optimal Inlier Set Maximisation for Simultaneous Camera Pose and Feature Correspondence: Dylan Campbell, Lars Petersson, Laurent Kneip, Hongdong Li
Robust Pseudo Random Fields for Light-Field Stereo Matching: Chao-Tsung Huang
A Lightweight Approach for On-The-Fly Reflectance Estimation: Kihwan Kim, Jinwei Gu, Stephen Tyree, Pavlo Molchanov, Matthias Nießner, Jan Kautz
Distributed Very Large Scale Bundle Adjustment by Global Camera Consensus: Runze Zhang, Siyu Zhu, Tian Fang, Long Quan
Practical Projective Structure From Motion (P2SfM): Ludovic Magerand, Alessio Del Bue

Spotlight S1 Posters

Anticipating Daily Intention Using On-Wrist Motion Triggered Sensing: Tz-Ying Wu, Ting-An Chien, Cheng-Sheng Chan, Chan-Wei Hu, Min Sun
Rethinking Reprojection: Closing the Loop for Pose-Aware Shape Reconstruction From a Single Image: Rui Zhu, Hamed Kiani Galoogahi, Chaoyang Wang, Simon Lucey
End-To-End Learning of Geometry and Context for Deep Stereo Regression: Alex Kendall, Hayk Martirosyan, Saumitro Dasgupta, Peter Henry, Ryan Kennedy, Abraham Bachrach, Adam Bry
Using Sparse Elimination for Solving Minimal Problems in Computer Vision: Janne Heikkilä
High-Resolution Shape Completion Using Deep Neural Networks for Global Structure and Local Geometry Inference: Xiaoguang Han, Zhen Li, Haibin Huang, Evangelos Kalogerakis, Yizhou Yu
Temporal Tessellation: A Unified Approach for Video Analysis: Dotan Kaufman, Gil Levi, Tal Hassner, Lior Wolf
Learning Policies for Adaptive Tracking With Deep Feature Cascades: Chen Huang, Simon Lucey, Deva Ramanan
Temporal Shape Super-Resolution by Intra-Frame Motion Encoding Using High-Fps Structured Light: Yuki Shiba, Satoshi Ono, Ryo Furukawa, Shinsaku Hiura, Hiroshi Kawasaki

3D Computer Vision

Real-Time Monocular Pose Estimation of 3D Objects Using Temporally Consistent Local Color Histograms: Henning Tjaden, Ulrich Schwanecke, Elmar Schömer
CAD Priors for Accurate and Flexible Instance Reconstruction: Tolga Birdal, Slobodan Ilic
Colored Point Cloud Registration Revisited: Jaesik Park, Qian-Yi Zhou, Vladlen Koltun
Learning Compact Geometric Features: Marc Khoury, Qian-Yi Zhou, Vladlen Koltun
Joint Layout Estimation and Global Multi-View Registration for Indoor Reconstruction: Jeong-Kyun Lee, Jaewon Yea, Min-Gyu Park, Kuk-Jin Yoon

Biomedical Image Analysis

A Geometric Framework for Statistical Analysis of Trajectories With Distinct Temporal Spans: Rudrasis Chakraborty, Vikas Singh, Nagesh Adluru, Baba C. Vemuri
An Optimal Transportation Based Univariate Neuroimaging Index: Liang Mi, Wen Zhang, Junwei Zhang, Yonghui Fan, Dhruman Goradia, Kewei Chen, Eric M. Reiman, Xianfeng Gu, Yalin Wang

Face & Gesture

S3FD: Single Shot Scale-Invariant Face Detector: Shifeng Zhang, Xiangyu Zhu, Zhen Lei, Hailin Shi, Xiaobo Wang, Stan Z. Li

Low-Level Vision & Image Processing

Amulet: Aggregating Multi-Level Convolutional Features for Salient Object Detection: Pingping Zhang, Dong Wang, Huchuan Lu, Hongyu Wang, Xiang Ruan
Learning Uncertain Convolutional Features for Accurate Saliency Detection: Pingping Zhang, Dong Wang, Huchuan Lu, Hongyu Wang, Baocai Yin
Zero-Order Reverse Filtering: Xin Tao, Chao Zhou, Xiaoyong Shen, Jue Wang, Jiaya Jia
Learning Blind Motion Deblurring: Patrick Wieschollek, Michael Hirsch, Bernhard Schölkopf, Hendrik P. A. Lensch
Joint Adaptive Sparsity and Low-Rankness on the Fly: An Online Tensor Reconstruction Scheme for Video Denoising: Bihan Wen, Yanjun Li, Luke Pfister, Yoram Bresler
Learning to Super-Resolve Blurry Face and Text Images: Xiangyu Xu, Deqing Sun, Jinshan Pan, Yujin Zhang, Hanspeter Pfister, Ming-Hsuan Yang
Video Frame Interpolation via Adaptive Separable Convolution: Simon Niklaus, Long Mai, Feng Liu

Motion & Tracking

Deep Occlusion Reasoning for Multi-Camera Multi-Target Detection: Pierre Baqué, François Fleuret, Pascal Fua
Encouraging LSTMs to Anticipate Actions Very Early: Mohammad Sadegh Aliakbarian, Fatemeh Sadat Saleh, Mathieu Salzmann, Basura Fernando, Lars Petersson, Lars Andersson
PathTrack: Fast Trajectory Annotation With Path Supervision: Santiago Manen, Michael Gygli, Dengxin Dai, Luc Van Gool
Tracking the Untrackable: Learning to Track Multiple Cues With Long-Term Dependencies: Amir Sadeghian, Alexandre Alahi, Silvio Savarese
MirrorFlow: Exploiting Symmetries in Joint Optical Flow and Occlusion Estimation: Junhwa Hur, Stefan Roth
Tracking as Online Decision-Making: Learning a Policy From Streaming Videos With Reinforcement Learning: James Supančič, III, Deva Ramanan

Optimization Methods

Non-Convex Rank/Sparsity Regularization and Local Minima: Carl Olsson, Marcus Carlsson, Fredrik Andersson, Viktor Larsson
A Revisit of Sparse Coding Based Anomaly Detection in Stacked RNN Framework: Weixin Luo, Wen Liu, Shenghua Gao

Recognition

HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis: Xihui Liu, Haiyu Zhao, Maoqing Tian, Lu Sheng, Jing Shao, Shuai Yi, Junjie Yan, Xiaogang Wang
No Fuss Distance Metric Learning Using Proxies: Yair Movshovitz-Attias, Alexander Toshev, Thomas K. Leung, Sergey Ioffe, Saurabh Singh
Benchmarking and Error Diagnosis in Multi-Instance Pose Estimation: Matteo Ruggero Ronchi, Pietro Perona
Orientation Invariant Feature Embedding and Spatial Temporal Regularization for Vehicle Re-Identification: Zhongdao Wang, Luming Tang, Xihui Liu, Zhuliang Yao, Shuai Yi, Jing Shao, Junjie Yan, Shengjin Wang, Hongsheng Li, Xiaogang Wang
Fashion Forward: Forecasting Visual Style in Fashion: Ziad Al-Halah, Rainer Stiefelhagen, Kristen Grauman
Towards 3D Human Pose Estimation in the Wild: A Weakly-Supervised Approach: Xingyi Zhou, Qixing Huang, Xiao Sun, Xiangyang Xue, Yichen Wei
Flow-Guided Feature Aggregation for Video Object Detection: Xizhou Zhu, Yujie Wang, Jifeng Dai, Lu Yuan, Yichen Wei
Reasoning About Fine-Grained Attribute Phrases Using Reference Games: Jong-Chyi Su, Chenyun Wu, Huaizu Jiang, Subhransu Maji
DeNet: Scalable Real-Time Object Detection With Directed Sparse Sampling: Lachlan Tychsen-Smith, Lars Petersson
MIHash: Online Hashing With Mutual Information: Fatih Cakir, Kun He, Sarah Adel Bargal, Stan Sclaroff
SafetyNet: Detecting and Rejecting Adversarial Examples Robustly: Jiajun Lu, Theerasit Issaranon, David Forsyth
Recurrent Models for Situation Recognition: Svetlana Lazebnik, Arun Mallya
Multi-Label Image Recognition by Recurrently Discovering Attentional Regions: Zhouxia Wang, Tianshui Chen, Guanbin Li, Ruijia Xu, Liang Lin
Deep Determinantal Point Process for Large-Scale Multi-Label Classification: Pengtao Xie, Ruslan Salakhutdinov, Luntian Mou, Eric P. Xing
Visual Semantic Planning Using Deep Successor Representations: Yuke Zhu, Daniel Gordon, Eric Kolve, Dieter Fox, Li Fei-Fei, Abhinav Gupta, Roozbeh Mottaghi, Ali Farhadi
Neural Person Search Machines: Hao Liu, Jiashi Feng, Zequn Jie, Karlekar Jayashree, Bo Zhao, Meibin Qi, Jianguo Jiang, Shuicheng Yan
DualNet: Learn Complementary Features for Image Recognition: Saihui Hou, Xu Liu, Zilei Wang
Higher-Order Integration of Hierarchical Convolutional Activations for Fine-Grained Visual Categorization: Sijia Cai, Wangmeng Zuo, Lei Zhang
Show, Adapt and Tell: Adversarial Training of Cross-Domain Image Captioner: Tseng-Hung Chen, Yuan-Hong Liao, Ching-Yao Chuang, Wan-Ting Hsu, Jianlong Fu, Min Sun
Attribute Recognition by Joint Recurrent Learning of Context and Correlation: Jingya Wang, Xiatian Zhu, Shaogang Gong, Wei Li
VegFru: A Domain-Specific Dataset for Fine-Grained Visual Categorization: Saihui Hou, Yushan Feng, Zilei Wang
Increasing CNN Robustness to Occlusions by Reducing Filter Support: Elad Osherov, Michael Lindenbaum
Exploiting Multi-Grain Ranking Constraints for Precisely Searching Visually-Similar Vehicles: Ke Yan, Yonghong Tian, Yaowei Wang, Wei Zeng, Tiejun Huang
Recurrent Scale Approximation for Object Detection in CNN: Yu Liu, Hongyang Li, Junjie Yan, Fangyin Wei, Xiaogang Wang, Xiaoou Tang

Segmentation, Grouping & Shape

Embedding 3D Geometric Features for Rigid Object Part Segmentation: Yafei Song, Xiaowu Chen, Jia Li, Qinping Zhao

Statistical Methods & Learning

Towards Context-Aware Interaction Recognition for Visual Relationship Detection: Bohan Zhuang, Lingqiao Liu, Chunhua Shen, Ian Reid
When Unsupervised Domain Adaptation Meets Tensor Representations: Hao Lu, Lei Zhang, Zhiguo Cao, Wei Wei, Ke Xian, Chunhua Shen, Anton van den Hengel
Look, Listen and Learn: Relja Arandjelović, Andrew Zisserman
Grad-CAM: Visual Explanations From Deep Networks via Gradient-Based Localization: Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra
Image-Based Localization Using LSTMs for Structured Feature Correlation: Florian Walch, Caner Hazirbas, Laura Leal-Taixé, Torsten Sattler, Sebastian Hilsenbeck, Daniel Cremers
Personalized Image Aesthetics: Jian Ren, Xiaohui Shen, Zhe Lin, Radomír Měch, David J. Foran
Predicting Deeper Into the Future of Semantic Segmentation: Pauline Luc, Natalia Neverova, Camille Couprie, Jakob Verbeek, Yann LeCun
Coordinating Filters for Faster Deep Neural Networks: Wei Wen, Cong Xu, Chunpeng Wu, Yandan Wang, Yiran Chen, Hai Li
Unsupervised Representation Learning by Sorting Sequences: Hsin-Ying Lee, Jia-Bin Huang, Maneesh Singh, Ming-Hsuan Yang

Video

A Read-Write Memory Network for Movie Story Understanding: Seil Na, Sangho Lee, Jisung Kim, Gunhee Kim
SegFlow: Joint Learning for Video Object Segmentation and Optical Flow: Jingchun Cheng, Yi-Hsuan Tsai, Shengjin Wang, Ming-Hsuan Yang
Unsupervised Action Discovery and Localization in Videos: Khurram Soomro, Mubarak Shah
Dense-Captioning Events in Videos: Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, Juan Carlos Niebles
Learning Long-Term Dependencies for Action Recognition With a Biologically-Inspired Deep Network: Yemin Shi, Yonghong Tian, Yaowei Wang, Wei Zeng, Tiejun Huang
Compressive Quantization for Fast Object Instance Search in Videos: Tan Yu, Zhenzhen Wang, Junsong Yuan
Complex Event Detection by Identifying Reliable Shots From Untrimmed Videos: Hehe Fan, Xiaojun Chang, De Cheng, Yi Yang, Dong Xu, Alexander G. Hauptmann

Vision for X

Deep Direct Regression for Multi-Oriented Scene Text Detection: Wenhao He, Xu-Yao Zhang, Fei Yin, Cheng-Lin Liu

Oral 2

Recognition I

Open Set Domain Adaptation: Pau Panareda Busto, Juergen Gall
Deformable Convolutional Networks: Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, Yichen Wei
Ensemble Diffusion for Retrieval: Song Bai, Zhichao Zhou, Jingdong Wang, Xiang Bai, Longin Jan Latecki, Qi Tian
FoveaNet: Perspective-Aware Urban Scene Parsing: Xin Li, Zequn Jie, Wei Wang, Changsong Liu, Jimei Yang, Xiaohui Shen, Zhe Lin, Qiang Chen, Shuicheng Yan, Jiashi Feng
Beyond Planar Symmetry: Modeling Human Perception of Reflection and Rotation Symmetries in the Wild: Christopher Funk, Yanxi Liu

Spotlight 2

Recognition I

Learning to Reason: End-To-End Module Networks for Visual Question Answering: Ronghang Hu, Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Kate Saenko
Hard-Aware Deeply Cascaded Embedding: Yuhui Yuan, Kuiyuan Yang, Chao Zhang
Query-Guided Regression Network With Context Policy for Phrase Grounding: Kan Chen, Rama Kovvuri, Ram Nevatia
SUBIC: A Supervised, Structured Binary Code for Image Search: Himalaya Jain, Joaquin Zepeda, Patrick Pérez, Rémi Gribonval
Revisiting Unreasonable Effectiveness of Data in Deep Learning Era: Chen Sun, Abhinav Shrivastava, Saurabh Singh, Abhinav Gupta
A Generative Model of People in Clothing: Christoph Lassner, Gerard Pons-Moll, Peter V. Gehler
Escape From Cells: Deep Kd-Networks for the Recognition of 3D Point Cloud Models: Roman Klokov, Victor Lempitsky
Improved Image Captioning via Policy Gradient Optimization of SPIDEr: Siqi Liu, Zhenhai Zhu, Ning Ye, Sergio Guadarrama, Kevin Murphy

Poster 2

Oral O2 Posters

Open Set Domain Adaptation: Pau Panareda Busto, Juergen Gall
Deformable Convolutional Networks: Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, Yichen Wei
Ensemble Diffusion for Retrieval: Song Bai, Zhichao Zhou, Jingdong Wang, Xiang Bai, Longin Jan Latecki, Qi Tian
FoveaNet: Perspective-Aware Urban Scene Parsing: Xin Li, Zequn Jie, Wei Wang, Changsong Liu, Jimei Yang, Xiaohui Shen, Zhe Lin, Qiang Chen, Shuicheng Yan, Jiashi Feng
Beyond Planar Symmetry: Modeling Human Perception of Reflection and Rotation Symmetries in the Wild: Christopher Funk, Yanxi Liu

Spotlight S2 Posters

Learning to Reason: End-To-End Module Networks for Visual Question Answering: Ronghang Hu, Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Kate Saenko
Hard-Aware Deeply Cascaded Embedding: Yuhui Yuan, Kuiyuan Yang, Chao Zhang
Query-Guided Regression Network With Context Policy for Phrase Grounding: Kan Chen, Rama Kovvuri, Ram Nevatia
SUBIC: A Supervised, Structured Binary Code for Image Search: Himalaya Jain, Joaquin Zepeda, Patrick Pérez, Rémi Gribonval
Revisiting Unreasonable Effectiveness of Data in Deep Learning Era: Chen Sun, Abhinav Shrivastava, Saurabh Singh, Abhinav Gupta
A Generative Model of People in Clothing: Christoph Lassner, Gerard Pons-Moll, Peter V. Gehler
Escape From Cells: Deep Kd-Networks for the Recognition of 3D Point Cloud Models: Roman Klokov, Victor Lempitsky
Improved Image Captioning via Policy Gradient Optimization of SPIDEr: Siqi Liu, Zhenhai Zhu, Ning Ye, Sergio Guadarrama, Kevin Murphy

3D Computer Vision

Rolling Shutter Correction in Manhattan World: Pulak Purkait, Christopher Zach, Ale&scaron, Leonardis
Local-To-Global Point Cloud Registration Using a Dictionary of Viewpoint Descriptors (PDF): David Avidar, David Malah, Meir Barzohar
3D-PRNN: Generating Shape Primitives With Recurrent Neural Networks: Chuhang Zou, Ersin Yumer, Jimei Yang, Duygu Ceylan, Derek Hoiem
BodyFusion: Real-Time Capture of Human Motion and Surface Geometry Using a Single Depth Camera: Tao Yu, Kaiwen Guo, Feng Xu, Yuan Dong, Zhaoqi Su, Jianhui Zhao, Jianguo Li, Qionghai Dai, Yebin Liu
Quasiconvex Plane Sweep for Triangulation With Outliers: Qianggong Zhang, Tat-Jun Chin, David Suter
"Maximizing Rigidity" Revisited: A Convex Programming Approach for Generic 3D Shape Reconstruction From Multiple Perspective Views: Pan Ji, Hongdong Li, Yuchao Dai, Ian Reid
Surface Registration via Foliation: Xiaopeng Zheng, Chengfeng Wen, Na Lei, Ming Ma, Xianfeng Gu
Rolling-Shutter-Aware Differential SfM and Image Rectification: Bingbing Zhuang, Loong-Fah Cheong, Gim Hee Lee
Corner-Based Geometric Calibration of Multi-Focus Plenoptic Cameras: Sotiris Nousias, François Chadebecq, Jonas Pichat, Pearse Keane, Sébastien Ourselin, Christos Bergeles

Computational Photography

Focal Track: Depth and Accommodation With Oscillating Lens Deformation: Qi Guo, Emma Alexander, Todd Zickler
Reconfiguring the Imaging Pipeline for Computer Vision: Mark Buckler, Suren Jayasuriya, Adrian Sampson
Catadioptric HyperSpectral Light Field Imaging: Yujia Xue, Kang Zhu, Qiang Fu, Xilin Chen, Jingyi Yu

Face & Gesture

Cross-View Asymmetric Metric Learning for Unsupervised Person Re-Identification: Hong-Xing Yu, Ancong Wu, Wei-Shi Zheng
Real Time Eye Gaze Tracking With 3D Deformable Eye-Face Model: Kang Wang, Qiang Ji
Ensemble Deep Learning for Skeleton-Based Action Recognition Using Temporal Sliding LSTM Networks: Inwoong Lee, Doyoung Kim, Seoungyoon Kang, Sanghoon Lee
How Far Are We From Solving the 2D & 3D Face Alignment Problem? (And a Dataset of 230,000 3D Facial Landmarks): Adrian Bulat, Georgios Tzimiropoulos
Large Pose 3D Face Reconstruction From a Single Image via Direct Volumetric CNN Regression: Aaron S. Jackson, Adrian Bulat, Vasileios Argyriou, Georgios Tzimiropoulos

Low-Level Vision & Image Processing

RankIQA: Learning From Rankings for No-Reference Image Quality Assessment: Xialei Liu, Joost van de Weijer, Andrew D. Bagdanov
Look, Perceive and Segment: Finding the Salient Objects in Images via Two-Stream Fixation-Semantic CNNs: Xiaowu Chen, Anlin Zheng, Jia Li, Feng Lu
Delving Into Salient Object Subitizing and Detection: Shengfeng He, Jianbo Jiao, Xiaodan Zhang, Guoqiang Han, Rynson W.H. Lau
Learning Discriminative Data Fitting Functions for Blind Image Deblurring: Jinshan Pan, Jiangxin Dong, Yu-Wing Tai, Zhixun Su, Ming-Hsuan Yang
Video Deblurring via Semantic Segmentation and Pixel-Wise Non-Linear Kernel: Wenqi Ren, Jinshan Pan, Xiaochun Cao, Ming-Hsuan Yang
On-Demand Learning for Deep Image Restoration: Ruohan Gao, Kristen Grauman
Multi-Channel Weighted Nuclear Norm Minimization for Real Color Image Denoising: Jun Xu, Lei Zhang, David Zhang, Xiangchu Feng
Coherent Online Video Style Transfer: Dongdong Chen, Jing Liao, Lu Yuan, Nenghai Yu, Gang Hua

Motion & Tracking

SHaPE: A Novel Graph Theoretic Algorithm for Making Consensus-Based Decisions in Person Re-Identification Systems: Arko Barman, Shishir K. Shah
Need for Speed: A Benchmark for Higher Frame Rate Object Tracking: Hamed Kiani Galoogahi, Ashton Fagg, Chen Huang, Deva Ramanan, Simon Lucey
Learning Background-Aware Correlation Filters for Visual Tracking: Hamed Kiani Galoogahi, Ashton Fagg, Simon Lucey
Robust Object Tracking Based on Temporal and Spatial Deep Networks: Zhu Teng, Junliang Xing, Qiang Wang, Congyan Lang, Songhe Feng, Yi Jin
Real-Time Hand Tracking Under Occlusion From an Egocentric RGB-D Sensor: Franziska Mueller, Dushyant Mehta, Oleksandr Sotnychenko, Srinath Sridhar, Dan Casas, Christian Theobalt
Predicting Human Activities Using Stochastic Grammar: Siyuan Qi, Siyuan Huang, Ping Wei, Song-Chun Zhu
ProbFlow: Joint Optical Flow and Uncertainty Estimation: Anne S. Wannenwetsch, Margret Keuper, Stefan Roth

Optimization Methods

Sublabel-Accurate Discretization of Nonconvex Free-Discontinuity Problems: Thomas Möllenhoff, Daniel Cremers

Recognition

DeepContext: Context-Encoding Neural Pathways for 3D Holistic Scene Understanding: Yinda Zhang, Mingru Bai, Pushmeet Kohli, Shahram Izadi, Jianxiong Xiao
BAM! The Behance Artistic Media Dataset for Recognition Beyond Photography: Michael J. Wilber, Chen Fang, Hailin Jin, Aaron Hertzmann, John Collomosse, Serge Belongie
Adversarial PoseNet: A Structure-Aware Convolutional Network for Human Pose Estimation: Yu Chen, Chunhua Shen, Xiu-Shen Wei, Lingqiao Liu, Jian Yang
An Empirical Study of Language CNN for Image Captioning: Jiuxiang Gu, Gang Wang, Jianfei Cai, Tsuhan Chen
Attributes2Classname: A Discriminative Model for Attribute-Based Unsupervised Zero-Shot Learning: Berkan Demirel, Ramazan Gokberk Cinbis, Nazli Ikizler-Cinbis
Areas of Attention for Image Captioning: Marco Pedersoli, Thomas Lucas, Cordelia Schmid, Jakob Verbeek
Generative Modeling of Audible Shapes for Object Perception: Zhoutong Zhang, Jiajun Wu, Qiujia Li, Zhengjia Huang, James Traer, Josh H. McDermott, Joshua B. Tenenbaum, William T. Freeman
Scene Graph Generation From Objects, Phrases and Region Captions: Yikang Li, Wanli Ouyang, Bolei Zhou, Kun Wang, Xiaogang Wang
Recurrent Multimodal Interaction for Referring Image Segmentation: Chenxi Liu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu, Alan Yuille
Learning Feature Pyramids for Human Pose Estimation: Wei Yang, Shuang Li, Wanli Ouyang, Hongsheng Li, Xiaogang Wang
Structured Attentions for Visual Question Answering: Chen Zhu, Yanpeng Zhao, Shuaiyi Huang, Kewei Tu, Yi Ma
Cut, Paste and Learn: Surprisingly Easy Synthesis for Instance Detection: Debidatta Dwibedi, Ishan Misra, Martial Hebert

Segmentation, Grouping & Shape

Cascaded Feature Network for Semantic Segmentation of RGB-D Images: Di Lin, Guangyong Chen, Daniel Cohen-Or, Pheng-Ann Heng, Hui Huang

Statistical Methods & Learning

Encoder Based Lifelong Learning: Amal Rannen, Rahaf Aljundi, Matthew B. Blaschko, Tinne Tuytelaars
Transitive Invariance for Self-Supervised Visual Representation Learning: Xiaolong Wang, Kaiming He, Abhinav Gupta
Weakly Supervised Learning of Deep Metrics for Stereo Reconstruction: Stepan Tulyakov, Anton Ivanov, François Fleuret
Fine-Grained Recognition in the Wild: A Multi-Task Domain Adaptation Approach: Timnit Gebru, Judy Hoffman, Li Fei-Fei
SORT: Second-Order Response Transform for Visual Recognition: Yan Wang, Lingxi Xie, Chenxi Liu, Siyuan Qiao, Ya Zhang, Wenjun Zhang, Qi Tian, Alan Yuille
Adversarial Examples for Semantic Segmentation and Object Detection: Cihang Xie, Jianyu Wang, Zhishuai Zhang, Yuyin Zhou, Lingxi Xie, Alan Yuille
Genetic CNN: Lingxi Xie, Alan Yuille
Channel Pruning for Accelerating Very Deep Neural Networks: Yihui He, Xiangyu Zhang, Jian Sun
Infinite Latent Feature Selection: A Probabilistic Latent Graph-Based Ranking Approach: Giorgio Roffo, Simone Melzi, Umberto Castellani, Alessandro Vinciarelli

Video

Video Fill in the Blank Using LR/RL LSTMs With Spatial-Temporal Attentions: Amir Mazaheri, Dong Zhang, Mubarak Shah
Primary Video Object Segmentation via Complementary CNNs and Neighborhood Reversible Flow: Jia Li, Anlin Zheng, Xiaowu Chen, Bin Zhou
Attentive Semantic Video Generation Using Captions: Tanya Marwah, Gaurav Mittal, Vineeth N. Balasubramanian
Following Gaze in Video: Adrià, Recasens, Carl Vondrick, Aditya Khosla, Antonio Torralba
Adaptive RNN Tree for Large-Scale Human Action Recognition: Wenbo Li, Longyin Wen, Ming-Ching Chang, Ser Nam Lim, Siwei Lyu
Spatio-Temporal Person Retrieval via Natural Language Queries: Masataka Yamaguchi, Kuniaki Saito, Yoshitaka Ushiku, Tatsuya Harada

Vision for X

Automatic Spatially-Aware Fashion Concept Discovery: Xintong Han, Zuxuan Wu, Phoenix X. Huang, Xiao Zhang, Menglong Zhu, Yuan Li, Yang Zhao, Larry S. Davis
ChromaTag: A Colored Marker and Fast Detection Algorithm: Joseph DeGol, Timothy Bretl, Derek Hoiem
Adversarial Image Perturbation for Privacy Protection — A Game Theory Perspective: Seong Joon Oh, Mario Fritz, Bernt Schiele
WeText: Scene Text Detection Under Weak Supervision: Shangxuan Tian, Shijian Lu, Chongshou Li

Oral 3

Vision for X

Arbitrary Style Transfer in Real-Time With Adaptive Instance Normalization: Xun Huang, Serge Belongie
Photographic Image Synthesis With Cascaded Refinement Networks: Qifeng Chen, Vladlen Koltun
SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again: Wadim Kehl, Fabian Manhardt, Federico Tombari, Slobodan Ilic, Nassir Navab
Unsupervised Creation of Parameterized Avatars: Lior Wolf, Yaniv Taigman, Adam Polyak
Learning for Active 3D Mapping: Karel Zimmermann, Tomá&scaron, Petříček, Vojtěch Šalanský, Tomá&scaron, Svoboda

Poster 3

Oral O3 Posters

Arbitrary Style Transfer in Real-Time With Adaptive Instance Normalization: Xun Huang, Serge Belongie
Photographic Image Synthesis With Cascaded Refinement Networks: Qifeng Chen, Vladlen Koltun
SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again: Wadim Kehl, Fabian Manhardt, Federico Tombari, Slobodan Ilic, Nassir Navab
Unsupervised Creation of Parameterized Avatars: Lior Wolf, Yaniv Taigman, Adam Polyak
Learning for Active 3D Mapping: Karel Zimmermann, Tomá&scaron, Petříček, Vojtěch Šalanský, Tomá&scaron, Svoboda

3D Computer Vision

Toward Perceptually-Consistent Stereo: A Scanline Study: Jialiang Wang, Daniel Glasner, Todd Zickler
Surface Normals in the Wild: Weifeng Chen, Donglai Xiang, Jia Deng
Unsupervised Learning of Stereo Matching: Chao Zhou, Hong Zhang, Xiaoyong Shen, Jiaya Jia
Unrestricted Facial Geometry Reconstruction Using Image-To-Image Translation: Matan Sela, Elad Richardson, Ron Kimmel
Learned Multi-Patch Similarity: Wilfried Hartmann, Silvano Galliani, Michal Havlena, Luc Van Gool, Konrad Schindler
Click Here: Human-Localized Keypoints as Guidance for Viewpoint Estimation: Ryan Szeto, Jason J. Corso
Unsupervised Adaptation for Deep Stereo: Alessio Tonioni, Matteo Poggi, Stefano Mattoccia, Luigi Di Stefano

Computational Photography

Composite Focus Measure for High Quality Depth Maps: Parikshit Sakurikar, P. J. Narayanan

Face & Gesture

Reconstruction-Based Disentanglement for Pose-Invariant Face Recognition: Xi Peng (Group: Work group, Company,... - optional), Xiang Yu (Group: Work group, Company,... - optional), Kihyuk Sohn (Group: Work group, Company,... - optional), Dimitris N. Metaxas (Group: Work group, Company,... - optional), Manmohan Chandraker (Group: Work group, Company,... - optional)
Recurrent 3D-2D Dual Learning for Large-Pose Facial Landmark Detection: Shengtao Xiao, Jiashi Feng, Luoqi Liu, Xuecheng Nie, Wei Wang, Shuicheng Yan, Ashraf Kassim
Anchored Regression Networks Applied to Age Estimation and Super Resolution: Eirikur Agustsson, Radu Timofte, Luc Van Gool
Infant Footprint Recognition: Eryun Liu

Low-Level Vision & Image Processing

Self-Paced Kernel Estimation for Robust Blind Image Deblurring: Dong Gong, Mingkui Tan, Yanning Zhang, Anton van den Hengel, Qinfeng Shi
Super-Trajectory for Video Segmentation: Wenguan Wang, Jianbing Shen, Jianwen Xie, Fatih Porikli
Be Your Own Prada: Fashion Synthesis With Structural Coherence: Shizhan Zhu, Raquel Urtasun, Sanja Fidler, Dahua Lin, Chen Change Loy
Wavelet-SRNet: A Wavelet-Based CNN for Multi-Scale Face Super Resolution: Huaibo Huang, Ran He, Zhenan Sun, Tieniu Tan
Learning Gaze Transitions From Depth to Improve Video Saliency Estimation: George Leifman, Dmitry Rudoy, Tristan Swedish, Eduardo Bayro-Corrochano, Ramesh Raskar
Joint Convolutional Analysis and Synthesis Sparse Representation for Single Image Layer Separation: Shuhang Gu, Deyu Meng, Wangmeng Zuo, Lei Zhang
Modelling the Scene Dependent Imaging in Cameras With a Deep Neural Network: Seonghyeon Nam, Seon Joo Kim
Transformed Low-Rank Model for Line Pattern Noise Removal: Yi Chang, Luxin Yan, Sheng Zhong
Weakly Supervised Manifold Learning for Dense Semantic Object Correspondence: Utkarsh Gaur, B. S. Manjunath
PanNet: A Deep Network Architecture for Pan-Sharpening: Junfeng Yang, Xueyang Fu, Yuwen Hu, Yue Huang, Xinghao Ding, John Paisley

Motion & Tracking

Dual Motion GAN for Future-Flow Embedded Video Prediction: Xiaodan Liang, Lisa Lee, Wei Dai, Eric P. Xing
Online Robust Image Alignment via Subspace Learning From Gradient Orientations: Qingqing Zheng, Yi Wang, Pheng-Ann Heng
Learning Dynamic Siamese Network for Visual Object Tracking: Qing Guo, Wei Feng, Ce Zhou, Rui Huang, Liang Wan, Song Wang

Optimization Methods

High Order Tensor Formulation for Convolutional Sparse Coding: Adel Bibi, Bernard Ghanem
Learning Proximal Operators: Using Denoising Networks for Regularizing Inverse Imaging Problems: Tim Meinhardt, Michael Möller, Caner Hazirbas, Daniel Cremers

Recognition

ScaleNet: Guiding Object Proposal Generation in Supermarkets and Beyond: Siyuan Qiao, Wei Shen, Weichao Qiu, Chenxi Liu, Alan Yuille
Temporal Dynamic Graph LSTM for Action-Driven Video Object Detection: Yuan Yuan, Xiaodan Liang, Xiaolong Wang, Dit-Yan Yeung, Abhinav Gupta
VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation: Chuang Gan, Yandong Li, Haoxiang Li, Chen Sun, Boqing Gong
Multi-Modal Factorized Bilinear Pooling With Co-Attention Learning for Visual Question Answering: Zhou Yu, Jun Yu, Jianping Fan, Dacheng Tao
SCNet: Learning Semantic Correspondence: Kai Han, Rafael S. Rezende, Bumsub Ham, Kwan-Yee K. Wong, Minsu Cho, Cordelia Schmid, Jean Ponce
Soft Proposal Networks for Weakly Supervised Object Localization: Yi Zhu, Yanzhao Zhou, Qixiang Ye, Qiang Qiu, Jianbin Jiao
Class Rectification Hard Mining for Imbalanced Deep Learning: Qi Dong, Shaogang Gong, Xiatian Zhu
Generating High-Quality Crowd Density Maps Using Contextual Pyramid CNNs: Vishwanath A. Sindagi, Vishal M. Patel
See the Glass Half Full: Reasoning About Liquid Containers, Their Volume and Content: Roozbeh Mottaghi, Connor Schenck, Dieter Fox, Ali Farhadi
Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding: Zhenxing Niu, Mo Zhou, Le Wang, Xinbo Gao, Gang Hua
Identity-Aware Textual-Visual Matching With Latent Co-Attention: Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang
Learning Deep Neural Networks for Vehicle Re-ID With Visual-Spatio-Temporal Path Proposals: Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang
Learning From Noisy Labels With Distillation: Yuncheng Li, Jianchao Yang, Yale Song, Liangliang Cao, Jiebo Luo, Li-Jia Li
DSOD: Learning Deeply Supervised Object Detectors From Scratch: Zhiqiang Shen, Zhuang Liu, Jianguo Li, Yu-Gang Jiang, Yurong Chen, Xiangyang Xue
Phrase Localization and Visual Relationship Detection With Comprehensive Image-Language Cues: Bryan A. Plummer, Arun Mallya, Christopher M. Cervantes, Julia Hockenmaier, Svetlana Lazebnik
Chained Cascade Network for Object Detection: Wanli Ouyang, Kun Wang, Xin Zhu, Xiaogang Wang
VPGNet: Vanishing Point Guided Network for Lane and Road Marking Detection and Recognition: Seokju Lee, Junsik Kim, Jae Shin Yoon, Seunghak Shin, Oleksandr Bailo, Namil Kim, Tae-Hee Lee, Hyun Seok Hong, Seung-Hoon Han, In So Kweon
Unsupervised Learning of Important Objects From First-Person Videos: Gedas Bertasius, Hyun Soo Park, Stella X. Yu, Jianbo Shi
An Analysis of Visual Question Answering Algorithms: Kushal Kafle, Christopher Kanan
Visual Relationship Detection With Internal and External Linguistic Knowledge Distillation: Ruichi Yu, Ang Li, Vlad I. Morariu, Larry S. Davis
A Two Stream Siamese Convolutional Neural Network for Person Re-Identification: Dahjung Chung, Khalid Tahboub, Edward J. Delp
Joint Learning of Object and Action Detectors: Vicky Kalogeiton, Philippe Weinzaepfel, Vittorio Ferrari, Cordelia Schmid

Segmentation, Grouping & Shape

No More Discrimination: Cross City Adaptation of Road Scene Segmenters: Yi-Hsin Chen, Wei-Yu Chen, Yu-Ting Chen, Bo-Cheng Tsai, Yu-Chiang Frank Wang, Min Sun
Open Vocabulary Scene Parsing: Hang Zhao, Xavier Puig, Bolei Zhou, Sanja Fidler, Antonio Torralba
Learned Watershed: End-To-End Learning of Seeded Segmentation: Steffen Wolf, Lukas Schott, Ullrich Köthe, Fred Hamprecht
Curriculum Domain Adaptation for Semantic Segmentation of Urban Scenes (PDF, code): Yang Zhang, Philip David, Boqing Gong
Scale-Adaptive Convolutions for Scene Parsing: Rui Zhang, Sheng Tang, Yongdong Zhang, Jintao Li, Shuicheng Yan

Statistical Methods & Learning

Privacy-Preserving Visual Learning Using Doubly Permuted Homomorphic Encryption: Ryo Yonetani, Vishnu Naresh Boddeti, Kris M. Kitani, Yoichi Sato
Multi-Task Self-Supervised Visual Learning: Carl Doersch, Andrew Zisserman
A Self-Balanced Min-Cut Algorithm for Image Clustering: Xiaojun Chen, Joshua Zhexue Haung, Feiping Nie, Renjie Chen, Qingyao Wu
Is Second-Order Information Helpful for Large-Scale Visual Recognition?: Peihua Li, Jiangtao Xie, Qilong Wang, Wangmeng Zuo
Factorized Bilinear Models for Image Recognition: Yanghao Li, Naiyan Wang, Jiaying Liu, Xiaodi Hou
Octree Generating Networks: Efficient Convolutional Architectures for High-Resolution 3D Outputs: Maxim Tatarchenko, Alexey Dosovitskiy, Thomas Brox
Truncating Wide Networks Using Binary Tree Architectures: Yan Zhang, Mete Ozay, Shuohao Li, Takayuki Okatani

Video

Bringing Background Into the Foreground: Making All Classes Equal in Weakly-Supervised Video Semantic Segmentation: Fatemeh Sadat Saleh, Mohammad Sadegh Aliakbarian, Mathieu Salzmann, Lars Petersson, Jose M. Álvarez
View Adaptive Recurrent Neural Networks for High Performance Human Action Recognition From Skeleton Data: Pengfei Zhang, Cuiling Lan, Junliang Xing, Wenjun Zeng, Jianru Xue, Nanning Zheng
Joint Discovery of Object States and Manipulation Actions: Jean-Baptiste Alayrac, Ivan Laptev, Josef Sivic, Simon Lacoste-Julien
What Actions Are Needed for Understanding Human Actions in Videos?: Gunnar A. Sigurdsson, Olga Russakovsky, Abhinav Gupta
Lattice Long Short-Term Memory for Human Action Recognition: Lin Sun, Kui Jia, Kevin Chen, Dit-Yan Yeung, Bertram E. Shi, Silvio Savarese
Common Action Discovery and Localization in Unconstrained Videos: Jiong Yang, Junsong Yuan
Pixel-Level Matching for Video Object Segmentation Using Convolutional Neural Networks: Jae Shin Yoon, Francois Rameau, Junsik Kim, Seokju Lee, Seunghak Shin, In So Kweon
Am I a Baller? Basketball Performance Assessment From First-Person Videos: Gedas Bertasius, Hyun Soo Park, Stella X. Yu, Jianbo Shi

Vision for X

Deep Cropping via Attention Box Prediction and Aesthetics Assessment: Wenguan Wang, Jianbing Shen
Raster-To-Vector: Revisiting Floorplan Transformation: Chen Liu, Jiajun Wu, Pushmeet Kohli, Yasutaka Furukawa
Deep TextSpotter: An End-To-End Trainable Scene Text Localization and Recognition Framework: Michal Bušta, Luká&scaron, Neumann, Jiří, Matas

Spotlight 3

Vision for X & Computational Phtography

Playing for Benchmarks: Stephan R. Richter, Zeeshan Hayder, Vladlen Koltun
Unpaired Image-To-Image Translation Using Cycle-Consistent Adversarial Networks: Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros
GANs for Biological Image Synthesis: Anton Osokin, Anatole Chessel, Rafael E. Carazo Salas, Federico Vaggi
Learning to Synthesize a 4D RGBD Light Field From a Single Image: Pratul P. Srinivasan, Tongzhou Wang, Ashwin Sreelal, Ravi Ramamoorthi, Ren Ng
Neural EPI-Volume Networks for Shape From Light Field: Stefan Heber, Wei Yu, Thomas Pock
Material Editing Using a Physically Based Rendering Network: Guilin Liu, Duygu Ceylan, Ersin Yumer, Jimei Yang, Jyh-Ming Lien
Turning Corners Into Cameras: Principles and Methods: Katherine L. Bouman, Vickie Ye, Adam B. Yedidia, Frédo Durand, Gregory W. Wornell, Antonio Torralba, William T. Freeman
Linear Differential Constraints for Photo-Polarimetric Height Estimation: Silvia Tozza, William A. P. Smith, Dizhong Zhu, Ravi Ramamoorthi, Edwin R. Hancock

Poster 4

Spotlight S3 Posters

Playing for Benchmarks: Stephan R. Richter, Zeeshan Hayder, Vladlen Koltun
Unpaired Image-To-Image Translation Using Cycle-Consistent Adversarial Networks: Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros
GANs for Biological Image Synthesis: Anton Osokin, Anatole Chessel, Rafael E. Carazo Salas, Federico Vaggi
Learning to Synthesize a 4D RGBD Light Field From a Single Image: Pratul P. Srinivasan, Tongzhou Wang, Ashwin Sreelal, Ravi Ramamoorthi, Ren Ng
Neural EPI-Volume Networks for Shape From Light Field: Stefan Heber, Wei Yu, Thomas Pock
Material Editing Using a Physically Based Rendering Network: Guilin Liu, Duygu Ceylan, Ersin Yumer, Jimei Yang, Jyh-Ming Lien
Turning Corners Into Cameras: Principles and Methods: Katherine L. Bouman, Vickie Ye, Adam B. Yedidia, Frédo Durand, Gregory W. Wornell, Antonio Torralba, William T. Freeman
Linear Differential Constraints for Photo-Polarimetric Height Estimation: Silvia Tozza, William A. P. Smith, Dizhong Zhu, Ravi Ramamoorthi, Edwin R. Hancock

3D Computer Vision

Polynomial Solvers for Saturated Ideals: Viktor Larsson, Kalle Åström, Magnus Oskarsson
Shape Inpainting Using 3D Generative Adversarial Network and Recurrent Convolutional Networks: Weiyue Wang, Qiangui Huang, Suya You, Chao Yang, Ulrich Neumann
SurfaceNet: An End-To-End 3D Neural Network for Multiview Stereopsis: Mengqi Ji, Juergen Gall, Haitian Zheng, Yebin Liu, Lu Fang
Making Minimal Solvers for Absolute Pose Estimation Compact and Robust: Viktor Larsson, Zuzana Kukelova, Yinqiang Zheng
3D Surface Detail Enhancement From a Single Normal Map: Wuyuan Xie, Miaohui Wang, Xianbiao Qi, Lei Zhang
RMPE: Regional Multi-Person Pose Estimation: Hao-Shu Fang, Shuqin Xie, Yu-Wing Tai, Cewu Lu
Online Video Object Detection Using Association LSTM: Yongyi Lu, Cewu Lu, Chi-Keung Tang
PolyFit: Polygonal Surface Reconstruction From Point Clouds: Liangliang Nan, Peter Wonka
Progressive Large Scale-Invariant Image Matching in Scale Space (PDF): Lei Zhou, Siyu Zhu, Tianwei Shen, Jinglu Wang, Tian Fang, Long Quan
Efficient Global 2D-3D Matching for Camera Localization in a Large-Scale 3D Map (PDF): Liu Liu, Hongdong Li, Yuchao Dai
Multi-View Non-Rigid Refinement and Normal Selection for High Quality 3D Reconstruction (PDF): Sk. Mohammadul Haque, Venu Madhav Govindu

Biomedical Image Analysis

Multi-Stage Multi-Recursive-Input Fully Convolutional Networks for Neuronal Boundary Detection: Wei Shen, Bin Wang, Yuan Jiang, Yan Wang, Alan Yuille

Computational Photography

Depth and Image Restoration From Light Field in a Scattering Medium: Jiandong Tian, Zachary Murez, Tong Cui, Zhen Zhang, David Kriegman, Ravi Ramamoorthi
Video Reflection Removal Through Spatio-Temporal Optimization: Ajay Nandoriya, Mohamed Elgharib, Changil Kim, Mohamed Hefeeda, Wojciech Matusik

Face & Gesture

Efficient Online Local Metric Adaptation via Negative Samples for Person Re-Identification: Jiahuan Zhou, Pei Yu, Wei Tang, Ying Wu
Stepwise Metric Promotion for Unsupervised Video Person Re-Identification: Zimo Liu, Dong Wang, Huchuan Lu
Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis: Rui Huang, Shu Zhang, Tianyu Li, Ran He
Group Re-Identification via Unsupervised Transfer of Sparse Features Encoding: Giuseppe Lisanti, Niki Martinel, Alberto Del Bimbo, Gian Luca Foresti
Visual Transformation Aided Contrastive Learning for Video-Based Kinship Verification: Hamdi Dibeklioğlu

Low-Level Vision & Image Processing

Decoder Network Over Lightweight Reconstructed Feature for Fast Semantic Style Transfer: Ming Lu, Hao Zhao, Anbang Yao, Feng Xu, Yurong Chen, Li Zhang
Blind Image Deblurring With Outlier Handling: Jiangxin Dong, Jinshan Pan, Zhixun Su, Ming-Hsuan Yang
Paying Attention to Descriptions Generated by Image Captioning Models: Hamed R. Tavakoli, Rakshith Shetty, Ali Borji, Jorma Laaksonen
Fast Image Processing With Fully-Convolutional Networks: Qifeng Chen, Jia Xu, Vladlen Koltun
Robust Video Super-Resolution With Learned Temporal Dynamics: Ding Liu, Zhaowen Wang, Yuchen Fan, Xianming Liu, Zhangyang Wang, Shiyu Chang, Thomas Huang
Should We Encode Rain Streaks in Video as Deterministic or Stochastic?: Wei Wei, Lixuan Yi, Qi Xie, Qian Zhao, Deyu Meng, Zongben Xu
Joint Bi-Layer Optimization for Single-Image Rain Streak Removal: Lei Zhu, Chi-Wing Fu, Dani Lischinski, Pheng-Ann Heng

Motion & Tracking

Low-Dimensionality Calibration Through Local Anisotropic Scaling for Robust Hand Model Personalization: Edoardo Remelli, Anastasia Tkach, Andrea Tagliasacchi, Mark Pauly
Non-Markovian Globally Consistent Multi-Object Tracking: Andrii Maksai, Xinchao Wang, François Fleuret, Pascal Fua
CREST: Convolutional Residual Learning for Visual Tracking: Yibing Song, Chao Ma, Lijun Gong, Jiawei Zhang, Rynson W. H. Lau, Ming-Hsuan Yang
Volumetric Flow Estimation for Incompressible Fluids Using the Stationary Stokes Equations: Katrin Lasinger, Christoph Vogel, Konrad Schindler
Bounding Boxes, Segmentations and Object Coordinates: How Important Is Recognition for 3D Scene Flow Estimation in Autonomous Driving Scenarios?: Aseem Behl, Omid Hosseini Jafari, Siva Karthik Mustikovela, Hassan Abu Alhaija, Carsten Rother, Andreas Geiger

Optimization Methods

Performance Guaranteed Network Acceleration via High-Order Residual Quantization: Zefan Li, Bingbing Ni, Wenjun Zhang, Xiaokang Yang, Wen Gao

Recognition

Deep Metric Learning With Angular Loss: Jian Wang, Feng Zhou, Shilei Wen, Xiao Liu, Yuanqing Lin
Compositional Human Pose Regression: Xiao Sun, Jiaxiang Shang, Shuang Liang, Yichen Wei
MUTAN: Multimodal Tucker Fusion for Visual Question Answering: Hedi Ben-younes, Remi Cadene, Matthieu Cord, Nicolas Thome
Revisiting IM2GPS in the Deep Learning Era: Nam Vo, Nathan Jacobs, James Hays
Scene Parsing With Global Context Embedding: Wei-Chih Hung, Yi-Hsuan Tsai, Xiaohui Shen, Zhe Lin, Kalyan Sunkavalli, Xin Lu, Ming-Hsuan Yang
A Simple yet Effective Baseline for 3D Human Pose Estimation: Julieta Martinez, Rayat Hossain, Javier Romero, James J. Little
Dual-Glance Model for Deciphering Social Relationships: Junnan Li, Yongkang Wong, Qi Zhao, Mohan S. Kankanhalli
Sketching With Style: Visual Search With Sketches and Aesthetic Context: John Collomosse, Tu Bui, Michael J. Wilber, Chen Fang, Hailin Jin
Point Set Registration With Global-Local Correspondence and Transformation Estimation: Su Zhang, Yang Yang, Kun Yang, Yi Luo, Sim-Heng Ong

Segmentation, Grouping & Shape

SceneNet RGB-D: Can 5M Synthetic Images Beat Generic ImageNet Pre-Training on Indoor Segmentation?: John McCormac, Ankur Handa, Stefan Leutenegger, Andrew J. Davison
A Unified Model for Near and Remote Sensing: Scott Workman, Menghua Zhai, David J. Crandall, Nathan Jacobs
Directionally Convolutional Networks for 3D Shape Segmentation: Haotian Xu, Ming Dong, Zichun Zhong
AMAT: Medial Axis Transform for Natural Images: Stavros Tsogkas, Sven Dickinson
Deep Dual Learning for Semantic Image Segmentation: Ping Luo, Guangrun Wang, Liang Lin, Xiaogang Wang
Regional Interactive Image Segmentation Networks: Jun Hao Liew, Yunchao Wei, Wei Xiong, Sim-Heng Ong, Jiashi Feng

Statistical Methods & Learning

Learning Efficient Convolutional Networks Through Network Slimming: Zhuang Liu, Jianguo Li, Zhiqiang Shen, Gao Huang, Shoumeng Yan, Changshui Zhang
CVAE-GAN: Fine-Grained Image Generation Through Asymmetric Training: Jianmin Bao, Dong Chen, Fang Wen, Houqiang Li, Gang Hua
Universal Adversarial Perturbations Against Semantic Image Segmentation: Jan Hendrik Metzen, Mummadi Chaithanya Kumar, Thomas Brox, Volker Fischer
Associative Domain Adaptation: Philip Haeusser, Thomas Frerix, Alexander Mordvintsev, Daniel Cremers
Introspective Neural Networks for Generative Modeling: Justin Lazarow, Long Jin, Zhuowen Tu
Towards a Unified Compositional Model for Visual Pattern Modeling: Wei Tang, Pei Yu, Jiahuan Zhou, Ying Wu
Least Squares Generative Adversarial Networks: Xudong Mao, Qing Li, Haoran Xie, Raymond Y.K. Lau, Zhen Wang, Stephen Paul Smolley
Centered Weight Normalization in Accelerating Training of Deep Neural Networks: Lei Huang, Xianglong Liu, Yang Liu, Bo Lang, Dacheng Tao
Deep Growing Learning: Guangcong Wang, Xiaohua Xie, Jianhuang Lai, Jiaxuan Zhuo
Smart Mining for Deep Metric Learning: Ben Harwood, Vijay Kumar B G, Gustavo Carneiro, Ian Reid, Tom Drummond
Temporal Generative Adversarial Nets With Singular Value Clipping: Masaki Saito, Eiichi Matsumoto, Shunta Saito
Sampling Matters in Deep Embedding Learning: Chao-Yuan Wu, R. Manmatha, Alexander J. Smola, Philipp Krähenbühl
DualGAN: Unsupervised Dual Learning for Image-To-Image Translation: Zili Yi, Hao Zhang, Ping Tan, Minglun Gong

Video

Learning View-Invariant Features for Person Identification in Temporally Synchronized Videos Taken by Wearable Cameras: Kang Zheng, Xiaochuan Fan, Yuewei Lin, Hao Guo, Hongkai Yu, Dazhou Guo, Song Wang
MarioQA: Answering Questions by Watching Gameplay Videos: Jonghwan Mun, Paul Hongsuck Seo, Ilchae Jung, Bohyung Han
SBGAR: Semantics Based Group Activity Recognition: Xin Li, Mooi Choo Chuah
Trespassing the Boundaries: Labeling Temporal Bounds for Object Interactions in Egocentric Video: Davide Moltisanti, Michael Wray, Walterio Mayol-Cuevas, Dima Damen
Unmasking the Abnormal Events in Video: Radu Tudor Ionescu, Sorina Smeureanu, Bogdan Alexe, Marius Popescu
Chained Multi-Stream Networks Exploiting Pose, Motion, and Appearance for Action Classification and Detection: Mohammadreza Zolfaghari, Gabriel L. Oliveira, Nima Sedaghat, Thomas Brox
Temporal Action Detection With Structured Segment Networks: Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, Dahua Lin
Jointly Recognizing Object Fluents and Tasks in Egocentric Videos: Yang Liu, Ping Wei, Song-Chun Zhu
Transferring Objects: Joint Inference of Container and Human Pose: Hanqing Wang, Wei Liang, Lap-Fai Yu

Vision for X

Interpretable Learning for Self-Driving Cars by Visualizing Causal Attention: Jinkyu Kim, John Canny

Oral 4

Recognition 2

Learning Cooperative Visual Dialog Agents With Deep Reinforcement Learning: Abhishek Das, Satwik Kottur, José, M. F. Moura, Stefan Lee, Dhruv Batra
Mask R-CNN: Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick
Towards Diverse and Natural Image Descriptions via a Conditional GAN: Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin
Focal Loss for Dense Object Detection: Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár
Inferring and Executing Programs for Visual Reasoning: Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy Hoffman, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick

Spotlight 4

Recognition 2

Visual Forecasting by Imitating Dynamics in Natural Sequences: Kuo-Hao Zeng, William B. Shen, De-An Huang, Min Sun, Juan Carlos Niebles
TorontoCity: Seeing the World With a Million Eyes: Shenlong Wang, Min Bai, Gellért Máttyus, Hang Chu, Wenjie Luo, Bin Yang, Justin Liang, Joel Cheverie, Sanja Fidler, Raquel Urtasun
Low-Shot Visual Recognition by Shrinking and Hallucinating Features: Bharath Hariharan, Ross Girshick
A Coarse-Fine Network for Keypoint Localization: Shaoli Huang, Mingming Gong, Dacheng Tao
Detect to Track and Track to Detect: Christoph Feichtenhofer, Axel Pinz, Andrew Zisserman
Single Shot Text Detector With Regional Attention: Pan He, Weilin Huang, Tong He, Qile Zhu, Yu Qiao, Xiaolin Li
SubUNets: End-To-End Hand Shape and Continuous Sign Language Recognition: Necati Cihan Camgoz, Simon Hadfield, Oscar Koller, Richard Bowden
A Spatiotemporal Oriented Energy Network for Dynamic Texture Recognition: Isma Hadji, Richard P. Wildes

Poster 5

Oral O4 Posters

Learning Cooperative Visual Dialog Agents With Deep Reinforcement Learning: Abhishek Das, Satwik Kottur, José, M. F. Moura, Stefan Lee, Dhruv Batra
Mask R-CNN: Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick
Towards Diverse and Natural Image Descriptions via a Conditional GAN: Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin
Focal Loss for Dense Object Detection: Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár
Inferring and Executing Programs for Visual Reasoning: Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy Hoffman, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick

Spotlight S4 Posters

Visual Forecasting by Imitating Dynamics in Natural Sequences: Kuo-Hao Zeng, William B. Shen, De-An Huang, Min Sun, Juan Carlos Niebles
TorontoCity: Seeing the World With a Million Eyes: Shenlong Wang, Min Bai, Gellért Máttyus, Hang Chu, Wenjie Luo, Bin Yang, Justin Liang, Joel Cheverie, Sanja Fidler, Raquel Urtasun
Low-Shot Visual Recognition by Shrinking and Hallucinating Features: Bharath Hariharan, Ross Girshick
A Coarse-Fine Network for Keypoint Localization: Shaoli Huang, Mingming Gong, Dacheng Tao
Detect to Track and Track to Detect: Christoph Feichtenhofer, Axel Pinz, Andrew Zisserman
Single Shot Text Detector With Regional Attention: Pan He, Weilin Huang, Tong He, Qile Zhu, Yu Qiao, Xiaolin Li
SubUNets: End-To-End Hand Shape and Continuous Sign Language Recognition: Necati Cihan Camgoz, Simon Hadfield, Oscar Koller, Richard Bowden
A Spatiotemporal Oriented Energy Network for Dynamic Texture Recognition: Isma Hadji, Richard P. Wildes

3D Computer Vision

Probabilistic Structure From Motion With Objects (PSfMO): Paul Gay, Cosimo Rubino, Vaibhav Bansal, Alessio Del Bue
A 3D Morphable Model of Craniofacial Shape and Texture Variation: Hang Dai, Nick Pears, William A. P. Smith, Christian Duncan
Multi-View Dynamic Shape Refinement Using Local Temporal Integration: Vincent Leroy, Jean-Sebastien Franco, Edmond Boyer
Learning Hand Articulations by Hallucinating Heat Distribution: Chiho Choi, Sangpil Kim, Karthik Ramani
Intrinsic3D: High-Quality 3D Reconstruction by Joint Appearance and Geometry Optimization With Spatially-Varying Lighting: Robert Maier, Kihwan Kim, Daniel Cremers, Jan Kautz, Matthias Nießner
Robust Hand Pose Estimation During the Interaction With an Unknown Object: Chiho Choi, Sang Ho Yoon, Chin-Ning Chen, Karthik Ramani
Detailed Surface Geometry and Albedo Recovery From RGB-D Video Under Natural Illumination: Xinxin Zuo, Sen Wang, Jiangbin Zheng, Ruigang Yang
Monocular Free-Head 3D Gaze Tracking With Deep Learning and Geometry Constraints: Wangjiang Zhu, Haoping Deng

Computational Photography

Filter Selection for Hyperspectral Estimation: Boaz Arad, Ohad Ben-Shahar
A Microfacet-Based Reflectance Model for Photometric Stereo With Highly Specular Surfaces: Lixiong Chen, Yinqiang Zheng, Boxin Shi, Art Subpa-Asa, Imari Sato

Face & Gesture

Detecting Faces Using Inside Cascaded Contextual CNN: Kaipeng Zhang, Zhanpeng Zhang, Hao Wang, Zhifeng Li, Yu Qiao, Wei Liu
A Novel Space-Time Representation on the Positive Semidefinite Cone for Facial Expression Recognition: Anis Kacem, Mohamed Daoudi, Boulbaba Ben Amor, Juan Carlos Alvarez-Paiva
DeepCoder: Semi-Parametric Variational Autoencoders for Automatic Facial Action Coding: Dieu Linh Tran, Robert Walecki, Ognjen (Oggi) Rudovic, Stefanos Eleftheriadis, Björn Schuller, Maja Pantic
Pose-Invariant Face Alignment With a Single CNN: Amin Jourabloo, Mao Ye, Xiaoming Liu, Liu Ren
Unsupervised Domain Adaptation for Face Recognition in Unlabeled Videos: Kihyuk Sohn, Sifei Liu, Guangyu Zhong, Xiang Yu, Ming-Hsuan Yang, Manmohan Chandraker
Deeply-Learned Part-Aligned Representations for Person Re-Identification: Liming Zhao, Xi Li, Yueting Zhuang, Jingdong Wang

Low-Level Vision & Image Processing

Semantic Line Detection and Its Applications: Jun-Tae Lee, Han-Ul Kim, Chul Lee, Chang-Su Kim
A Generic Deep Architecture for Single Image Reflection Removal and Image Smoothing: Qingnan Fan, Jiaolong Yang, Gang Hua, Baoquan Chen, David Wipf
Revisiting Cross-Channel Information Transfer for Chromatic Aberration Correction: Tiancheng Sun, Yifan Peng, Wolfgang Heidrich
High-Quality Correspondence and Segmentation Estimation for Dual-Lens Smart-Phone Portraits: Xiaoyong Shen, Hongyun Gao, Xin Tao, Chao Zhou, Jiaya Jia
Learning Visual Attention to Identify People With Autism Spectrum Disorder: Ming Jiang, Qi Zhao
DSLR-Quality Photos on Mobile Devices With Deep Convolutional Networks: Andrey Ignatov, Nikolay Kobyshev, Radu Timofte, Kenneth Vanhoey, Luc Van Gool
Non-Uniform Blind Deblurring by Reblurring: Yuval Bahat, Netalee Efrat, Michal Irani
Misalignment-Robust Joint Filter for Cross-Modal Image Pairs: Takashi Shibata, Masayuki Tanaka, Masatoshi Okutomi
Low-Rank Tensor Completion: A Pseudo-Bayesian Learning Approach: Wei Chen, Nan Song
DeepCD: Learning Deep Complementary Descriptors for Patch Representations: Tsun-Yi Yang, Jo-Han Hsu, Yen-Yu Lin, Yung-Yu Chuang

Motion & Tracking

Beyond Standard Benchmarks: Parameterizing Performance Evaluation in Visual Object Tracking: Luka Čehovin Zajc, Alan Lukeič, Ale&scaron, Leonardis, Matej Kristan
The Pose Knows: Video Forecasting by Generating Pose Futures: Jacob Walker, Kenneth Marino, Abhinav Gupta, Martial Hebert
What Will Happen Next? Forecasting Player Moves in Sports Videos: Panna Felsen, Pulkit Agrawal, Jitendra Malik

Optimization Methods

Robust Kronecker-Decomposable Component Analysis for Low-Rank Modeling: Mehdi Bahri, Yannis Panagakis, Stefanos Zafeiriou

Recognition

Recurrent Topic-Transition GAN for Visual Paragraph Generation: Xiaodan Liang, Zhiting Hu, Hao Zhang, Chuang Gan, Eric P. Xing
A Two-Streamed Network for Estimating Fine-Scaled Depth Maps From Single RGB Images: Jun Li, Reinhard Klein, Angela Yao
Weakly Supervised Object Localization Using Things and Stuff Transfer: Miaojing Shi, Holger Caesar, Vittorio Ferrari
Single Image Action Recognition Using Semantic Body Part Actions: Zhichen Zhao, Huimin Ma, Shaodi You
Incremental Learning of Object Detectors Without Catastrophic Forgetting: Konstantin Shmelkov, Cordelia Schmid, Karteek Alahari
Generative Adversarial Networks Conditioned by Brain Signals: Simone Palazzo, Concetto Spampinato, Isaak Kavasidis, Daniela Giordano, Mubarak Shah
Learning to Disambiguate by Asking Discriminative Questions: Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy
Interpretable Explanations of Black Boxes by Meaningful Perturbation: Ruth C. Fong, Andrea Vedaldi
DeepRoadMapper: Extracting Road Topology From Aerial Images: Gellért Máttyus, Wenjie Luo, Raquel Urtasun
Monocular 3D Human Pose Estimation by Predicting Depth on Joints: Bruce Xiaohan Nie, Ping Wei, Song-Chun Zhu
Large-Scale Image Retrieval With Attentive Deep Local Features: Hyeonwoo Noh, Andre Araujo, Jack Sim, Tobias Weyand, Bohyung Han
Deep Globally Constrained MRFs for Human Pose Estimation: Ioannis Marras, Petar Palasek, Ioannis Patras
Predicting Visual Exemplars of Unseen Classes for Zero-Shot Learning: Soravit Changpinyo, Wei-Lun Chao, Fei Sha
Multi-Label Learning of Part Detectors for Heavily Occluded Pedestrian Detection: Chunluan Zhou, Junsong Yuan
SGN: Sequential Grouping Networks for Instance Segmentation: Shu Liu, Jiaya Jia, Sanja Fidler, Raquel Urtasun
Adaptive Feeding: Achieving Fast and Accurate Detections by Adaptively Combining Object Detectors: Hong-Yu Zhou, Bin-Bin Gao, Jianxin Wu
Aesthetic Critiques Generation for Photos: Kuang-Yu Chang, Kung-Hung Lu, Chu-Song Chen
Hide-And-Seek: Forcing a Network to Be Meticulous for Weakly-Supervised Object and Action Localization: Krishna Kumar Singh, Yong Jae Lee

Segmentation, Grouping & Shape

Two-Phase Learning for Weakly Supervised Object Localization: Dahun Kim, Donghyeon Cho, Donggeun Yoo, In So Kweon

Statistical Methods & Learning

Curriculum Dropout: Pietro Morerio, Jacopo Cavazza, Riccardo Volpi, René, Vidal, Vittorio Murino
Predictor Combination at Test Time: Kwang In Kim, James Tompkin, Christian Richardt
Guided Perturbations: Self-Corrective Behavior in Convolutional Neural Networks: Swami Sankaranarayanan, Arpit Jain, Ser Nam Lim
Learning Robust Visual-Semantic Embeddings: Yao-Hung Hubert Tsai, Liang-Kang Huang, Ruslan Salakhutdinov
PUnDA: Probabilistic Unsupervised Domain Adaptation for Knowledge Transfer Across Visual Categories: Behnam Gholami, Ognjen (Oggi) Rudovic, Vladimir Pavlovic
Learning in an Uncertain World: Representing Ambiguity Through Multiple Hypotheses: Christian Rupprecht, Iro Laina, Robert DiPietro, Maximilian Baust, Federico Tombari, Nassir Navab, Gregory D. Hager

Video

CDTS: Collaborative Detection, Tracking, and Segmentation for Online Multiple Object Segmentation in Videos: Yeong Jun Koh, Chang-Su Kim
Temporal Superpixels Based on Proximity-Weighted Patch Matching: Se-Ho Lee, Won-Dong Jang, Chang-Su Kim
Joint Detection and Recounting of Abnormal Events by Learning Deep Generic Knowledge: Ryota Hinami, Tao Mei, Shin'ichi Satoh
TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals: Jiyang Gao, Zhenheng Yang, Kan Chen, Chen Sun, Ram Nevatia
Online Real-Time Multiple Spatiotemporal Action Localisation and Prediction: Gurkirt Singh, Suman Saha, Michael Sapienza, Philip H. S. Torr, Fabio Cuzzolin
Leveraging Weak Semantic Relevance for Complex Video Event Classification: Chao Li, Jiewei Cao, Zi Huang, Lei Zhu, Heng Tao Shen
Weakly Supervised Summarization of Web Videos: Rameswar Panda, Abir Das, Ziyan Wu, Jan Ernst, Amit K. Roy-Chowdhury
FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras: Shanghang Zhang, Guanhang Wu, João P. Costeira, José, M. F. Moura

Vision for X

Fast Face-Swap Using Convolutional Neural Networks: Iryna Korshunova, Wenzhe Shi, Joni Dambre, Lucas Theis
Towards a Visual Privacy Advisor: Understanding and Predicting Privacy Risks in Images: Tribhuvanesh Orekondy, Bernt Schiele, Mario Fritz

Oral 5

Face and Human Behaviour Analysis

First-Person Activity Forecasting With Online Inverse Reinforcement Learning: Nicholas Rhinehart, Kris M. Kitani
Binarized Convolutional Landmark Localizers for Human Pose Estimation and Face Alignment With Limited Resources: Adrian Bulat, Georgios Tzimiropoulos
MoFA: Model-Based Deep Convolutional Face Autoencoder for Unsupervised Monocular Reconstruction: Ayush Tewari, Michael Zollhöfer, Hyeongwoo Kim, Pablo Garrido, Florian Bernard, Patrick Pérez, Christian Theobalt
RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos: Wenbin Du, Yali Wang, Yu Qiao
Temporal Non-Volume Preserving Approach to Facial Age-Progression and Age-Invariant Face Recognition: Chi Nhan Duong, Kha Gia Quach, Khoa Luu, Ngan Le, Marios Savvides

Spotlight 5

Face and Human Behaviour Analysis

Attribute-Enhanced Face Recognition With Neural Tensor Fusion Networks: Guosheng Hu, Yang Hua, Yang Yuan, Zhihong Zhang, Zheng Lu, Sankha S. Mukherjee, Timothy M. Hospedales, Neil M. Robertson, Yongxin Yang
Unlabeled Samples Generated by GAN Improve the Person Re-Identification Baseline in Vitro: Zhedong Zheng, Liang Zheng, Yi Yang
Egocentric Gesture Recognition Using Recurrent 3D Convolutional Neural Networks With Spatiotemporal Transformer Modules: Congqi Cao, Yifan Zhang, Yi Wu, Hanqing Lu, Jian Cheng
Recursive Spatial Transformer (ReST) for Alignment-Free Face Recognition: Wanglong Wu, Meina Kan, Xin Liu, Yi Yang, Shiguang Shan, Xilin Chen
Learning Discriminative Aggregation Network for Video-Based Face Recognition: Yongming Rao, Ji Lin, Jiwen Lu, Jie Zhou
Synergy Between Face Alignment and Tracking via Discriminative Global Consensus Optimization: Muhammad Haris Khan, John McDonagh, Georgios Tzimiropoulos
SVDNet for Pedestrian Retrieval: Yifan Sun, Liang Zheng, Weijian Deng, Shengjin Wang
Towards More Accurate Iris Recognition Using Deeply Learned Spatially Corresponding Features: Zijing Zhao, Ajay Kumar

Poster 6

Oral O5 Posters

First-Person Activity Forecasting With Online Inverse Reinforcement Learning: Nicholas Rhinehart, Kris M. Kitani
Binarized Convolutional Landmark Localizers for Human Pose Estimation and Face Alignment With Limited Resources: Adrian Bulat, Georgios Tzimiropoulos
MoFA: Model-Based Deep Convolutional Face Autoencoder for Unsupervised Monocular Reconstruction: Ayush Tewari, Michael Zollhöfer, Hyeongwoo Kim, Pablo Garrido, Florian Bernard, Patrick Pérez, Christian Theobalt
RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos: Wenbin Du, Yali Wang, Yu Qiao
Temporal Non-Volume Preserving Approach to Facial Age-Progression and Age-Invariant Face Recognition: Chi Nhan Duong, Kha Gia Quach, Khoa Luu, Ngan Le, Marios Savvides

Spotlight S5 Posters

Attribute-Enhanced Face Recognition With Neural Tensor Fusion Networks: Guosheng Hu, Yang Hua, Yang Yuan, Zhihong Zhang, Zheng Lu, Sankha S. Mukherjee, Timothy M. Hospedales, Neil M. Robertson, Yongxin Yang
Unlabeled Samples Generated by GAN Improve the Person Re-Identification Baseline in Vitro: Zhedong Zheng, Liang Zheng, Yi Yang
Egocentric Gesture Recognition Using Recurrent 3D Convolutional Neural Networks With Spatiotemporal Transformer Modules: Congqi Cao, Yifan Zhang, Yi Wu, Hanqing Lu, Jian Cheng
Recursive Spatial Transformer (ReST) for Alignment-Free Face Recognition: Wanglong Wu, Meina Kan, Xin Liu, Yi Yang, Shiguang Shan, Xilin Chen
Learning Discriminative Aggregation Network for Video-Based Face Recognition: Yongming Rao, Ji Lin, Jiwen Lu, Jie Zhou
Synergy Between Face Alignment and Tracking via Discriminative Global Consensus Optimization: Muhammad Haris Khan, John McDonagh, Georgios Tzimiropoulos
SVDNet for Pedestrian Retrieval: Yifan Sun, Liang Zheng, Weijian Deng, Shengjin Wang
Towards More Accurate Iris Recognition Using Deeply Learned Spatially Corresponding Features: Zijing Zhao, Ajay Kumar

3D Computer Vision

Semantically Informed Multiview Surface Refinement: Maro&scaron, Bláha, Mathias Rothermel, Martin R. Oswald, Torsten Sattler, Audrey Richard, Jan D. Wegner, Marc Pollefeys, Konrad Schindler
BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses of Challenging Objects Without Using Depth: Mahdi Rad, Vincent Lepetit
Modeling Urban Scenes From Pointclouds: William Nguatem, Helmut Mayer
Parameter-Free Lens Distortion Calibration of Central Cameras: Filippo Bergamasco, Luca Cosmo, Andrea Gasparetto, Andrea Albarelli, Andrea Torsello
Pose Guided RGBD Feature Learning for 3D Object Pose Estimation: Vassileios Balntas, Andreas Doumanoglou, Caner Sahin, Juil Sock, Rigas Kouskouridas, Tae-Kyun Kim
Efficient Global Illumination for Morphable Models: Andreas Schneider, Sandro Schönborn, Lavrenti Frobeen, Bernhard Egger, Thomas Vetter
Low Compute and Fully Parallel Computer Vision With HashMatch: Sean Ryan Fanello, Julien Valentin, Adarsh Kowdle, Christoph Rhemann, Vladimir Tankovich, Carlo Ciliberto, Philip Davidson, Shahram Izadi
Dense Non-Rigid Structure-From-Motion and Shading With Unknown Albedos: Mathias Gallardo, Toby Collins, Adrien Bartoli
From Point Clouds to Mesh Using Regression: Ľubor Ladický, Olivier Saurer, SoHyeon Jeong, Fabio Maninchedda, Marc Pollefeys
Stereo DSO: Large-Scale Direct Sparse Visual Odometry With Stereo Cameras: Rui Wang, Martin Schwörer, Daniel Cremers
Space-Time Localization and Mapping: Minhaeng Lee, Charless C. Fowlkes

Computational Photography

Benchmarking Single-Image Reflection Removal Algorithms: Renjie Wan, Boxin Shi, Ling-Yu Duan, Ah-Hwee Tan, Alex C. Kot

Face & Gesture

Attention-Aware Deep Reinforcement Learning for Video Face Recognition: Yongming Rao, Jiwen Lu, Jie Zhou
Learning to Fuse 2D and 3D Image Cues for Monocular Body Pose Estimation: Bugra Tekin, Pablo Márquez-Neila, Mathieu Salzmann, Pascal Fua
Deep Facial Action Unit Recognition From Partially Labeled Data: Shan Wu, Shangfei Wang, Bowen Pan, Qiang Ji
Pose-Driven Deep Convolutional Model for Person Re-Identification: Chi Su, Jianing Li, Shiliang Zhang, Junliang Xing, Wen Gao, Qi Tian
Recognition of Action Units in the Wild With Deep Nets and a New Global-Local Loss: C. Fabian Benitez-Quiroz, Yan Wang, Aleix M. Martinez
Faster Than Real-Time Facial Alignment: A 3D Spatial Transformer Network Approach in Unconstrained Poses: Chandrasekhar Bhagavatula, Chenchen Zhu, Khoa Luu, Marios Savvides
Towards Large-Pose Face Frontalization in the Wild: Xi Yin, Xiang Yu, Kihyuk Sohn, Xiaoming Liu, Manmohan Chandraker

Low-Level Vision & Image Processing

A Joint Intrinsic-Extrinsic Prior Model for Retinex: Bolun Cai, Xianming Xu, Kailing Guo, Kui Jia, Bin Hu, Dacheng Tao
Going Unconstrained With Rolling Shutter Deblurring: Mahesh Mohan M. R., A. N. Rajagopalan, Gunasekaran Seetharaman
A Stagewise Refinement Model for Detecting Salient Objects in Images: Tiantian Wang, Ali Borji, Lihe Zhang, Pingping Zhang, Huchuan Lu
From Square Pieces to Brick Walls: The Next Challenge in Solving Jigsaw Puzzles: Shir Gur, Ohad Ben-Shahar
Online Video Deblurring via Dynamic Temporal Blending Network: Tae Hyun Kim, Kyoung Mu Lee, Bernhard Schölkopf, Michael Hirsch
Supervision by Fusion: Towards Unsupervised Learning of Deep Salient Object Detector: Dingwen Zhang, Junwei Han, Yu Zhang
Fast Multi-Image Matching via Density-Based Clustering: Roberto Tron, Xiaowei Zhou, Carlos Esteves, Kostas Daniilidis
Characterizing and Improving Stability in Neural Style Transfer: Agrim Gupta, Justin Johnson, Alexandre Alahi, Li Fei-Fei

Recognition

Cross-Modal Deep Variational Hashing: Venice Erin Liong, Jiwen Lu, Yap-Peng Tan, Jie Zhou
Spatial Memory for Context Reasoning in Object Detection: Xinlei Chen, Abhinav Gupta
Deep Binaries: Encoding Semantic-Rich Cues for Efficient Textual-Visual Cross Retrieval: Yuming Shen, Li Liu, Ling Shao, Jingkuan Song
Learning a Recurrent Residual Fusion Network for Multimodal Matching: Yu Liu, Yanming Guo, Erwin M. Bakker, Michael S. Lew
Rotational Subgroup Voting and Pose Clustering for Robust 3D Object Recognition: Anders Glent Buch, Lilita Kiforenko, Dirk Kraft
CoupleNet: Coupling Global Structure With Local Parts for Object Detection: Yousong Zhu, Chaoyang Zhao, Jinqiao Wang, Xu Zhao, Yi Wu, Hanqing Lu
Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training: Rakshith Shetty, Marcus Rohrbach, Lisa Anne Hendricks, Mario Fritz, Bernt Schiele
Drone-Based Object Counting by Spatially Regularized Regional Proposal Network: Meng-Ru Hsieh, Yen-Liang Lin, Winston H. Hsu
BlitzNet: A Real-Time Deep Network for Scene Understanding: Nikita Dvornik, Konstantin Shmelkov, Julien Mairal, Cordelia Schmid
Situation Recognition With Graph Neural Networks: Ruiyu Li, Makarand Tapaswi, Renjie Liao, Jiaya Jia, Raquel Urtasun, Sanja Fidler
Learning Visual N-Grams From Web Data: Ang Li, Allan Jabri, Armand Joulin, Laurens van der Maaten
Attention-Based Multimodal Fusion for Video Description: Chiori Hori, Takaaki Hori, Teng-Yok Lee, Ziming Zhang, Bret Harsham, John R. Hershey, Tim K. Marks, Kazuhiko Sumi
Learning the Latent "Look": Unsupervised Discovery of a Style-Coherent Embedding From Fashion Images: Wei-Lin Hsiao, Kristen Grauman
Aligned Image-Word Representations Improve Inductive Transfer Across Vision-Language Tasks: Tanmay Gupta, Kevin Shih, Saurabh Singh, Derek Hoiem
Learning Discriminative Latent Attributes for Zero-Shot Classification: Huajie Jiang, Ruiping Wang, Shiguang Shan, Yi Yang, Xilin Chen
PPR-FCN: Weakly Supervised Visual Relation Detection via Parallel Pairwise R-FCN: Hanwang Zhang, Zawlin Kyaw, Jinyang Yu, Shih-Fu Chang

Segmentation, Grouping & Shape

Higher-Order Minimum Cost Lifted Multicuts for Motion Segmentation: Margret Keuper
Deep Free-Form Deformation Network for Object-Mask Registration: Haoyang Zhang, Xuming He
Region-Based Correspondence Between 3D Shapes via Spatially Smooth Biclustering: Matteo Denitto, Simone Melzi, Manuele Bicego, Umberto Castellani, Alessandro Farinelli, Mário A. T. Figueiredo, Yanir Kleiman, Maks Ovsjanikov

Statistical Methods & Learning

Learning Discriminative ab-Divergences for Positive Definite Matrices: Anoop Cherian, Panagiotis Stanitsas, Mehrtash Harandi, Vassilios Morellas, Nikolaos Papanikolopoulos
Consensus Convolutional Sparse Coding: Biswarup Choudhury, Robin Swanson, Felix Heide, Gordon Wetzstein, Wolfgang Heidrich
Domain-Adaptive Deep Network Compression: Marc Masana, Joost van de Weijer, Luis Herranz, Andrew D. Bagdanov, Jose M. Álvarez
Self-Supervised Learning of Pose Embeddings From Spatiotemporal Relations in Videos: Ömer Sümer, Tobias Dencker, Björn Ommer
Approximate Grassmannian Intersections: Subspace-Valued Subspace Learning: Calvin Murdock, Fernando De la Torre
Side Information in Robust Principal Component Analysis: Algorithms and Applications: Niannan Xue, Yannis Panagakis, Stefanos Zafeiriou
Summarization and Classification of Wearable Camera Streams by Learning the Distributions Over Deep Features of Out-Of-Sample Image Sequences: Alessandro Perina, Sadegh Mohammadi, Nebojsa Jojic, Vittorio Murino
Unsupervised Learning From Video to Detect Foreground Objects in Single Images: Ioana Croitoru, Simion-Vlad Bogolin, Marius Leordeanu
Supplementary Meta-Learning: Towards a Dynamic Model for Deep Neural Networks: Feihu Zhang, Benjamin W. Wah
Adversarial Inverse Graphics Networks: Learning 2D-To-3D Lifting and Image-To-Image Translation From Unpaired Supervision: Hsiao-Yu Fish Tung, Adam W. Harley, William Seto, Katerina Fragkiadaki
Active Learning for Human Pose Estimation: Buyu Liu, Vittorio Ferrari
Interleaved Group Convolutions: Ting Zhang, Guo-Jun Qi, Bin Xiao, Jingdong Wang

Video

Learning-Based Cloth Material Recovery From Video: Shan Yang, Junbang Liang, Ming C. Lin
Unsupervised Video Understanding by Reconciliation of Posture Similarities: Timo Milbich, Miguel Bautista, Ekaterina Sutter, Björn Ommer
Action Tubelet Detector for Spatio-Temporal Action Localization: Vicky Kalogeiton, Philippe Weinzaepfel, Vittorio Ferrari, Cordelia Schmid
AMTnet: Action-Micro-Tube Regression by End-To-End Trainable Deep Architecture: Suman Saha, Gurkirt Singh, Fabio Cuzzolin

Vision for X

Constrained Convolutional Sparse Coding for Parametric Based Reconstruction of Line Drawings: Sara Shaheen, Lama Affara, Bernard Ghanem
Neural Ctrl-F: Segmentation-Free Query-By-String Word Spotting in Handwritten Manuscript Collections: Tomas Wilkinson, Jonas Lindström, Anders Brun

Oral 6

Video Analysis

Spatial-Aware Object Embeddings for Zero-Shot Localization and Classification of Actions (PDF): Pascal Mettes, Cees G. M. Snoek
Semantic Video CNNs Through Representation Warping: Raghudeep Gadde, Varun Jampani, Peter V. Gehler
Video Frame Synthesis Using Deep Voxel Flow: Ziwei Liu, Raymond A. Yeh, Xiaoou Tang, Yiming Liu, Aseem Agarwala
Detail-Revealing Deep Video Super-Resolution: Xin Tao, Hongyun Gao, Renjie Liao, Jue Wang, Jiaya Jia
Learning Video Object Segmentation With Visual Memory: Pavel Tokmakov, Karteek Alahari, Cordelia Schmid

Oral 7

Low-Level vision

EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis: Mehdi S. M. Sajjadi, Bernhard Schölkopf, Michael Hirsch
Makeup-Go: Blind Reversion of Portrait Edit: Ying-Cong Chen, Xiaoyong Shen, Jiaya Jia
Shadow Detection With Conditional Generative Adversarial Networks: Vu Nguyen, Tomas F. Yago Vicente, Maozheng Zhao, Minh Hoai, Dimitris Samaras
Learning High Dynamic Range From Outdoor Panoramas: Jinsong Zhang, Jean-François Lalonde
DCTM: Discrete-Continuous Transformation Matching for Semantic Flow: Seungryong Kim, Dongbo Min, Stephen Lin, Kwanghoon Sohn

Spotlight 6

Low-Level vision

MemNet: A Persistent Memory Network for Image Restoration: Ying Tai, Jian Yang, Xiaoming Liu, Chunyan Xu
Structure-Measure: A New Way to Evaluate Foreground Maps: Deng-Ping Fan, Ming-Ming Cheng, Yun Liu, Tao Li, Ali Borji
Weakly- and Self-Supervised Learning for Content-Aware Deep Image Retargeting: Donghyeon Cho, Jinsun Park, Tae-Hyun Oh, Yu-Wing Tai, In So Kweon
Practical and Efficient Multi-View Matching: Eleonora Maset, Federica Arrigoni, Andrea Fusiello
Unrolled Memory Inner-Products: An Abstract GPU Operator for Efficient Vision-Related Computations: Yu-Sheng Lin, Wei-Chao Chen, Shao-Yi Chien
Learning to Push the Limits of Efficient FFT-Based Image Deconvolution: Jakob Kruse, Carsten Rother, Uwe Schmidt
Learning Spread-Out Local Feature Descriptors: Xu Zhang, Felix X. Yu, Sanjiv Kumar, Shih-Fu Chang
Visual Odometry for Pixel Processor Arrays: Laurie Bose, Jianing Chen, Stephen J. Carey, Piotr Dudek, Walterio Mayol-Cuevas

Poster 7

Oral O6 Posters

Spatial-Aware Object Embeddings for Zero-Shot Localization and Classification of Actions: Pascal Mettes, Cees G. M. Snoek
Semantic Video CNNs Through Representation Warping: Raghudeep Gadde, Varun Jampani, Peter V. Gehler
Video Frame Synthesis Using Deep Voxel Flow: Ziwei Liu, Raymond A. Yeh, Xiaoou Tang, Yiming Liu, Aseem Agarwala
Detail-Revealing Deep Video Super-Resolution: Xin Tao, Hongyun Gao, Renjie Liao, Jue Wang, Jiaya Jia
Learning Video Object Segmentation With Visual Memory: Pavel Tokmakov, Karteek Alahari, Cordelia Schmid

Oral O7 Posters

EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis: Mehdi S. M. Sajjadi, Bernhard Schölkopf, Michael Hirsch
Makeup-Go: Blind Reversion of Portrait Edit: Ying-Cong Chen, Xiaoyong Shen, Jiaya Jia
Shadow Detection With Conditional Generative Adversarial Networks: Vu Nguyen, Tomas F. Yago Vicente, Maozheng Zhao, Minh Hoai, Dimitris Samaras
Learning High Dynamic Range From Outdoor Panoramas: Jinsong Zhang, Jean-François Lalonde
DCTM: Discrete-Continuous Transformation Matching for Semantic Flow: Seungryong Kim, Dongbo Min, Stephen Lin, Kwanghoon Sohn

Spotlight S6 Posters

MemNet: A Persistent Memory Network for Image Restoration: Ying Tai, Jian Yang, Xiaoming Liu, Chunyan Xu
Structure-Measure: A New Way to Evaluate Foreground Maps: Deng-Ping Fan, Ming-Ming Cheng, Yun Liu, Tao Li, Ali Borji
Weakly- and Self-Supervised Learning for Content-Aware Deep Image Retargeting: Donghyeon Cho, Jinsun Park, Tae-Hyun Oh, Yu-Wing Tai, In So Kweon
Practical and Efficient Multi-View Matching: Eleonora Maset, Federica Arrigoni, Andrea Fusiello
Unrolled Memory Inner-Products: An Abstract GPU Operator for Efficient Vision-Related Computations: Yu-Sheng Lin, Wei-Chao Chen, Shao-Yi Chien
Learning to Push the Limits of Efficient FFT-Based Image Deconvolution: Jakob Kruse, Carsten Rother, Uwe Schmidt
Learning Spread-Out Local Feature Descriptors: Xu Zhang, Felix X. Yu, Sanjiv Kumar, Shih-Fu Chang
Visual Odometry for Pixel Processor Arrays: Laurie Bose, Jianing Chen, Stephen J. Carey, Piotr Dudek, Walterio Mayol-Cuevas

3D Computer Vision

Joint Estimation of Camera Pose, Depth, Deblurring, and Super-Resolution From a Blurred Image Sequence: Haesol Park, Kyoung Mu Lee
2D-Driven 3D Object Detection in RGB-D Images: Jean Lahoud, Bernard Ghanem
Ray Space Features for Plenoptic Structure-From-Motion: Yingliang Zhang, Peihong Yu, Wei Yang, Yuanxi Ma, Jingyi Yu
Depth Estimation Using Structured Light Flow — Analysis of Projected Pattern Flow on an Object's Surface: Ryo Furukawa, Ryusuke Sagawa, Hiroshi Kawasaki
Monocular Dense 3D Reconstruction of a Complex Dynamic Scene From Two Perspective Frames: Suryansh Kumar, Yuchao Dai, Hongdong Li
Optimal Transformation Estimation With Semantic Cues: Danda Pani Paudel, Adlane Habed, Luc Van Gool
Dynamics Enhanced Multi-Camera Motion Segmentation From Unsynchronized Videos: Xikang Zhang, Bengisu Ozbay, Mario Sznaier, Octavia Camps
Taking the Scenic Route to 3D: Optimising Reconstruction From Moving Cameras: Oscar Mendez, Simon Hadfield, Nicolas Pugeault, Richard Bowden
FLaME: Fast Lightweight Mesh Estimation Using Variational Smoothing on Delaunay Graphs (poster, PDF): W. Nicholas Greene, Nicholas Roy

Biomedical Image Analysis

Efficient Algorithms for Moral Lineage Tracing: Markus Rempfler, Jan-Hendrik Lange, Florian Jug, Corinna Blasse, Eugene W. Myers, Bjoern H. Menze, Bjoern Andres

Computational Photography

From RGB to Spectrum for Natural Scenes via Manifold-Based Mapping (PDF): Yan Jia, Yinqiang Zheng, Lin Gu, Art Subpa-Asa, Antony Lam, Yoichi Sato, Imari Sato
DeepFuse: A Deep Unsupervised Approach for Exposure Fusion With Extreme Exposure Image Pairs: K. Ram Prabhakar, V Sai Srikar, R. Venkatesh Babu

Face & Gesture

Learning Dense Facial Correspondences in Unconstrained Images: Ronald Yu, Shunsuke Saito, Haoxiang Li, Duygu Ceylan, Hao Li
Jointly Attentive Spatial-Temporal Pooling Networks for Video-Based Person Re-Identification: Shuangjie Xu, Yu Cheng, Kang Gu, Yang Yang, Shiyu Chang, Pan Zhou

Low-Level Vision & Image Processing

Automatic Content-Aware Projection for 360° Videos: Yeong Won Kim, Chang-Ryeol Lee, Dae-Yong Cho, Yong Hoon Kwon, Hyeok-Jae Choi, Kuk-Jin Yoon
Blur-Invariant Deep Learning for Blind-Deblurring: T. M. Nimisha, Akash Kumar Singh, A. N. Rajagopalan
Non-Linear Convolution Filters for CNN-Based Learning: Georgios Zoumpourlis, Alexandros Doumanoglou, Nicholas Vretos, Petros Daras
AOD-Net: All-In-One Dehazing Network: Boyi Li, Xiulian Peng, Zhangyang Wang, Jizheng Xu, Dan Feng
Simultaneous Detection and Removal of High Altitude Clouds From an Image: Tushar Sandhan, Jin Young Choi
Understanding Low- and High-Level Contributions to Fixation Prediction: Matthias Kümmerer, Thomas S. A. Wallis, Leon A. Gatys, Matthias Bethge
Image Super-Resolution Using Dense Skip Connections: Tong Tong, Gen Li, Xiejie Liu, Qinquan Gao
Convergence Analysis of MAP Based Blur Kernel Estimation: Sunghyun Cho, Seungyong Lee
Blob Reconstruction Using Unilateral Second Order Gaussian Kernels With Application to High-ISO Long-Exposure Image Denoising: Gang Wang, Carlos Lopez-Molina, Bernard De Baets
Deep Generative Adversarial Compression Artifact Removal: Leonardo Galteri, Lorenzo Seidenari, Marco Bertini, Alberto Del Bimbo

Motion & Tracking

Online Multi-Object Tracking Using CNN-Based Single Object Tracker With Spatial-Temporal Attention Mechanism: Qi Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, Bin Liu, Nenghai Yu

Recognition

Mutual Enhancement for Detection of Multiple Logos in Sports Videos: Yuan Liao, Xiaoqing Lu, Chengcui Zhang, Yongtao Wang, Zhi Tang
Referring Expression Generation and Comprehension via Attributes: Jingyu Liu, Liang Wang, Ming-Hsuan Yang
RoomNet: End-To-End Room Layout Estimation: Chen-Yu Lee, Vijay Badrinarayanan, Tomasz Malisiewicz, Andrew Rabinovich
SSH: Single Stage Headless Face Detector: Mahyar Najibi, Pouya Samangouei, Rama Chellappa, Larry S. Davis
AnnArbor: Approximate Nearest Neighbors Using Arborescence Coding: Artem Babenko, Victor Lempitsky
Boosting Image Captioning With Attributes: Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, Tao Mei
Learning to Estimate 3D Hand Pose From Single RGB Images: Christian Zimmermann, Thomas Brox
Locally-Transferred Fisher Vectors for Texture Classification: Yang Song, Fan Zhang, Qing Li, Heng Huang, Lauren J. O'Donnell, Weidong Cai
Object-Level Proposals: Jianxiang Ma, Anlong Ming, Zilong Huang, Xinggang Wang, Yu Zhou
Extreme Clicking for Efficient Object Annotation: Dim P. Papadopoulos, Jasper R. R. Uijlings, Frank Keller, Vittorio Ferrari
WordSup: Exploiting Word Annotations for Character Based Text Detection: Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, Errui Ding
Illuminating Pedestrians via Simultaneous Detection & Segmentation: Garrick Brazil, Xi Yin, Xiaoming Liu
Generalized Orderless Pooling Performs Implicit Salient Matching: Marcel Simon, Yang Gao, Trevor Darrell, Joachim Denzler, Erik Rodner

Segmentation, Grouping & Shape

Exploiting Spatial Structure for Localizing Manipulated Image Regions: Jawadul H. Bappy, Amit K. Roy-Chowdhury, Jason Bunk, Lakshmanan Nataraj, B. S. Manjunath
RDFNet: RGB-D Multi-Level Residual Feature Fusion for Indoor Semantic Segmentation: Seong-Jin Park, Ki-Sang Hong, Seungyong Lee
The Mapillary Vistas Dataset for Semantic Understanding of Street Scenes: Gerhard Neuhold, Tobias Ollmann, Samuel Rota Bulò, Peter Kontschieder
Self-Organized Text Detection With Minimal Post-Processing via Border Learning: Yue Wu, Prem Natarajan

Statistical Methods & Learning

Sparse Exact PGA on Riemannian Manifolds: Monami Banerjee, Rudrasis Chakraborty, Baba C. Vemuri
Tensor RPCA by Bayesian CP Factorization With Complex Noise: Qiong Luo, Zhi Han, Xi'ai Chen, Yao Wang, Deyu Meng, Dong Liang, Yandong Tang
Multimodal Gaussian Process Latent Variable Models With Harmonization: Guoli Song, Shuhui Wang, Qingming Huang, Qi Tian
Segmentation-Aware Convolutional Networks Using Local Attention Masks: Adam W. Harley, Konstantinos G. Derpanis, Iasonas Kokkinos
Rotation Equivariant Vector Field Networks: Diego Marcos, Michele Volpi, Nikos Komodakis, Devis Tuia
ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression: Jian-Hao Luo, Jianxin Wu, Weiyao Lin
AutoDIAL: Automatic DomaIn Alignment Layers: Fabio Maria Carlucci, Lorenzo Porzi, Barbara Caputo, Elisa Ricci, Samuel Rota Bulò
Focusing Attention: Towards Accurate Text Recognition in Natural Images: Zhanzhan Cheng, Fan Bai, Yunlu Xu, Gang Zheng, Shiliang Pu, Shuigeng Zhou
Unsupervised Object Segmentation in Video by Efficient Selection of Highly Probable Positive Features: Emanuela Haller, Marius Leordeanu
Nonparametric Variational Auto-Encoders for Hierarchical Representation Learning: Prasoon Goyal, Zhiting Hu, Xiaodan Liang, Chenyu Wang, Eric P. Xing
Dense and Low-Rank Gaussian CRFs Using Deep Embeddings: Siddhartha Chandra, Nicolas Usunier, Iasonas Kokkinos

Video

A Multimodal Deep Regression Bayesian Network for Affective Video Content Analyses: Quan Gan, Shangfei Wang, Longfei Hao, Qiang Ji
Moving Object Detection in Time-Lapse or Motion Trigger Image Sequences Using Low-Rank and Invariant Sparse Decomposition: Moein Shakeri, Hong Zhang
A Multilayer-Based Framework for Online Background Subtraction With Freely Moving Cameras: Yizhe Zhu, Ahmed Elgammal
Dynamic Label Graph Matching for Unsupervised Video Re-Identification: Mang Ye, Andy J. Ma, Liang Zheng, Jiawei Li, Pong C. Yuen
Spatiotemporal Modeling for Crowd Counting in Videos: Feng Xiong, Xingjian Shi, Dit-Yan Yeung

Vision for X

Personalized Cinemagraphs Using Semantic Understanding and Collaborative Learning: Tae-Hyun Oh, Kyungdon Joo, Neel Joshi, Baoyuan Wang, In So Kweon, Sing Bing Kang
What Is Around the Camera? (PDF): Stamatios Georgoulis, Konstantinos Rematas, Tobias Ritschel, Mario Fritz, Tinne Tuytelaars, Luc Van Gool

Oral 8

Recognition 3

Weakly-Supervised Learning of Visual Relations: Julia Peyre, Josef Sivic, Ivan Laptev, Cordelia Schmid
BIER - Boosting Independent Embeddings Robustly: Michael Opitz, Georg Waltner, Horst Possegger, Horst Bischof
3D Graph Neural Networks for RGBD Semantic Segmentation: Xiaojuan Qi, Renjie Liao, Jiaya Jia, Sanja Fidler, Raquel Urtasun
Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition: Heliang Zheng, Jianlong Fu, Tao Mei, Jiebo Luo
Learning 3D Object Categories by Looking Around Them: David Novotny, Diane Larlus, Andrea Vedaldi

Spotlight 7

Recognition 3

Quantitative Evaluation of Confidence Measures in a Machine Learning World: Matteo Poggi, Fabio Tosi, Stefano Mattoccia
Towards End-To-End Text Spotting With Convolutional Recurrent Neural Networks: Hui Li, Peng Wang, Chunhua Shen
DeepSetNet: Predicting Sets With Deep Neural Networks: S. Hamid Rezatofighi, Vijay Kumar B G, Anton Milan, Ehsan Abbasnejad, Anthony Dick, Ian Reid
Learning From Video and Text via Large-Scale Discriminative Clustering: Antoine Miech, Jean-Baptiste Alayrac, Piotr Bojanowski, Ivan Laptev, Josef Sivic
TALL: Temporal Activity Localization via Language Query: Jiyang Gao, Chen Sun, Zhenheng Yang, Ram Nevatia
End-To-End Face Detection and Cast Grouping in Movies Using Erdős-Rényi Clustering: SouYoung Jin, Hang Su, Chris Stauffer, Erik Learned-Miller
Active Decision Boundary Annotation With Deep Generative Models: Miriam Huijser, Jan C. van Gemert
Convolutional Dictionary Learning via Local Processing: Vardan Papyan, Yaniv Romano, Jeremias Sulam, Michael Elad

Poster 8

Oral O8 Posters

Weakly-Supervised Learning of Visual Relations: Julia Peyre, Josef Sivic, Ivan Laptev, Cordelia Schmid
BIER - Boosting Independent Embeddings Robustly: Michael Opitz, Georg Waltner, Horst Possegger, Horst Bischof
3D Graph Neural Networks for RGBD Semantic Segmentation: Xiaojuan Qi, Renjie Liao, Jiaya Jia, Sanja Fidler, Raquel Urtasun
Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition: Heliang Zheng, Jianlong Fu, Tao Mei, Jiebo Luo
Learning 3D Object Categories by Looking Around Them: David Novotny, Diane Larlus, Andrea Vedaldi

Spotlight S7 Posters

Quantitative Evaluation of Confidence Measures in a Machine Learning World: Matteo Poggi, Fabio Tosi, Stefano Mattoccia
Towards End-To-End Text Spotting With Convolutional Recurrent Neural Networks: Hui Li, Peng Wang, Chunhua Shen
DeepSetNet: Predicting Sets With Deep Neural Networks: S. Hamid Rezatofighi, Vijay Kumar B G, Anton Milan, Ehsan Abbasnejad, Anthony Dick, Ian Reid
Learning From Video and Text via Large-Scale Discriminative Clustering: Antoine Miech, Jean-Baptiste Alayrac, Piotr Bojanowski, Ivan Laptev, Josef Sivic
TALL: Temporal Activity Localization via Language Query: Jiyang Gao, Chen Sun, Zhenheng Yang, Ram Nevatia
End-To-End Face Detection and Cast Grouping in Movies Using Erdős-Rényi Clustering: SouYoung Jin, Hang Su, Chris Stauffer, Erik Learned-Miller
Active Decision Boundary Annotation With Deep Generative Models: Miriam Huijser, Jan C. van Gemert
Convolutional Dictionary Learning via Local Processing: Vardan Papyan, Yaniv Romano, Jeremias Sulam, Michael Elad

Oral O9 Posters

Deep Adaptive Image Clustering: Jianlong Chang, Lingfeng Wang, Gaofeng Meng, Shiming Xiang, Chunhong Pan
One Network to Solve Them All — Solving Linear Inverse Problems Using Deep Projection Models: J. H. Rick Chang, Chun-Liang Li, Barnabás Póczos, B. V. K. Vijaya Kumar, Aswin C. Sankaranarayanan
Representation Learning by Learning to Count: Mehdi Noroozi, Hamed Pirsiavash, Paolo Favaro
StackGAN: Text to Photo-Realistic Image Synthesis With Stacked Generative Adversarial Networks: Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris N. Metaxas
Unsupervised Learning of Object Landmarks by Factorized Spatial Embeddings: James Thewlis, Hakan Bilen, Andrea Vedaldi

3D Computer Vision

Editable Parametric Dense Foliage From 3D Capture: Gaurav Chaurasia, Paul Beardsley
Refractive Structure-From-Motion Through a Flat Refractive Interface: François Chadebecq, Francisco Vasconcelos, George Dwyer, René, Lacher, Sébastien Ourselin, Tom Vercauteren, Danail Stoyanov
Submodular Trajectory Optimization for Aerial 3D Scanning (PDF): Mike Roberts, Debadeepta Dey, Anh Truong, Sudipta Sinha, Shital Shah, Ashish Kapoor, Pat Hanrahan, Neel Joshi
Camera Calibration by Global Constraints on the Motion of Silhouettes: Gil Ben-Artzi
Deltille Grids for Geometric Camera Calibration: Hyowon Ha, Michal Perdoch, Hatem Alismail, In So Kweon, Yaser Sheikh

Computational Photography

A Lightweight Single-Camera Polarization Compass With Covariance Estimation: Wolfgang Stürzl
Reflectance Capture Using Univariate Sampling of BRDFs: Zhuo Hui, Kalyan Sunkavalli, Joon-Young Lee, Sunil Hadap, Jian Wang, Aswin C. Sankaranarayanan
Estimating Defocus Blur via Rank of Local Patches: Guodong Xu, Yuhui Quan, Hui Ji

Face & Gesture

RGB-Infrared Cross-Modality Person Re-Identification: Wei-Shi Zheng, Ancong Wu, Hong-Xing Yu, Shaogang Gong, Jianhuang Lai
Intrinsic 3D Dynamic Surface Tracking Based on Dynamic Ricci Flow and Teichmüller Map: Xiaokang Yu, Na Lei, Yalin Wang, Xianfeng Gu
Multi-Scale Deep Learning Architectures for Person Re-Identification: Xuelin Qian, Yanwei Fu, Yu-Gang Jiang, Tao Xiang, Xiangyang Xue
Range Loss for Deep Face Recognition With Long-Tailed Training Data: Xiao Zhang, Zhiyuan Fang, Yandong Wen, Zhifeng Li, Yu Qiao
Face Sketch Matching via Coupled Deep Transform Learning: Shruti Nagpal, Maneet Singh, Richa Singh, Mayank Vatsa, Afzel Noore, Angshul Majumdar

Low-Level Vision & Image Processing

Realistic Dynamic Facial Textures From a Single Image Using GANs: Kyle Olszewski, Zimo Li, Chao Yang, Yi Zhou, Ronald Yu, Zeng Huang, Sitao Xiang, Shunsuke Saito, Pushmeet Kohli, Hao Li
Pixel Recursive Super Resolution: Ryan Dahl, Mohammad Norouzi, Jonathon Shlens
Recurrent Color Constancy: Yanlin Qian, Ke Chen, Jarno Nikkanen, Joni-Kristian Kämäräinen, Jiří, Matas
Saliency Pattern Detection by Ranking Structured Trees: Lei Zhu, Haibin Ling, Jin Wu, Huiping Deng, Jin Liu

Motion & Tracking

Monocular Video-Based Trailer Coupler Detection Using Multiplexer Convolutional Neural Network: Yousef Atoum, Joseph Roth, Michael Bliss, Wende Zhang, Xiaoming Liu
Parallel Tracking and Verifying: A Framework for Real-Time and High Accuracy Visual Tracking: Heng Fan, Haibin Ling
Non-Rigid Object Tracking via Deformable Patches Using Shape-Preserved KCF and Level Sets: Xin Sun, Ngai-Man Cheung, Hongxun Yao, Yiluan Guo

Optimization Methods

A Discriminative View of MRF Pre-Processing Algorithms: Chen Wang, Charles Herrmann, Ramin Zabih

Recognition

Offline Handwritten Signature Modeling and Verification Based on Archetypal Analysis: Elias N. Zois, Ilias Theodorakopoulos, George Economou
Long Short-Term Memory Kalman Filters: Recurrent Neural Estimators for Pose Regularization: Huseyin Coskun, Felix Achilles, Robert DiPietro, Nassir Navab, Federico Tombari
Learning Spatio-Temporal Representation With Pseudo-3D Residual Networks: Zhaofan Qiu, Ting Yao, Tao Mei
Deeper, Broader and Artier Domain Generalization: Da Li, Yongxin Yang, Yi-Zhe Song, Timothy M. Hospedales
Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval: Jifei Song, Qian Yu, Yi-Zhe Song, Tao Xiang, Timothy M. Hospedales
Soft-NMS — Improving Object Detection With One Line of Code: Navaneeth Bodla, Bharat Singh, Rama Chellappa, Larry S. Davis
Semantic Jitter: Dense Supervision for Visual Comparisons via Synthetic Images: Aron Yu, Kristen Grauman
Video Scene Parsing With Predictive Feature Learning: Xiaojie Jin, Xin Li, Huaxin Xiao, Xiaohui Shen, Zhe Lin, Jimei Yang, Yunpeng Chen, Jian Dong, Luoqi Liu, Zequn Jie, Jiashi Feng, Shuicheng Yan
Understanding and Mapping Natural Beauty: Scott Workman, Richard Souvenir, Nathan Jacobs
Human Pose Estimation Using Global and Local Normalization: Ke Sun, Cuiling Lan, Junliang Xing, Wenjun Zeng, Dong Liu, Jingdong Wang
HashNet: Deep Learning to Hash by Continuation: Zhangjie Cao, Mingsheng Long, Jianmin Wang, Philip S. Yu
Scaling the Scattering Transform: Deep Hybrid Networks: Edouard Oyallon, Eugene Belilovsky, Sergey Zagoruyko
Flip-Invariant Motion Representation: Takumi Kobayashi
Scene Categorization With Spectral Features: Salman H. Khan, Munawar Hayat, Fatih Porikli
Image2song: Song Retrieval via Bridging Image Content and Lyric Words: Xuelong Li, Di Hu, Xiaoqiang Lu

Segmentation, Grouping & Shape

Deep Functional Maps: Structured Prediction for Dense Shape Correspondence: Or Litany, Tal Remez, Emanuele Rodolà, Alex Bronstein, Michael Bronstein
Training Deep Networks to Be Spatially Sensitive: Nicholas Kolkin, Eli Shechtman, Gregory Shakhnarovich
3DCNN-DQN-RNN: A Deep Reinforcement Learning Framework for Semantic Parsing of Large-Scale 3D Point Clouds: Fangyu Liu, Shuaipeng Li, Liqiang Zhang, Chenghu Zhou, Rongtian Ye, Yuebin Wang, Jiwen Lu
Semi Supervised Semantic Segmentation Using Generative Adversarial Network: Nasim Souly, Concetto Spampinato, Mubarak Shah

Statistical Methods & Learning

Efficient Low Rank Tensor Ring Completion: Wenqi Wang, Vaneet Aggarwal, Shuchin Aeron
Semantic Image Synthesis via Adversarial Learning: Hao Dong, Simiao Yu, Chao Wu, Yike Guo
Unified Deep Supervised Domain Adaptation and Generalization: Saeid Motiian, Marco Piccirilli, Donald A. Adjeroh, Gianfranco Doretto
Interpretable Transformations With Encoder-Decoder Networks: Daniel E. Worrall, Stephan J. Garbin, Daniyar Turmukhambetov, Gabriel J. Brostow
Deep Clustering via Joint Convolutional Autoencoder Embedding and Relative Entropy Minimization: Kamran Ghasedi Dizaji, Amirhossein Herandi, Cheng Deng, Weidong Cai, Heng Huang
Scene Classification - formely: Deep Scene Image Classification With the MFAFVNet: Yunsheng Li, Mandar Dixit, Nuno Vasconcelos
Learning Bag-Of-Features Pooling for Deep Convolutional Neural Networks: Nikolaos Passalis, Anastasios Tefas
Adversarial Examples Detection in Deep Networks With Convolutional Filter Statistics: Xin Li, Fuxin Li

Video

Joint Prediction of Activity Labels and Starting Times in Untrimmed Videos: Tahmida Mahmud, Mahmudul Hasan, Amit K. Roy-Chowdhury
R-C3D: Region Convolutional 3D Network for Temporal Activity Detection: Huijuan Xu, Abir Das, Kate Saenko
Temporal Context Network for Activity Localization in Videos: Xiyang Dai, Bharat Singh, Guyue Zhang, Larry S. Davis, Yan Qiu Chen
Localizing Moments in Video With Natural Language: Lisa Anne Hendricks, Oliver Wang, Eli Shechtman, Josef Sivic, Trevor Darrell, Bryan Russell
TORNADO: A Spatio-Temporal Convolutional Regression Network for Video Action Proposal: Hongyuan Zhu, Romain Vial, Shijian Lu
Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos: Rui Hou, Chen Chen, Mubarak Shah
Learning Action Recognition Model From Depth and Skeleton Videos: Hossein Rahmani, Mohammed Bennamoun
The "Something Something" Video Database for Learning and Evaluating Visual Common Sense: Raghav Goyal; Samira Ebrahimi Kahou, Vincent Michalski, Joanna Materzyńska, Susanne Westphal, Heuna Kim, Valentin Haenel, Ingo Fruend, Peter Yianilos, Moritz Mueller-Freitag, Florian Hoppe, Christian Thurau, Ingo Bax, Roland Memisevic

Vision for X

GPLAC: Generalizing Vision-Based Robotic Skills Using Weakly Labeled Images: Avi Singh, Larry Yang, Sergey Levine
Semi-Global Weighted Least Squares in Image Filtering: Wei Liu, Xiaogang Chen, Chuanhua Shen, Zhi Liu, Jie Yang
Scale Recovery for Monocular Visual Odometry Using Depth Estimated With Deep Convolutional Neural Fields: Xiaochuan Yin, Xiangwei Wang, Xiaoguo Du, Qijun Chen

Oral 9

Machine Learning

Deep Adaptive Image Clustering: Jianlong Chang, Lingfeng Wang, Gaofeng Meng, Shiming Xiang, Chunhong Pan
One Network to Solve Them All — Solving Linear Inverse Problems Using Deep Projection Models: J. H. Rick Chang, Chun-Liang Li, Barnabás Póczos, B. V. K. Vijaya Kumar, Aswin C. Sankaranarayanan
Representation Learning by Learning to Count: Mehdi Noroozi, Hamed Pirsiavash, Paolo Favaro
StackGAN: Text to Photo-Realistic Image Synthesis With Stacked Generative Adversarial Networks: Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris N. Metaxas
Unsupervised Learning of Object Landmarks by Factorized Spatial Embeddings: James Thewlis, Hakan Bilen, Andrea Vedaldi