Test Guidelines 2022

Test Guidelines The VisDrone data can be obtained from the download page. We provide the detail information on the download page. We encourage the participants to use the provided training data for each task, but also allow them to use additional training data. The use of additional training data must …

团队赢得CVPR 2022 VizWiz VQA Grounding 冠军

        在CVPR 2022期间,由19级硕士毕业生潘俊文(现字节跳动多模态团队),21级硕士生陈冠林和20级硕士生刘轶组成的Aurora团队夺得了VizWiz视觉问答挑战赛全球冠军。 方法介绍视频:https://www.youtube.com/watch?v=eh8OffqNKI4 文章链接:https://arxiv.org/pdf/2207.05703.pdf         视觉问答(VQA)是通向多模人工智能的一项基础挑战。一个自然的应用就是帮助视障人群克服他们日常生活中的视觉挑战,如视障群体通过手机镜头捕获视觉内容,再通过语言对镜头中的内容发起提问。AI算法需要识别和描述物体或场景,并以自然语言的方式进行回答。         在CVPR 2022上,权威视觉问答竞赛VizWiz提出了新的挑战:AI在回答(Talk)有关的视觉问题时,必须精确地高亮出(Show)相应的视觉证据。         凭借端到端的DaVI(Dual Visual-Linguistic Interaction)视觉语言交互新范式,Aurora团队成功拿下VizWiz 2022 Answer Grounding竞赛全球冠军。         VizWiz 大赛已经举办了4届,主办学者来自卡内基梅隆大学(CMU)、华盛顿大学、科罗拉多大学、微软和苹果,在多模态视觉问答领域有深厚的学术成就和技术积淀。         本届竞赛中,Aurora团队与来自国内外知名研究机构和高校的60+团队同台竞技,包括Google DeepMind、纽约大学、浪潮国家重点实验室、西安电子科技大学和特拉华大学等。夺冠方案的精度相比基线算法提升43.14%,领先在多模领域深耕已久的DeepMind团队3.65%。 编辑:乔弘宇