首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Cross-Domain Car Detection Using UnsupervisedImage-to-Image Translation: From Day to Night

深度学习技术使最先进的模型得以出现,以解决对象检测任务。然而,这些技术是数据驱动的,将准确性委托给训练数据集,训练数据集必须与目标任务中的图像相似。数据集的获取涉及注释图像,这是一个艰巨而昂贵的过程,通常需要时间和手动操作。因此,当应用程序的目标域没有可用的注释数据集时,就会出现一个具有挑战性的场景,使得在这种情况下的任务依赖于不同域的训练数据集。共享这个问题,物体检测是自动驾驶汽车的一项重要任务,在自动驾驶汽车中,大量的驾驶场景产生了几个应用领域,需要为训练过程提供注释数据。在这项工作中,提出了一种使用来自源域(白天图像)的注释数据训练汽车检测系统的方法,而不需要目标域(夜间图像)的图像注释。 为此,探索了一个基于生成对抗网络(GANs)的模型,以实现生成具有相应注释的人工数据集。人工数据集(假数据集)是将图像从白天时域转换到晚上时域而创建的。伪数据集仅包括目标域的注释图像(夜间图像),然后用于训练汽车检测器模型。实验结果表明,所提出的方法实现了显著和一致的改进,包括与仅使用可用注释数据(即日图像)的训练相比,检测性能提高了10%以上。

02
您找到你想要的搜索结果了吗?
是的
没有找到

Domain Adaptation for Structured Output viaDiscriminative Patch Representations

预测语义分割等结构化输出依赖于昂贵的每像素注释来学习卷积神经网络等监督模型。然而,在没有模型调整注释的情况下,在一个数据域上训练的模型可能无法很好地推广到其他域。为了避免注释的劳动密集型过程,我们开发了一种域自适应方法,将源数据自适应到未标记的目标域。我们建议通过构建聚类空间来发现逐片输出分布的多种模式,从而学习源域中补丁的判别特征表示。以这种表示为指导,我们使用对抗性学习方案来推动聚类空间中目标补丁的特征表示更接近源补丁的分布。此外,我们还表明,我们的框架是对现有领域自适应技术的补充,并在语义分割方面实现了一致的改进。广泛的消融和结果在各种设置的众多基准数据集上进行了演示,例如合成到真实和跨城市场景。

04

Texture Underfitting for Domain Adaptation

全面的语义分割是鲁棒场景理解的关键组成部分之一,也是实现自动驾驶的要求。在大规模数据集的驱动下,卷积神经网络在这项任务上表现出了令人印象深刻的结果。然而,推广到各种场景和条件的分割算法需要极其多样化的数据集,这使得劳动密集型的数据采集和标记过程过于昂贵。在分割图之间结构相似的假设下,领域自适应有望通过将知识从现有的、潜在的模拟数据集转移到不存在监督的新环境来解决这一挑战。虽然这种方法的性能取决于神经网络学习对场景结构的高级理解这一概念,但最近的工作表明,神经网络倾向于过度适应纹理,而不是学习结构和形状信息。 考虑到语义分割的基本思想,我们使用随机图像风格化来增强训练数据集,并提出了一种有助于纹理适配的训练程序,以提高领域自适应的性能。在使用有监督和无监督方法进行合成到实域自适应任务的实验中,我们表明我们的方法优于传统的训练方法。

02

Progressive Domain Adaptation for Object Detection

最近用于对象检测的深度学习方法依赖于大量的边界框注释。收集这些注释既费力又昂贵,但当对来自不同分布的图像进行测试时,监督模型并不能很好地推广。领域自适应通过使现有标签适应目标测试数据来提供解决方案。然而,领域之间的巨大差距可能会使适应成为一项具有挑战性的任务,从而导致不稳定的训练过程和次优结果。在本文中,我们建议用一个中间域来弥合领域差距,并逐步解决更容易的适应子任务。该中间域是通过平移源图像以模仿目标域中的图像来构建的。为了解决领域转移问题,我们采用对抗性学习来在特征级别对齐分布。此外,应用加权任务损失来处理中间域中的不平衡图像质量。 实验结果表明,我们的方法在目标域上的性能优于最先进的方法。

03

Github超10000星:100天从Python新手到大师

角色:产品所有者(决定做什么,能对需求拍板的人)、团队负责人(解决各种问题,专注如何更好的工作,屏蔽外部对开发团队的影响)、开发团队(项目执行人员,具体指开发人员和测试人员)。 准备工作:商业案例和资金、合同、憧憬、初始产品需求、初始发布计划、入股、组建团队。 敏捷团队通常人数为8-10人。 工作量估算:将开发任务量化,包括原型、Logo设计、UI设计、前端开发等,尽量把每个工作分解到最小任务量,最小任务量标准为工作时间不能超过两天,然后估算总体项目时间。把每个任务都贴在白板上面,白板上分三部分:to do(待完成)、in progress(进行中)和done(已完成)。

03

Towards Instance-level Image-to-Image Translation

非配对图像到图像的翻译是一个新兴的、具有挑战性的视觉问题,旨在学习不同领域中未对准图像对之间的映射。该领域的最新进展,如MUNIT和DRIT,主要集中在首先从给定图像中解开内容和风格/属性,然后直接采用全局风格来指导模型合成新的领域图像。然而,如果目标域图像内容丰富且包含多个不一致的对象,则这种方法会严重导致矛盾。在本文中,我们提出了一种简单而有效的实例感知图像到图像的翻译方法(INIT),该方法在空间上对目标图像采用细粒度的局部(实例)和全局风格。拟议的INIT具有三个重要优势: (1) 实例级的客观损失可以帮助学习更准确的重建,并结合对象的不同属性;(2) 局部/全局区域的目标域所使用的样式来自源域中相应的空间区域,直观上是一种更合理的映射;(3) 联合训练过程既有利于细化粒度,也有利于粗粒度,并结合实例信息来提高全局翻译的质量。我们还为新的实例级翻译任务收集了一个大规模的基准。我们观察到,我们的合成图像甚至可以帮助完成真实世界的视觉任务,如一般物体检测。

01

Source-Free Domain Adaptation for Semantic Segmentation

无监督域自适应(UDA)可以解决基于卷积神经网络(CNN)的语义分割方法严重依赖于像素级注释数据的挑战,这是劳动密集型的。然而,这方面现有的UDA方法不可避免地需要完全访问源数据集,以减少模型自适应过程中源域和目标域之间的差距,这在源数据集是私有的真实场景中是不切实际的,因此无法与训练有素的源模型一起发布。为了解决这个问题,我们提出了一种用于语义分割的无源领域自适应框架,即SFDA,其中只有经过训练的源模型和未标记的目标领域数据集可用于自适应。SFDA不仅能够在模型自适应过程中通过知识转移从源模型中恢复和保存源领域知识,而且能够从目标领域中提取有价值的信息用于自监督学习。为语义分割量身定制的像素级和补丁级优化目标在框架中无缝集成。在众多基准数据集上的广泛实验结果突出了我们的框架相对于依赖源数据的现有UDA方法的有效性。

03

Python常用第三方库大盘点

•XlsxWriter-操作Excel工作表的文字,数字,公式,图表等•win32com-有关Windows系统操作、Office(Word、Excel等)文件读写等的综合应用库•pymysql-操作MySQL数据库•pymongo-把数据写入MongoDB•smtplib-发送电子邮件模块•selenium-一个调用浏览器的driver,通过这个库可以直接调用浏览器完成某些操作,比如输入验证码,常用来进行浏览器的自动化工作。•pdfminer-一个可以从PDF文档中提取各类信息的第三方库。与其他PDF相关的工具不同,它能够完全获取并分析 P D F 的文本数据•PyPDF2-一个能够分割、合并和转换PDF页面的库。•openpyxl- 一个处理Microsoft Excel文档的Python第三方库,它支持读写Excel的xls、xlsx、xlsm、xltx、xltm。•python-docx-一个处理Microsoft Word文档的Python第三方库,它支持读取、查询以及修改doc、docx等格式文件,并能够对Word常见样式进行编程设置。

04

每日论文速递 | DeepMind提出SAFE,用LLM Agent作为事实评估器

摘要:大语言模型(LLM)在回答开放式话题的事实搜索提示时,经常会生成包含事实错误的内容。为了对模型在开放域中的长式事实性进行基准测试,我们首先使用 GPT-4 生成了 LongFact,这是一个由跨越 38 个主题的数千个问题组成的提示集。然后,我们提出可以通过一种我们称之为 "搜索增强事实性评估器"(Search-Augmented Factuality Evaluator,SAFE)的方法,将 LLM 代理用作长式事实性的自动评估器。SAFE 利用 LLM 将长式回复分解为一组单独的事实,并通过一个多步骤推理过程来评估每个事实的准确性,该过程包括向谷歌搜索发送搜索查询,并确定搜索结果是否支持某个事实。此外,我们还建议将 F1 分数扩展为长表事实性的综合指标。为此,我们平衡了回复中支持事实的百分比(精确度)和所提供事实相对于代表用户首选回复长度的超参数的百分比(召回率)。根据经验,我们证明了 LLM 代理可以实现超人的评级性能--在一组约 16k 的单个事实上,SAFE 与众包人类注释者的一致率为 72%,而在 100 个分歧案例的随机子集上,SAFE 的胜率为 76%。同时,SAFE 的成本比人类注释者低 20 多倍。我们还在 LongFact 上对四个模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 个语言模型进行了基准测试,发现较大的语言模型通常能获得更好的长格式事实性。LongFact、SAFE 和所有实验代码开源。

01
领券