1 新智元编译 来源:arXiv、Github 编译:张易 【新智元导读】自动图像补全是计算机视觉和图形领域几十年来的研究热点和难点。在神经网络的帮助下,来自伯克利、Adobe 等研究人员利用组合优化和类似风格转移的方法,突破以往技术局限,成功实现了超逼真的“从0到1”图像生成。代码已在Github 开源。 完胜 PS!新方法实现完美“脑补” 在分享照片之前,你可能会想进行一些修改,例如擦除分散注意力的场景元素,调整图像中的物体位置以获得更好的组合效果,或者把被遮挡的部分恢复出来。 这些操作,以及其
本文为《通过深度学习了解建筑年代和风格》论文复现的第三部分——获取阿姆斯特丹高质量街景图像的上篇,主要讲了如何获取利用谷歌街景地图自动化获取用于深度学习的阿姆斯特丹的高质量街景图像,此数据集将用于进行建筑年代的模型训练[1]。
-appreciate that there exist ethical considerations in the context of a data wrangling/data science/data analytics project
深度学习的最新进展已经令人兴奋,在自然图像中填充大量的空洞,具有语义上的合理性和上下文感知的细节,影响基础图像处理任务,例如目标消除。虽然这些基于深度学习的方法在捕获高层特征方面比现有技术更有效,但是由于内存限制和训练难度,它们只能处理非常低的分辨率输入。即使对于稍大的图像,修复区域也会显得模糊和不好的边界容易可见。 于是乎,有提出了一种基于图像内容和纹理约束的联合优化的多尺度神经块合成方法,其不仅保留了语义结构,而且产生高频细节,其主要通过深度分类网络匹配和改编具有最相似的中层语义特征相关性的块。 最后
《通过深度学习了解建筑年代和风格》论文复现代码已上传到Github[1]和Gitee[2],但Gitee仅用于同步,目前文章和仓库还在更新中,请访问对应的主页查看。
摘要:我们已逐渐认识到,高效使用大数据的核心是将大量的数据分解成许多小部分——在数据库里定位查找,找到与你的需求相关的数据,而不是尝试去“覆盖”全部数据。
本文中,复旦大学以人为本人工智能研究中心提出了ObjectFormer,借助视觉Transformer的优势建模物体层面的视觉不一致信息,从而为图像篡改检测提供了崭新的思路。该方法在常用的图像篡改数据集上取得了SOTA的效果。
8.12.19-Smart-Cities-A-Decade-of-Progress-1068x656_副本.jpg
:URI API是一组用于打开腾讯地图网站或者打开用户手机上安装的腾讯地图产品的协议接口,一般在第三方网站或应用中需要用到地图相关的功能时,可以通过这套接口启动腾讯地图产品的不同功能模块,为用户提供地图及导航服务。
本文提出一种用于图像修复的新型双流网络,以耦合方式进行结构约束的纹理合成,以及纹理引导的结构重建,可以更好地相互利用以获得更合理的生成。此外,为增强全局一致性,设计双向门控特征融合(Bi-GFF)模块来交换和组合结构和纹理信息,并开发上下文特征聚合(CFA)模块。CelebA、Paris StreetView 和 Places2 数据集上的定性和定量实验证明了所提出方法的优越性。
懒人阅读:人工智能芯片是人工智能的“大脑”,可以分为终端和云端两个应用方向。目前主流CPU、CPU+GPU、CPU+FPGA、CPU+ASIC架构。人工智能芯片具有两个突出特点:一是算法与芯片的高度契合,面向终端和云端不同需求提升计算能力;二是专门面向细分应用场景的智能芯片,如语音识别芯片、图像识别芯片、视频监控芯片等。
AI 科技评论按:用对抗性边缘学习修复生成图像是一种新的图像修复方法,它可以更好地复制填充区域,它的细节部分展现了开发者对艺术工作者工作方式的理解:线条优先,颜色次之。对应的论文在 arxiv 上可以查看:https://arxiv.org/abs/1901.00212。
公共交通支撑着全球数亿人的日常通勤,其中一半以上都跟公共汽车有关。随着全球范围内城市的不断发展,通勤者们开始希望知道公共交通的延误情况,尤其是极易因堵车而晚点的公交车。尽管已经有很多交通机构在向谷歌地图提供实时数据,但由于技术和资源的限制,很多机构是没办法提供这些信息的。
据统计,全世界有数亿人乘坐公交车进行日常通勤,世界上一半以上的交通都涉及公交,与地铁等出行方式不同,虽然公交运输公司有提供公交线路的发车时间表,但是公交车的运行时间会受限于实时的路况、路面上的交通指示灯等。这对于依靠公交车通勤的人来说,不确定的等待时间无疑会影响乘车的心情。
/******************************** 下面是viewPager的点击事件 2015-9-14晚10.30点 *********************************/ itemView.setOnClickListener(new OnClickListener() { @Override public void onClick(View view) { // TODO 点击跳转的界面 //第一步需要获取该条itemView的新闻id //JSONObject dataObj = (JSONObject) mJsonArray.get(position); TextView idtView =(TextView) view.findViewById(R.id.news_header_id);//找到新闻的id TextView titleView = (TextView)view.findViewById(R.id.news_viewpager_text);//找到对应的标题 Intent intent = new Intent(mContext,News_DetailActivity.class); String id=(String) idtView.getText(); String news_title = (String) titleView.getText(); intent.putExtra("id", id); intent.putExtra("name", news_title); mContext.startActivity(intent); } });
Android页面之间的跳转可以分为几类,比如有A和B两个页面,从A页面直接跳转到B页面,这样的跳转比较简单,或者从A页面跳转到B页面但是需要传送数据。在Android中,页面的跳转离不开Intent。Intent被称为Android页面之间联系的,他能在程序运行过程中连接两个不同的组件。通过Intent,你的程序可以向Android表达某种请求或者意愿,Android会根据意愿的内容选择适当的组件来完成请求。Intent主要包含的内容如下: 1.Action 用来指明要实施的动作是什么,比如说ACTION
神经网络被用作深度学习的方法,深度学习是人工智能的许多子领域之一。它们大约在70年前首次提出,试图模拟人类大脑的工作方式,尽管它的形式要简化得多。各个“神经元”分层连接,分配权重以确定当信号通过网络传播时神经元如何响应。以前,神经网络在他们能够模拟的神经元数量上受到限制,因此他们可以实现学习的复杂性。但近年来,由于硬件开发的进步,我们已经能够构建非常深的网络,并在大量数据集上训练它们以实现机器智能的突破。
21年前,美国国防部高级研究计划局(DARPA)局长托尼·特瑟,在一次活动中现场宣布了这么一个决定,并将此命名为“DARPA大挑战赛”(DARPA Grand Challenge)。
本文将要介绍的论文就是:EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning,因为知乎在(2019-02-02)前,缺少详细介绍这篇论文的文章,而我最近需要复现它,所以顺便在这里对这篇论文进行介绍,毕竟还是中文母语阅读起来方便,关于翻译或者算法的指正与争议。
AI 科技评论按:本文作者为阿德莱德大学助理教授吴琦,去年,他在为 AI 科技评论投递的独家稿件中介绍了 vision-and-language 任务的最新进展。
来源:中国科学院自动化所机器视觉课题组 【导读】本文由中国科学院自动化研究所模式识别国家重点实验室胡占义研究员撰写,对计算机视觉40多年的发展历程进行了简要总结,包括:马尔计算视觉理论,主动视觉与目的视觉,多视几何与摄像机自标定,以及基于学习的视觉。在此基础上,对计算机视觉的未来发展趋势给出了一些展望。 1.1 什么是计算机视觉 正像其它学科一样,一个大量人员研究了多年的学科,却很难给出一个严格的定义,模式识别如此,目前火热的人工智能如此,计算机视觉亦如此。与计算机视觉密切相关的概念有视觉感知(visual
这项工作提出一种新的逆映射方案,通过引入迭代细化机制,扩展当前基于编码器的逆映射方法。与当前最先进的方法相比,基于残差的编码器 ReStyle 提高了准确性,推理时间的增加可以忽略不计。https://yuval-alaluf.github.io/restyle-encoder/
【1】 Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers 标题:用带Transformer的令牌生成器改善图像合成的视觉质量 链接:https://arxiv.org/abs/2111.03481
【1】 Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval 标题:一举多得--用于视频检索的多模式融合转换器 链接:https://arxiv.org/abs/2112.04446
【1】 Discovering Spatial Relationships by Transformers for Domain Generalization 标题:基于变换器域综合的空间关系发现 链接:https://arxiv.org/abs/2108.10046
【1】 Unified Questioner Transformer for Descriptive Question Generation in Goal-Oriented Visual Dialogue 标题:面向目标的视觉对话中描述性问题生成的统一提问器转换器
【1】 Learning latent causal graphs via mixture oracles 标题:基于混合预言的潜在因果图学习
领取专属 10元无门槛券
手把手带您无忧上云