腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器之心

专栏作者

8931

文章

6257214

阅读量

277

订阅数

有手就行？把大象P转身只需拖动鼠标，华人一作DragGAN爆火

图像处理论文模型数据网络

机器之心报道编辑：蛋酱、小舟如果甲方想把大象 P 转身，你只需要拖动 GAN 就好了。在图像生成领域，以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖于迭代推理，这是一把双刃剑，因为迭代方法可以实现具有简单目标的稳定训练，但推理过程需要高昂的计算成本。在 Stable Diffusion 之前，生成对抗网络（GAN）是图像生成模型中常用的基础架构。相比于扩散模型，GAN 通过单个前向传递生成图像，因此本质上是更高效的。但由于训练过程的不稳定性，扩展

2023-05-22

5000

香港中文大学眼科学与视觉科学系招聘研究助理教授/博士后

深度学习图像处理数据分析教育算法

医学图像处理 / 计算机视觉 / 机器学习 / 深度学习等相关经验者优先。 Experience in medical image analysis, computer vision, image processing, machine learning, and deep learning is preferred. 香港中文大学眼科学与视觉科学系 Department of Ophthalmology and Visual Sciences (DOVS) of The Chinese Univers

2023-05-16

3520

任何表面皆可触屏，无需传感器，超低成本投影虚拟显示器只需一个摄像头

图像处理论文摄像头算法系统

机器之心报道编辑：小舟把手机显示的内容投影到任意平面进行「触屏」操作，这事似曾相识又有点魔幻...... 自从智能手机问世以来，使用触摸与数字内容进行交互变得无处不在。不过到目前为止，触摸屏主要限于袖珍设备。近日，来自日本多所大学的研究者组成的研究团队提出了一种新的低成本方法，能够将任何表面变成触摸屏，为人们与数字世界的交互提供了新的可能性。之前允许通过触摸操纵投影图像的工作大多依赖于特殊的输入设备、多个传感器或图像处理算法，难以处理混乱或令人困惑的视觉内容。而该研究提出的新系统只需在投影仪下方连

2023-03-29

9970

图像预处理库CV-CUDA开源了，打破预处理瓶颈，提升推理吞吐量20多倍

图像处理开源 cuda 模型性能

机器之心原创作者：思当 CPU 图像预处理成为视觉任务的瓶颈，最新开源的CV-CUDA，将为图像预处理算子提速百倍。在如今信息化时代中，图像或者说视觉内容早已成为日常生活中承载信息最主要的载体，深度学习模型凭借着对视觉内容强大的理解能力，能对其进行各种处理与优化。然而在以往的视觉模型开发与应用中，我们更关注模型本身的优化，提升其速度与效果。相反，对于图像的预处理与后处理阶段，很少认真思考如何去优化它们。所以，当模型计算效率越来越高，反观图像的预处理与后处理，没想到它们竟成了整个图像任务的瓶颈。

2023-03-29

1K0

谷歌复用30年前经典算法，CV引入强化学习，网友：视觉RLHF要来了？

编程算法强化学习图像处理图像识别

机器之心报道机器之心编辑部模型预测和预期使用之间存在错位，不利于 CV 模型的部署，来自谷歌等机构的研究者用强化学习技术的奖励函数，从而改善了计算机视觉任务。 ChatGPT 的火爆有目共睹，而对于支撑其成功背后的技术，监督式的指令微调以及基于人类反馈的强化学习至关重要。这些技术也在逐渐扩展到其他 AI 领域，包括计算机视觉（CV）。我们知道，在处理计算机视觉中的复杂输出时，成功的主要标准不在于模型对训练目标的优化程度，而在于预测能力与任务的吻合程度，即模型在预期用途上的表现效果。为了追求这种一致性

2023-02-27

5980

AI降维打击人类画家，文生图引入ControlNet，深度、边缘信息全能复用

图像处理神经网络

机器之心报道机器之心编辑部通过「添加额外条件」来控制扩散模型，斯坦福大学最新的一项研究让图生图效果更上了一层楼。随着大型文本 - 图像模型的出现，生成一幅吸引人的图像已经变得非常简单，用户需要做的就是动动手指输入简单的 prompt 就可以。通过一系列操作得到图像后，我们不免又会产生这样几个问题：基于 prompt 生成的图像能够满足我们的要求吗？我们应该构建怎样的架构来处理用户提出的各种要求？在特定任务中，大型模型是否还能保持从数十亿张图像中获得的优势和能力？为了回答这些问题，来自斯坦福的研究者

2023-02-23

6440

令人心动的AI offer（六）：小红书、京东科技、华为数据存储、蚂蚁安全事业群等校招、社招与实习生职位

编程算法智能创作存储图像处理数据挖掘

「TalentAI」将持续带来人工智能相关在招职位信息，欢迎正在找工作与看新机会的朋友关注，也欢迎企业伙伴与我们联系合作。正值春招，近期推荐职位较多，欢迎大家关注「TalentAI」查看职位详情。本期「TalentAI」推荐职位来自小红书、京东科技、华为数据存储、蚂蚁安全事业群、第四范式、上海数字大脑科技研究院、启元世界、极氪智能科技。校招、社招与实习生岗位均有，请大家按需投递简历。小红书小红书在招岗位来自小红书智能创作团队和商业技术部。小红书智能创作团队：致力于运用行业领先的计算机视觉、音视频

2023-02-23

4150

一块小小的ISP，让明年旗舰机有了新的质变

图像处理硬件开发

手机是摄影的主流设备，时至今日，全球已有 92.5% 的照片是由智能手机拍摄的。但有些时候，我们对手机拍出的照片质量也并不一定完全满意：人人都向往单反画质、一键成片，但经常因为底不够大，AI 不够智能等问题无法如愿。

2022-12-16

4920

中文文本生成发展到哪一步了？写方案、写广告的AI全能工具已上线

腾讯云开发者社区图像处理监督学习

对于曹植来说，写一首诗需要走七步。对于 AI 来说，写一首诗只需要几秒钟。这首诗的「作者」，是近日上线的「秘塔写作猫」新版本「AI 写作」。

2022-12-16

1.1K0

登顶全球最权威AI性能基准评测，百度飞桨给分布式训练创造了标杆

分布式图像处理机器学习深度学习神经网络

从问答、翻译、作画再到写论文，最近一段时间，实现各种神奇能力的 AI 总有个「大模型」的称号。

2022-12-16

6940

用CNN做基础模型，可变形卷积InternImage实现检测分割新纪录！

图像处理机器学习深度学习人工智能图像识别

近年来大规模视觉 Transformer 的蓬勃发展推动了计算机视觉领域的性能边界。视觉 Transformer 模型通过扩大模型参数量和训练数据从而击败了卷积神经网络。来自上海人工智能实验室、清华、南大、商汤和港中文的研究人员总结了卷积神经网络和视觉 Transformer 之间的差距。从算子层面看，传统的 CNNs 算子缺乏长距离依赖和自适应空间聚合能力；从结构层面看，传统 CNNs 结构缺乏先进组件。

2022-12-16

5960

突发！图森未来CEO侯晓迪被罢免，公司疑遭SEC、FBI联手调查，市值一夜砍半

自动驾驶无人驾驶图像处理

著名自动驾驶卡车公司图森未来（TuSimple, TSP）10 月 31 日突然表示，已将首席执行官兼联合创始人侯晓迪解雇，该决定立即生效。

2022-12-15

3800

回顾60多种transformer研究，一文总结遥感领域最新进展

神经网络机器学习人工智能卷积神经网络图像处理

遥感成像技术在过去几十年取得显着进步。现代机载传感器在空间、光谱和分辨率上的不断提升，已经能覆盖地球表面大部分范围，因此遥感技术在生态学、环境科学、土壤科学、水污染、冰川学、土地测量和分析等众多研究领域发挥着至关重要的作用。由于遥感数据通常是多模态的、位于地理空间（地理定位）中，并且尺度通常是全球范围、数据规模也在不断增长等等，这些特性都为遥感成像的自动分析带来独特的挑战。

2022-12-15

7310

Uni-Mol：分子3D表示学习框架和预训练模型项目原作解读

https 网络安全云直播图像处理

预训练模型正在席卷 AI 领域。从大规模无标注数据中提取表征信息，再在小范围标注的下游任务上进行监督学习，正在成为很多领域的事实解决方案。NLP 中有 BERT、GPT-3，CV 中有 ViT，而这样的模式如何助力药物设计，也一直都是人们密切关注的问题。药物分子与图片、语言文字的不同之处在于，“什么是最好的分子表征”依旧是一个人们未能形成共识的问题。主流分子预训练模型均从一维序列或二维图结构出发，但分子结构本身是在三维空间中表示的。能否直接从三维信息出发构建预训练模型、获得更好的分子表征，是一个重要而有意义

2022-10-11

5870

一种产生DSN放大攻击的深度学习技术

编程算法 dns NLP 服务图像处理 ddos 攻击

编辑 | 萝卜皮近年来，深度学习已证明自己是网络安全中非常有价值的工具，因为它可以帮助网络入侵检测系统对攻击进行分类并检测新攻击。对抗性学习是利用机器学习生成一组受扰动的输入，然后馈送到神经网络以对其进行错误分类的过程。目前对抗性学习领域的大部分工作都是在图像处理和自然语言处理中使用各种算法进行的。 Citadel 的研究人员最近开发了一种深度神经网络（DNNs），可以检测一种称为分布式拒绝服务（DDoS）DNS 放大的网络攻击，然后使用两种不同的算法生成可以欺骗 DNN 的对抗性示例。该研究以「A D

2022-10-10

5090

图像生成卷腻了，谷歌全面转向文字→视频生成，两大利器同时挑战分辨率和长度

图像处理 https 声纹识别网络安全语音识别

机器之心报道编辑：张倩、杜伟谷歌、Meta 等科技巨头又挖了一个新坑。在文本转图像上卷了大半年之后，Meta、谷歌等科技巨头又将目光投向了一个新的战场：文本转视频。上周，Meta 公布了一个能够生成高质量短视频的工具——Make-A-Video，利用这款工具生成的视频非常具有想象力。当然，谷歌也不甘示弱。刚刚，该公司 CEO Sundar Pichai 亲自安利了他们在这一领域的最新成果：两款文本转视频工具——Imagen Video 与 Phenaki。前者主打视频品质，后者主要挑战视频长度，

2022-10-08

8600

斯坦福、微软联手，用扩散模型进行蛋白质结构生成，已开源

https 图像处理网络安全

机器之心报道机器之心编辑部尽管最近研究者在蛋白质结构预测方面取得了进展，但从神经网络直接生成不同的、新颖的蛋白质结构仍然很困难。在这项工作中，本文提出了一种新的基于扩散的生成模型，该模型通过一种反映蛋白质原生折叠过程的过程来设计蛋白质的主链结构。蛋白质对生命至关重要，几乎在每个生物过程中都发挥着作用。一方面它们能在神经元之间传递信号、识别微观入侵者并激活免疫反应等。另一方面，蛋白质作为一种治疗介质已经得到广泛研究，成为治疗疾病的一部分。因此，通过生成新的、物理上可折叠的蛋白质结构，打开了利用细胞通路治

2022-10-08

2960

2023 AI 应届生，来种草小红书

腾讯云开发者社区深度学习图像处理数据分析 NLP 服务

小红书REDtech 青年技术沙龙延期至 10 月 15 日，招募持续进行中。作为近年国内发展最为迅速的移动互联网平台之一，小红书的超大型 UGC 社区产生了海量多模态数据及用户行为反馈，基于独特的社区生态和丰富的落地场景，在计算机视觉、自然语言、强化学习等领域不断诞生着兼具价值和挑战的新问题。随着用户规模的高速发展与用户需求的不断提升，技术在小红书发展飞轮中承担着越来越重要的角色。小红书在技术领域不断加大投入，加快布局前沿技术，不断以创新技术推动业务增长，吸引了众多全球顶尖科技公司技术牛人加入，同

2022-09-27

5440

南洋理工大学Lu Shijian教授课题组招聘计算机视觉方向博士后

图像处理 https 网络安全机器学习迁移学习

新的一期博士招生正式启动！本期我们将为大家介绍新加坡南洋理工大学 Lu Shijian 教授课题组招聘计算机视觉方向博士后的相关信息。学校简介南洋理工大学（Nanyang Technological University），简称南大、NTU，是新加坡的一所顶尖研究型大学。导师简介 Lu Shijian 现任南洋理工大学计算机学院副教授，主要研究方向包括计算机视觉和机器学习。计算机视觉方向主要关注图像生成、目标检测和语义分割；机器学习方向主要关注迁移学习、半监督、和无监督学习。他的研究成果发表在多个会

2022-09-26

1.2K0

多无人机协同3D打印盖房子，研究登上Nature封面

机器人图像处理声纹识别语音识别

机器之心报道编辑：泽南、陈萍把大兴土木的事交给无人机，让它们表演 3D 打印可好？我们经常可以看到蜜蜂、蚂蚁等各种动物忙碌地筑巢。经过自然选择，它们的工作效率高到叹为观止。这些动物的分工合作能力已经「传给」了无人机，来自英国帝国理工学院的一项研究向我们展示了未来的方向，就像这样：无人机 3D 打灰： ‍本周三，这一研究成果登上了《自然》封面。论文地址：https://www.nature.com/articles/s41586-022-04988-4 为了展示无人机的能力，研究人员使用泡沫

2022-09-26

4150

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态