首页
学习
活动
专区
工具
TVP
发布

媒矿工厂

专栏作者
894
文章
1047627
阅读量
236
订阅数
Dynamic Pre-training:实现高效、可扩展的一体化(All-in-one)图像恢复
图像恢复 (IR) 任务旨在改进低质量的输入图像。尽管 IR 取得了一些进展,但图像中存在的各种降解类型和严重程度仍然构成重大挑战。大多数现有方法隐式学习图像先验,需要针对不同的退化类型、水平和数据集进行单独的网络训练。此外,这些方法需要先验的图像退化知识,以便在测试期间进行有效的模型选择,因此缺乏通用性来满足各种退化的需求。
用户1324186
2024-05-11
320
LLMZip:使用大语言模型实现无损文本压缩
学习、预测和压缩之间存在着密切的联系。ChatGPT的成功吸引了公众的广泛关注,并将学习与预测之间的联系推向了前沿。LLaMA和GPT-4等大型语言模型带来的主要进步是,它们能够根据已知的前几个单词(Token)来出色地预测段落中的下一个单词(Token)。
用户1324186
2024-05-11
740
DynamiCrafter: 利用扩散先验的开放域图片动画化
VideoCrafter的网络架构如图所示,它包括T2V和I2V两个子任务,相应的需要注入Text prompt和image prompt。Motion speed用fps控制,fps和timestep有同样的结构。
用户1324186
2024-05-11
630
CPEM:通过身份一致性和表情独占约束实现精确的面部运动重定向
现有方法通常将该问题表述为三维人脸重建问题,该问题从人脸图像中估计人脸身份和表情等人脸属性。然而,由于缺乏身份和表情的ground-truth标签,大多数基于3d人脸重建的方法都不能准确地捕捉人脸的身份和表情。因此,这些方法可能无法实现预期的性能。
用户1324186
2024-05-11
270
AAAI 2023 | 探索使用 CLIP 来评估图像的外观和感觉
外观和感觉是人类解释图像时的两个影响因素,而对这两个元素的理解一直是计算机视觉中长期存在的问题。图像的外观通常与直接影响内容的可量化属性相关,例如曝光度和噪声水平。相比之下,图像的感觉是一个与内容无关的抽象概念,不能轻易量化,例如情感和美学。
用户1324186
2024-05-11
370
RTC @scale 2024 | 从单一到大规模开源
我创建了 Pion,这是一个适用于 RTC 的 Go 软件集合,其中最受欢迎的是 WebRTC 实现,它被用作许多开源项目的组件。此外,我还写了《WebRTC for the Curious》,这是一本关于 WebRTC 实际工作原理的书籍。以上这些是已完成的工作,最近我参与了将 WebRTC 添加到 OBS,这样就可以通过 WebRTC 进行广播,而不是通过 RTMP。目前,我还在 LiveKit 担任全职的 Field CTO。
用户1324186
2024-05-11
290
CVPR 2023 | 高效视频超分辨率的结构化稀疏学习
视频超分辨率(VSR)模型的高计算成本阻碍了它们在资源有限的设备上的部署,例如智能手机和无人机。现有的 VSR 模型包含大量冗余滤波器,影响了推理效率。为了修剪这些不重要的过滤器,本文根据 VSR 的特性开发了一种称为结构化稀疏学习(SSL)的结构化修剪方案。在 SSL 中,本文为 VSR 模型中的几个关键组件设计了修剪方案,包括残差块、循环网络和上采样网络。实验表明,SSL 明显优于最近的方法。
用户1324186
2024-05-11
430
CVPR 2024 | SC-GS: 可编辑动态场景中的系数控制高斯溅射
最近,高斯溅射作为一种表示场景为 3D 高斯点的方法,显示出在渲染质量、分辨率和速度方面的显著性能。然而,现有的高斯溅射公式只适用于静态场景,将对象运动整合到高斯表示中而不损害渲染质量和速度仍然是一个挑战。
用户1324186
2024-04-26
1270
IEEE Transactions on Multimedia | 实时自由视角视频生成系统
随着5G网络和边缘计算技术的普及,实时自由视角视频合成方法在自由视角视频直播、3D电视、快速自由视角视频渲染以及许多其他场景中的应用越来越广泛。一般来说,实时自由视角视频合成方法可以分为五类:密集相机布置、基于3D模型重建的合成、基于神经渲染的合成、帧插值,以及基于深度图像的渲染(DIBR)。在这五类中,DIBR是在自由视角视频系统中最有效和广泛使用的方法。 为了开发基于DIBR的自由视角视频渲染方法,已经做出了巨大努力,因为它们提供了几个优点:
用户1324186
2024-04-26
1230
ICCV 2023 | Imitator:个性化语音驱动的 3D 人脸动画
图 1:Imitator 是一种用于个性化语音驱动 3D 人脸动画的新方法。给定音频序列和个性化风格嵌入作为输入,我们生成特定人物的运动序列,并为双唇辅音('m','b','p')提供准确的唇闭合。主体的风格嵌入可以从一个简短参考视频(5 秒)中计算得到。
用户1324186
2024-04-26
1550
CVPR2024 | ProbTalk:变化且协调的整体语音运动生成
用语音驱动来生成逼真的全身动作对于提供更沉浸式和互动式用户体验至关重要。这个任务引起了相当多的研究兴趣。Habibie等人提出的早期方法使用确定性回归模型将语音信号映射到整体动作。虽然在某些方面有效,但相同的语音内容会生成相同的动作,生成效果不够自然。为了改进这一点,TalkSHOW提出了一种混合方法,使用确定性建模来处理面部表情,使用概率建模来处理手势和身体动作。尽管TalkSHOW在身体姿势方面取得了更多的多样性,但仍然存在面部运动的多样性不足的问题。此外,TalkSHOW中使用的分离建模策略可能会导致不同身体部位之间的协调不够流畅。为了解决这些挑战,我们提出了ProbTalk,这是一个基于变分自动编码器(VAE)架构的新框架,包括三个核心设计。首先,我们将PQ应用于VAE。PQ将整体运动的潜在空间划分为多个子空间进行单独量化。PQ-VAE的构成性质提供了更丰富的表示,使得复杂的整体运动可以用较低的量化误差来表示。其次,我们设计了一种新颖的非自回归模型,将MaskGIT和2D位置编码集成到PQ-VAE中。MaskGIT是一种训练和推断范式,它同时预测所有latene code,显著减少了推断所需的步骤。2D位置编码考虑了PQ引入的额外维度,有效地保留了latene code中时间和子空间的二维结构信息。最后,我们使用一个refinement来细化初步预测的动作。这三个设计的结合使ProbTalk能够生成自然和多样化的全身语音运动,优于几种最先进的方法。
用户1324186
2024-04-26
1250
CVPR 2024 | ConTex-Human:纹理一致的单视图人体自由视图渲染
自由视角人体合成或渲染对于虚拟现实、电子游戏和电影制作等各种应用都是必不可少的。传统方法通常需要密集的相机或深度传感器来重建几何形状并细化渲染对象的纹理,从而产生繁琐和耗时的过程。
用户1324186
2024-04-26
1470
RTC @scale 2024 | 如何提升国际通话质量
通话几乎完全由音频和视频数据包组成,这些数据包在通话参与者之间交换。许多连接到互联网的设备都在网络地址转换(NAT)单元后面,这可能会阻止它们直接与其他设备通信。这就需要有一个“中间人”——一个通话中继器——来帮助在通话参与者之间中继媒体数据包,如图1所示。
用户1324186
2024-04-26
1090
GES: 通用指数高斯用于高效渲染
在游戏、电影和元宇宙中追求更具吸引力和沉浸式的虚拟体验,需要在视觉丰富性和计算效率之间平衡的三维技术进步。在这方面,三维高斯散点(GS)是对神经辐射场的最新替代方案,用于学习和渲染三维对象和场景。GS将场景表示为大量小的、有色的高斯模型。其主要优势是存在一个非常快速的可微渲染器,这使得这种表示非常适合实时应用,并显著降低了学习成本。具体来说,快速渲染可学习的三维表征对于游戏等应用至关重要,这些应用需要高质量、流畅且响应迅速的图形。
用户1324186
2024-04-19
1060
MM2023 | Reparo:低速网络中通过智能帧恢复的QoE感知实时视频流传输
实时视频流传输中,从上传客户端到媒体服务器的上行带宽通常是不足的。因此,上传客户端可能需要以更低的比特率对高质量的视频帧进行编码,从而降低用户的QoE。为解决这个问题,已经有一些方案被提出:
用户1324186
2024-04-18
1320
HotNets 23 | 将slowdown作为拥塞控制公平性指标
传统上,研究人员通过启动多个共享瓶颈链路的流,让这些流尽可能多地发送数据,然后评估流量速率公平性,即这些流是否获得了相等的吞吐量。然而,这种传统的评估设置并不现实,也没有关注用户的实际需求。文章指出,这种传统评估方法存在三个核心问题:
用户1324186
2024-04-18
1410
HotNets 23 | 通过语义驱动的全息通信丰富远程呈现
全息通信受益于3D内容的传递。全息图可以使用体积内容生成,以捕捉3D对象/场景,通常通过点云或网格表示。此外,如神经辐射场(NeRF)等隐式神经表示的最新进展作为表示体积内容的一种可行替代方案越来越受欢迎。然而,NeRF主要是为静态场景设计的,需要先验知识进行训练,这使得它直接应用于实时互动全息通信变得具有挑战性。体积内容的一个独特方面是它能够让观看者不仅可以改变观看方向,还可以在3D空间中自由移动,这称为六自由度(6DoF)运动。
用户1324186
2024-04-18
1110
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
基于NeRF的方法在处理大型场景时,渲染时间长且渲染效果差。而现有基于3D高斯的方法由于训练内存大、优化时间长和外观变化剧烈,难以扩展到大型场景。
用户1324186
2024-04-12
1480
RTC @scale 2024 | RTC 下基于机器学习的带宽估计和拥塞控制
演讲者在进行介绍基于机器学习的带宽预测和拥塞控制方法之前,先介绍了当前 webRTC 中应用的基于 Google 拥塞控制机制的带宽预测方法(GCC)。
用户1324186
2024-04-12
1060
RTC @scale 2024 | 提升实时通信的视频质量
我(SHYAM SADHWANI)是meta的一名软件工程师,我和亿万用户一样使用视频通话app与家人朋友保持联系,音视频质量在这一场景中非常重要。我有一段时间非常好奇,这种视频质量为什么不如Netflix流,在我使用相同的设备和网络的情况下,我在Netflix中获得了非常高质量的流,但是在TRC通话中我认为质量应该更好。非常幸运的是我找到了视频通话app的工作,我们探索了很多该领域的挑战,并且在接下来的演讲中我将分析我们在这一过程中学到的和所做的。
用户1324186
2024-04-12
1200
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档