首页
学习
活动
专区
工具
TVP
发布

媒矿工厂

专栏作者
881
文章
1034140
阅读量
235
订阅数
GES: 通用指数高斯用于高效渲染
在游戏、电影和元宇宙中追求更具吸引力和沉浸式的虚拟体验,需要在视觉丰富性和计算效率之间平衡的三维技术进步。在这方面,三维高斯散点(GS)是对神经辐射场的最新替代方案,用于学习和渲染三维对象和场景。GS将场景表示为大量小的、有色的高斯模型。其主要优势是存在一个非常快速的可微渲染器,这使得这种表示非常适合实时应用,并显著降低了学习成本。具体来说,快速渲染可学习的三维表征对于游戏等应用至关重要,这些应用需要高质量、流畅且响应迅速的图形。
用户1324186
2024-04-19
920
MM2023 | Reparo:低速网络中通过智能帧恢复的QoE感知实时视频流传输
实时视频流传输中,从上传客户端到媒体服务器的上行带宽通常是不足的。因此,上传客户端可能需要以更低的比特率对高质量的视频帧进行编码,从而降低用户的QoE。为解决这个问题,已经有一些方案被提出:
用户1324186
2024-04-18
1180
HotNets 23 | 将slowdown作为拥塞控制公平性指标
传统上,研究人员通过启动多个共享瓶颈链路的流,让这些流尽可能多地发送数据,然后评估流量速率公平性,即这些流是否获得了相等的吞吐量。然而,这种传统的评估设置并不现实,也没有关注用户的实际需求。文章指出,这种传统评估方法存在三个核心问题:
用户1324186
2024-04-18
1230
HotNets 23 | 通过语义驱动的全息通信丰富远程呈现
全息通信受益于3D内容的传递。全息图可以使用体积内容生成,以捕捉3D对象/场景,通常通过点云或网格表示。此外,如神经辐射场(NeRF)等隐式神经表示的最新进展作为表示体积内容的一种可行替代方案越来越受欢迎。然而,NeRF主要是为静态场景设计的,需要先验知识进行训练,这使得它直接应用于实时互动全息通信变得具有挑战性。体积内容的一个独特方面是它能够让观看者不仅可以改变观看方向,还可以在3D空间中自由移动,这称为六自由度(6DoF)运动。
用户1324186
2024-04-18
920
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
基于NeRF的方法在处理大型场景时,渲染时间长且渲染效果差。而现有基于3D高斯的方法由于训练内存大、优化时间长和外观变化剧烈,难以扩展到大型场景。
用户1324186
2024-04-12
980
RTC @scale 2024 | RTC 下基于机器学习的带宽估计和拥塞控制
演讲者在进行介绍基于机器学习的带宽预测和拥塞控制方法之前,先介绍了当前 webRTC 中应用的基于 Google 拥塞控制机制的带宽预测方法(GCC)。
用户1324186
2024-04-12
940
RTC @scale 2024 | 提升实时通信的视频质量
我(SHYAM SADHWANI)是meta的一名软件工程师,我和亿万用户一样使用视频通话app与家人朋友保持联系,音视频质量在这一场景中非常重要。我有一段时间非常好奇,这种视频质量为什么不如Netflix流,在我使用相同的设备和网络的情况下,我在Netflix中获得了非常高质量的流,但是在TRC通话中我认为质量应该更好。非常幸运的是我找到了视频通话app的工作,我们探索了很多该领域的挑战,并且在接下来的演讲中我将分析我们在这一过程中学到的和所做的。
用户1324186
2024-04-12
1130
IBC 2023 | VVC在自适应流式处理工作流程中支持OPENGOP编码
随机接入点(RAPs)在视频娱乐应用中非常重要。它们指的是编码视频流中的特定点,观众可以在这些点开始播放,而不必等待整个码流加载。这个技术在调谐或切换频道的广播以及自适应流中尤为重要,在自适应流中,视频流通常被划分为较小的片段,并根据观众的带宽和设备能力动态传输。
用户1324186
2024-04-12
940
RTC @scale 2024 | RTC 可观测性
提供调试动力的主要数据来源是日志记录。参与通话的所有实体都会生成日志。我们有可以分为以下几类的不同类型的日志:
用户1324186
2024-04-12
1060
RTC @scale 2024 | 通过 5G 网络提供沉浸式 360° 视频
沉浸式媒体在当今互联网和技术网络上被广泛的使用,例如元宇宙、AR、VR 和云游戏等。而由于带宽和延迟的限制,在公共网络,尤其是 5G 无线网络上传输和广播沉浸式媒体是一个公认的挑战。我将以 360° 视频为例来分析目前的技术栈瓶颈,并展示我们的团队在该方面所做的工作。
用户1324186
2024-04-12
830
FSGS: 基于 Gaussian Splatting 的实时 Few-shot 视角合成
新视角合成是计算机视觉和图形学领域中一项长期存在并且富有挑战的任务。过去两年,NeRF及其衍生工作的提出将该任务提升到了新的高度。然而,基于NeRF的方法的训练和渲染需要大量的成本才能达到理想的效果,比如稠密的输入视角和耗时的训练与渲染。尽管后续的一些稀疏视角NeRF的工作以及InstantNGP的提出在一定程度上解决了部分缺陷,但NeRF方法始终没有做到实时和高质量的高分辨率渲染。
用户1324186
2024-04-12
1680
CVPR2024 | CoSeR:连接图像与语言实现认知超分辨率
真实世界的图像超分辨率(SR)是图像处理领域的一项基本任务,旨在增强低分辨率(LR)图像,生成对应的高分辨率(HR)图像。尽管近年来该领域取得了重大进展,但复杂现实场景的处理仍然面临着持久的挑战。利用图像先验是解决现实世界SR问题的常用策略,而最近出现的文生图扩散模型显示出基于用户提供的提示生成高质量图像的卓越能力。这些模型不仅具有强大的图像先验,而且能够以语言的形式对人类指令做出精确的反应。这展示了连接低级图像处理和高级抽象认知的可能性。传统的图像超分辨率技术坚持自下而上的方法,主要集中于局部内容和直接像素级处理。这些方法在把握整体图像上下文方面表现出固有的局限性,往往无法恢复严重退化但语义上至关重要的细节。此外,考虑到LR图像的病态性质,有可能引入语义错误的纹理。为了应对这些挑战,有必要为 SR 模型注入“认知”能力。因此,本文提出了一种先进的 SR 方法,称为认知超分辨率(CoSeR),它与人类在图像感知中采用的自上而下的认知过程一致。它从认知嵌入的生成开始,这是一种封装了 LR 图像总体理解的表示,包含场景语义和图像外观。这种认知嵌入能够精确地利用嵌入在预训练的文生图模型中的隐含先验知识,从而以类似于人类专业知识的方式增强恢复图像细节的能力。先前的工作使用分割图来提供语义,然而,获取现实世界LR图像的理想的分割图仍然很困难,且语义分割受限于预先定义的类别,限制了它在开放世界场景中的适用性。除了隐式地利用扩散先验,本文还显式地利用了图像先验。本文提出了一种新的方法,使用来自 LR 输入的认知嵌入,通过扩散模型生成参考图像,并将其用于指导恢复过程。如图1所示,认知嵌入包含了语言理解,同时保留了图像的颜色和纹理信息,从而产生了高质量的参考图像,不仅在语义上对齐,而且在外观上相似。这种显式方法在捕获高清纹理方面带来了实质性的改进。为了同时保证纹理的真实感和保真度,本文引入了一种“All-in-Attention”设计,通过注意机制集成了多个信息源,包括认知嵌入、参考图像和 LR 输入。这种方法允许模型灵活地使用不同的条件组件,从而产生改进的结果。实验表明,与以前的方法相比,本文的模型在生成更复杂的纹理的同时保持了保真度。
用户1324186
2024-04-12
2050
CVPR 2023 | 使用混合 Transformer-CNN 架构学习图像压缩
CNN-based图像压缩方法能较好地提取局部信息,Transformer-based图像压缩方法能较好地提取全局信息,于是想将这两者的优势相结合。
用户1324186
2024-04-12
2160
UniEdit:无需训练的统一视频运动和外观编辑框架
近来,尽管文本引导的视频编辑工作已取得了不错的进展,但时间维度的视频动作编辑依然是颇具挑战的。本工作提出了UniEdit,一个同时支持外观和动作编辑的零训练框架。UniEdit借助预训练文生视频模型,并采取先反转后编辑(inversion-then-generation)的框架。
用户1324186
2024-04-12
870
AAAI 2024 | 深度分层视频压缩
目前,基于学习的视频压缩方法仍然受制于传统的混合编码框架。大多数现有方法都采用了两阶段编码流程,首先编码运动流,然后编码当前帧与运动扭曲后的帧之间的残差。这种框架设计繁琐,并且不准确的运动引起的扭曲误差不可避免地会跨时间帧传播,随着时间的推移逐渐降低重建帧的质量。
用户1324186
2024-03-27
1440
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
RGB-D 图像是一种重要的 3D 数据格式。它已被广泛用于 3D 场景重建、突出目标检测、机器人与自主导航、医学影像与健康监测、环境监测等领域。与 RGB 图像不同,深度图像包含有关从视点到场景对象表面的距离的信息,该视点提供了 3D 场景之间的深度信息。因此,RGB-D联合分析方法在计算机视觉任务中很受欢迎。然而,这些方法使用额外的模态,这将带来多余的存储和传输成本。因此,设计一个高效的RGB-D图像压缩方法是一项重要且具有挑战性的工作。
用户1324186
2024-03-26
1920
ViT-Adapter: 密集预测任务的ViT适配器
最近,Transformers 在计算机视觉领域取得了巨大成功。得益于动态建模能力和注意力机制的长程依赖性,各种 vision transformers 很快在物体检测和语义分割等许多计算机视觉任务中崭露头角,超越了 CNN 模型,达到了最先进的性能。这些模型主要分为两个系列,即普通 ViT 及其分层变体。一般来说,后者能产生更好的结果,并且被认为通过使用局部空间操作,在其架构中引入了视觉特有的归纳偏差。
用户1324186
2024-03-26
1150
Parrot:用于文本到图像生成的帕累托最优多奖励强化学习框架
最近的工作表明,使用具有质量奖励的强化学习(RL)可以提高文本到图像(T2I)生成中生成图像的质量。然而,多个奖励的简单聚合可能会导致某些指标的过度优化和其他指标的退化,并且手动找到最佳权重具有挑战性。所以非常需要一种有效的策略来联合优化 RL 中的多种奖励以生成 T2I。
用户1324186
2024-03-26
1340
AnyMAL:一种高效、可拓展的任意模态增强语言模型
大语言模型(LLMs)因其庞大的规模和复杂性而著名,显著增强了机器理解和表达人类语言的能力。LLMs的进步也推动了视觉-语言领域的显著进展,缩小了图像编码器与LLMs之间的差距,结合了它们的推理能力。之前的多模态LLM研究主要集中在结合文本和另一种模态的模型上,如文本和图像模型,或专注于未开源的专有语言模型。为了解决这些挑战,本文介绍了一种新的多模态增强语言模型(AnyMAL),它是一系列多模态编码器的集合,这些编码器被训练用于将来自不同模态(包括图像、视频、音频和IMU运动传感器数据)的数据转换为LLM的文本嵌入空间。通过扩展先前的工作,AnyMAL采用更强大的指令调优LLMs、更大的预训练模态编码器和先进的投影层来处理变长输入。
用户1324186
2024-03-26
1050
[强基固本-视频压缩] 第十三章 向量指令 第二部分:矢量化
本章节所有示例都将使用某个图像的像素块作为输入数据。为简单起见,考虑一个像素值范围为
用户1324186
2024-03-20
1080
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档