首页
学习
活动
专区
工具
TVP
发布

媒矿工厂

专栏作者
887
文章
1035262
阅读量
236
订阅数
CVPR 2022 | StyleSDF: 高分辨率三维一致图像和几何生成
StyleGAN 架构展示了高质量 RGB 图像生成,但是它们仅针对生成单个 RGB 视图,而不是 3D 内容。本文提出的 StyleSDF 是一种生成 3D 一致的高分辨率(1024 × 1024) RGB 图像和几何图形的方法。相关的 3D 生成模型通过基于坐标的多层感知器(MLP)实现形状和外观的合成,然而这些工作往往需要 3D 或多视图数据进行监督,这些数据很难收集,并且由于它们依赖于昂贵的体积场采样,现有算法大多仅限于低分辨率的渲染输出。
用户1324186
2023-02-03
1.1K0
ACM MM2022|基于多尺度 Transformer 的视频插帧方法
视频插帧目的是从低帧率视频中合成不存在的中间帧以提升帧率,使得视频更加流畅,顺滑。随着显示设备的更新换代,以及人们对视频观赏体验要求的提高,不管是在视频、慢动作采集,新视角合成,视频点播、直播的场景中,高帧率视频的需求越来越大。然而,受限于采集设备与存储,现存的旧视频源往往具有较低的帧率。在播放时,低帧率视频在运动的场景或者区域中往往会造成感知上的不连续,从而影响人眼的主观视觉体验。现有的视频插帧方法大多为基于流的方法,即估计出整数帧到中间帧的密集光流,再通过估计的流将特征迁移到中间时间点,最后通过残差估计合成中间帧。
用户1324186
2022-11-07
1.7K0
在体素网格上进行直接优化以实现辐射场重建的超快速收敛
在仅有图像及对应位姿作为输入时对三维物体或场景实现自由视点合成是一个重要的任务。最近,基于 NeRF 的方法提出了有力的场景表征方式,并在这一任务上实现了 state-of-the-art 的质量。但与此同时,这一方法在场景训练过程中所需要的大量时间导致其难以应用到许多实际场景中。尽管后续许多工作在测试阶段提出了加速渲染的方法,但在训练过程中加快场景收敛速度方面进行的工作要么在效率方面提升较小,要么在合成质量方面出现了严重的损失。
用户1324186
2022-11-07
1.9K0
ECCV 2022|码流信息辅助的压缩视频超分框架
目前网络上的电影、网络广播、自媒体视频等大部分是分辨率较低的压缩视频,而智能手机、平板电脑、电视等终端设备正逐渐配备 2K、4K 甚至 8K 清晰度的屏幕,因此端侧的视频超分辨率(VSR)算法引起越来越广泛的关注。与图像超分辨率(SISR)相比,视频超分辨率(VSR)可以通过沿视频时间维度利用邻近帧的信息来提高超分辨率的效果。视频超分辨率算法大致可以分为两类:基于滑窗的视频超分算法(Sliding-window)和基于循环神经网络的视频超分算法(Recurrent VSR)。基于滑窗的视频超分算法会重复的提取邻近帧的特征,而基于循环神经网络的视频超分辨率算法避免了重复的特征提取,还可以高效的传递长期时间依赖信息,鉴于端侧运算单元和内存有限的情况来说是一个更具潜力的方案。在视频超分中,视频帧之间的对齐对超分辨率性能有着重要的影响。目前的视频超分算法通过光流估计、可形变卷积、注意力和相关性机制等方式来设计复杂的运动估计网络来提升视频超分的性能。而目前商用终端设备很难为视频超分辨率算法提供足够的计算单元和内存来支撑视频帧之间复杂的运动估计以及大量的冗余特征计算。
用户1324186
2022-11-07
1.8K0
一种将虚拟物体插入到有透明物体的场景中的方法
在增强现实系统中,真实场景和虚拟物体之间的视觉一致性得到了广泛的研究,解决这个问题的关键在于估计真实场景中物体的光照和材质。现有的各种方法只关注在真实场景中只有不透明物体时插入虚拟物体,而没有考虑真实场景中透明物体对虚拟物体的影响。如下图所示,透明物体的不同折射率和粗糙度参数会给周围的物体带来不同的视觉效果。
用户1324186
2022-11-07
3.8K0
MHV 演讲两则
Jaime Miles 来自 VIPER,他们的团队构建了一个完整的从视频内容获取、处理、存储、传输和播放 5 个部分,如下图所示:
用户1324186
2022-05-25
7180
CMCD 处理实时真实数据
CMCD(Common Media Client Data,通用媒体客户端数据)是连接用户播放器和内容分发的桥梁。CDN 每秒钟可以看见上百万个二进制信息的传递,在用户端,用户看见的是一个回放窗口里面存有最近几分钟的缓存数据可用于回放,我们想将这两种场景融合在一起,这是 CMCD 的关键点。CMCD 诞生于 Mile-High Video,我们在两年前的 Mile-High Video 会议上提议在用户请求中加入会话 ID,Dolby David 建议我们投入更多的精力将其变成一种标准。因此我们在会议结束后建立了一种原始的简单的标准,我们定义了一组结构化的键值对,将对双方都有益的媒体相关的信息从播放器传递到 CDN,通过以下三种形式:1)一组常规的头(A set of custom headers)。2)一个索引自变量(A query arg)。3)一个 JSON 对象。之所以称为常规是因为同样的数据结构可以被所有的播放器和所有的 CSDN 使用。
用户1324186
2022-05-25
1.4K0
[基础知识] 霍夫曼编码
1951 年,麻省理工学院的一名研究生 David Huffman 在 Robert Fano 的信息论课程上名列前茅。Fano 教授让学生们在期末考试和学期论文间做出选择,年轻的 Huffman 在一开始就选择了学期论文。论文的题目如图 1 所示,给定一组数字或符号,找到最有效的方法来使用二进制码表示它们。
用户1324186
2022-05-25
7720
JPEG NFT 和 Fake Media 工作组第 4 次会议
非同质化代币 (NFT) 和 Fake Media 都带来了若干技术、社会和法律挑战。JPEG 委员会在成像应用程序的安全性和信任方面有着重要的记录,因此发起了 JPEG NFT 和 JPEG Fake Media 探索研究。
用户1324186
2022-05-25
5540
W3C: 媒体制作 API (3)
来自 WebCodecs 的技术主管 Chris Cunningham 将首先介绍一些 WebCodecs 的 API,并会介绍一些关于视频编码器的设置。
用户1324186
2022-05-25
9910
W3C: 媒体制作 API (2)
今天,我想谈谈最近一个叫做 WebCodecs API 的API。特别是当在 web 平台上与其他 API 一起使用此 API 时的内存访问模式。我们将讨论访问视频帧时的一些原始性能数据,WebCodes 目前为最小化内存、访问开销所做的工作,以及 API 目前存在的一些问题,其中有一个解决方案,但尚未实现。更重要的是,我们将在未来解决两个更难的问题,这样使用 WebCodec 将具有与本地应用相同的性能。
用户1324186
2022-05-25
8790
W3C:开发专业媒体制作应用(6)
James Pearce 首先展示了基于 web 的视频编辑器。它遵循了编辑应用程序的普通的三窗口布局。在左上角有一个源视频查看器,用于加载视频源,然后将它们剪辑并添加到时间线中。在底部有一个时间轴,用以展示了各种轨迹,以及这些轨迹中的片段。在右上角有一个序列播放器,它可以播放正在构建的时间轴。最左边是所有视频源的列表,可以找到一个源,并将其加载到源查看器中,或者直接将其拖放到时间线中。
用户1324186
2022-05-24
8740
W3C: 开发专业媒体制作应用 (2)
演讲中主要介绍了 clipchamp 在使用 WebCodecs 方面的工作。clipchamp 是一个完全基于浏览器的视频编辑器,能够带来云服务的便捷性以及桌面应用级的响应速度。
用户1324186
2022-05-24
1.1K0
云视频传输中的记时与同步
时间感知的媒体处理链中,在视频内容的获取、处理、生产和消费等过程中,时间与同步是非常重要的。如下图所示,按照视频生产和传输的工作流程来说,其中的各个步骤都需要对时间信息进行记录或者处理。
用户1324186
2022-04-11
7760
ST2110 部署难点
随着高清化数字媒体的发展,以 SDI 为基础的传统技术架构已经难以满足发展需求,因此流媒体传输的 IP 化势在必行。但在标准硬件上实现 ST 2110 标准时,会带来以下几方面问题:
用户1324186
2022-04-11
1.5K0
使用 Puppeteer + canvas + WebCodecs 来代替 ffmpeg
Collin Miller 首先介绍了 Edit Decision List(EDL),这是一种古老的用于描述视频编辑的文本格式。如图所示,这里有三条记录,每一条都描述了从源胶带到目标胶带的时间段,以及使用哪个源。EDL 做的就是将源中所需的时间段,映射到输出上。
用户1324186
2022-04-11
2.5K0
低延迟体育中的内容感知播放
今天我们将谈论最近的一个低延迟直播的作品。一个有趣的事实是,在 1969 年,一个来自月球表面的直播被数亿人观看,他们的延迟大约是 3 秒,50 年后,超级碗也有数百万的流媒体播放,但在这种情况下延迟超过 45 秒。然而,在过去几年中,低延迟在实施和标准化方面取得了很多进展,因此我们的处境要比几年前好得多。低延迟的主要驱动因素之一就是现场体育赛事。
用户1324186
2022-04-11
2.7K0
基于 QUIC 的低延时视频
演讲者作为 Twitch 的工程师,主要负责降低视频观看延时方面的工作,从而使得视频观看过程中增加交互的可能。鉴于 WebRTC 能减低延时的特点,演讲者首先将现有的视频服务框架迁移到 WebRTC 上,但结果表明,尽管经过许多优化,WebRTC 依旧没有实现预期的目标,其原因是 WebRTC 的机制中不同的数据流存在不同的优先级,例如对话语音数据有较高的优先级,而视频观看体验却不是很好,经历了一年的努力,工程师团队放弃了利用 WebRTC 实现低延时目标的愿望。
用户1324186
2022-04-11
1.4K0
全息视频通话
全息通话,从本质上来说就是 3D 通话,这种通话方式相比传统的 2D 通话来说具有更强的真实性、沉浸性和自然性。目前,全息通话在 AR 中的实现更成熟,但其也可以通过 VR 、手机和笔记本电脑实现。在这篇演讲中,演讲者主要介绍了全息通话的宏观架构和实现时需要克服的技术挑战两个方面。
用户1324186
2022-04-11
1.1K0
FFmpeg 和自由软件社区的更新
FFmpeg 在各种场景下被用于各种处理。大多数在线视频生态依赖于 FFmpeg,许多开源、非开源应用使用 FFmpeg,FFmpeg 也用于许多云上的服务,比如编码、在线转码等。许多人围绕 FFmpeg 创建解决方案,因此 FFmpeg 是整个视频工业里的一个关键部分。很奇怪的是,大多数开发者不知道 FFmpeg 被如何使用,因为许多 FFmpeg 的用户并不与他人交流。FFmpeg 作为关键部分被应用在成百上千的应用中,但其核心社区成员缺只有几十个,并且他们不知道应用场景是什么。
用户1324186
2022-04-11
6360
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档