学习
实践
活动
专区
工具
TVP
写文章
专栏首页关键帧Keyframe音视频知识图谱 2022.06

音视频知识图谱 2022.06

前些时间,我在知识星球上创建了一个音视频技术社群:关键帧的音视频开发圈,在这里群友们会一起做一些打卡任务。比如:周期性地整理音视频相关的面试题,汇集一份音视频面试题集锦,你可以看看这个合集:音视频面试题集锦。再比如:循序渐进地归纳总结音视频技术知识,绘制一幅音视频知识图谱,你可以看看这个合集:音视频知识图谱

下面是 2022.06 月知识图谱新增的内容节选:

1)图谱路径:音频算法/3A

  • 回声消除(AEC,Acoustic Echo Cancelling)
    • 回声原因:在连麦场景,回声是经常发生的,是必须要解决的。一般产生回声的原因是近端的声音被自己的麦克风采集后通过网络传到远端,而远端扬声器播放出来的声音被麦克风采集后通过网络又重新发回近端,使得近端通话者能够从扬声器中听到自己的刚才说的话,产生回声。一般如果你听到的回声时间间隔在 1-2s,很可能就是这种情况。
    • 解决方案:通过自适应算法来调整滤波器的迭代更新系数(『自适应滤波器』),估计出一个『期望信号』,『逼近』经过实际回声路径的『回声信号』,也就是去模拟回声信号,然后从麦克风采集的混合信号中『减去』这个模拟回声,达到回声抵消的功能。
  • 自动增益(AGC,Automatic Gain Control)
    • AGC 可以自动调节音频采集的音量,优化采集到的声音音量忽大忽小的问题(通常是由于发言者与麦克风的距离改变或发言者声音变化导致)。
    • 在音视频实时通信中,AGC 在发送端作为均衡器和压限器调整推流音量,在接收端仅作为压限器防止混音之后播放的音频数据爆音,理论上推流端 AGC 做的足够鲁棒之后,拉流端仅作为压限器是足够的,有的厂家为了进一步减小混音之后不同人声的音量差异也会再做一次 AGC。
  • 噪声抑制(ANS,Automatic Noise Suppression)
    • ANS 可探测出背景固定频率的杂音并消除背景噪音(例如:风扇、空调声自动滤除),从而呈现出与会者清晰的声音。

2)图谱路径:音频算法/音频算法处理

  • 响度控制
    • 短时能量检测:将连续音频信号,按固定时间(如 10ms)分成一帧帧,计算短时能量。
    • 自动增益控制(AGC)
    • 动态范围处理(DRC)
    • 等响曲线
    • 限幅器(Limiter)
  • 变速不变调
    • WSOLA(Waveform Similarity Overlap-Add),波形相似叠加法,实现时间拉伸效果。在一定的范围内查找待『叠加』的音频帧,该音频帧要符合与原位置处音频帧『波形最相似』的条件,符合该条件的音频帧作为输出帧进行输出视频的合成。
  • 变调不变速
    • WSOLA + 重采样技术
  • K 歌打分
    • 用算法(比如 YIN)提取基频,跟原始频率比较。只能判断准不准,不能判断好不好听(音色相关,比较主观)。
  • 自动混响
    • 模拟反射。重复,延时,反射率。
  • 均衡器
    • 改变各频段的能量分布,听感上音色会有些变化。
  • 智能美声
    • 用原声音色数据替换变调后的音色数据,避免变调后的音色发生改变。
  • 身份识别
    • 训练一个模型(GE2E)提取与身份相关的音色特征数据。
  • 声音克隆
  • 无参考评价

3)图谱路径:渲染/全景视频/投影格式

  • ERP,Equi-Rectangular Projection,等距柱状投影。目前应用最为广泛的一种 VR 视频投影方式。最初是公元前 100 年古希腊航海家马里诺·迪·蒂洛为了绘制地图而发明的。
    • 投影方式:这种投影方式把地球的经线映射成间距相等的垂直线,把地球的纬线映射成间距相等的水平线,则可生成一幅横纵比为 2:1 的地图。在全景图像及视频中,等距柱状投影的实现思路是用相同数量的采样点保存每条纬线上的数据,从而得到对应的二维平面上的矩形视频。
    • 特点:这种投影方式映射关系简单,即使是投影后的二维平面视频也很直观,方便用户观察。但对球形视频每条纬线上都用相同数量的采样点,导致越靠近两极的纬线其冗余采样点数量就越多。例如在两极处,本来只需要一个采样点,但却用了和赤道处同样多的采样点,冗余数据量最大。这种方法增大了视频所占空间,给视频传输过程带来很大问题;像素密度分布极度不均匀的同时还引入了相当严重的图像拉伸,导致了非常高的失真。因为最终视频画质是由原始素材画质和拉伸后视频画质共同决定的,所以采用这种方法得到的视频画质较差。
  • EAP,Equal-area Projection,圆柱等面积投影。指的是 Cylindrical Equal-area Projection,是一系列的圆柱等面积投影。
    • 投影方式:这种投影方式将经线映射为等间隔的垂直线,纬线映射为水平线(非等间距)。可以想象为,将球面映射到一个圆柱面上并将圆柱面展开。
    • 特点:在全景视频中,连续投影主要为 ERP 和 EAP,很明显,他们两者主要区别于平面坐标 y 与球面坐标 φ 的映射关系。ERP 的纬线被投影为等间隔的水平线,而 EAP 不是,因为 EAP 保证了投影的等面积。但两者都存在拉伸问题,引入了较大的冗余。这种投影方式在赤道处无失真,即赤道为标准纬线,失真向两极迅速递增。像任何圆柱投影一样,远离赤道拉伸越严重。两极将一点拉伸为一条线,产生了无限的失真。
  • AEP,Adjusted Equal-area Projection。
    • 投影方式:Adjusted EAP 是在 JVET-G0051 会议上制定的针对 EAP 投影方式的改进,在 360Lib-4.0 版本中直接替代了原有的 EAP 方式。事实上,EAP 是 AEP 的在投影参数 β=1 时的一种特定情形。
    • 特点:在下图中,通过对比左图(a)与右图(b),可以看出在北半球的区域(房屋屋顶),AEP(β=1/1.4)的图形扭曲程度远远小于 EAP,进一步提高了 EAP 的投影质量。
  • ECP,Equatorial Cylindrical Projection,赤道圆柱投影。
    • 投影方式:赤道圆柱投影(ECP)和等距圆柱投影(ERP)的投影方式相同,同样是将地球的经线映射成间距相等的垂直线,把地球的纬线映射成间距相等的水平线,详情可见 ERP 投影方式。在 ECP 的投影方式中,将投影获得的ERP二维平面划分为6个面积相等的区域,划分及其效果图如下图 ECP-1 所示。默认情况下,下图中 ECP-2 显示的 3x2 布局格式为 ECP 的布局方式。编号为 0 和 1 的投影面分别跨度 30 纬度和 360 个经度值 360 经度,编号为 2、3、4、5 的投影面分别跨度 120 纬度和 90 经度。
    • 特点:赤道圆柱投影方式的效果图如下图 ECP-3 所示。ECP 的 3x2 框架中编号为 2、3、4、5 的投影面内的图像展示效果较好,他们显示的是球面赤道附近的曲面区域,若球面赤道附近的曲面为重要的图像区域,则使用 ECP 的投影方式十分合适,但是在编号为 0、1 的投影平面内,ECP 投影将 ERP 两极区域的平面进行了压缩与拉伸,使得平面分布不均匀,并且上下两个片面间存在一条不连续的直线。

下面是 2022.06 月的知识图谱新增内容快照(图片被平台压缩不够清晰,可以加文章后面微信索要清晰原图):

2022.06 知识图谱新增内容

文章分享自微信公众号:
关键帧Keyframe

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

作者:点击关注→
原始发表时间:2022-07-06
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 音视频知识图谱 2022.03

    关键帧
  • 音视频知识图谱 2022.05

    下面是 2022.05 月的知识图谱新增内容快照(图片被平台压缩不够清晰,可以加文章后面微信索要清晰原图):

    关键帧
  • 音视频知识图谱 2022.04

    前些时间,我在知识星球上创建了一个音视频技术社群:关键帧的音视频开发圈,在这里群友们会一起做一些打卡任务。比如:周期性地整理音视频相关的面试题,汇集一份音视频面...

    关键帧
  • 音视频知识图谱 2022.09

    前些时间,我在知识星球上创建了一个音视频技术社群:关键帧的音视频开发圈,在这里群友们会一起做一些打卡任务。比如:周期性地整理音视频相关的面试题,汇集一份音视频面...

    关键帧
  • 音视频知识图谱 2022.10

    前些时间,我在知识星球上创建了一个音视频技术社群:关键帧的音视频开发圈,在这里群友们会一起做一些打卡任务。比如:周期性地整理音视频相关的面试题,汇集一份音视频面...

    关键帧
  • 音视频技术图谱

    书籍有目录,知识也有脉络,有了框架和概念,对我们的工作和学习往往可以起到提纲挈领的作用。今日闲来无事,就来详细梳理一下多媒体开发的知识框架体系。希望能对各位有所...

    视界音你而不同
  • 音视频模块技术图谱

    专注音视频领域,我们要知道音视频领域有多少技术分支,确定好学习的方向,然后调整自己的学习节奏和学习方法,尽快掌握这些知识。

    马上就说
  • python知识推理知识图谱_知识图谱系列–知识推理

    本文接着知识图谱系列–实体链接技术(1)[1]介绍知识推理方法。知识推理就是通过各种方法获取新的知识或者结论,这些知识和结论满足语义,其具体任务可分为可满足性(...

    全栈程序员站长
  • 【知识图谱】知识推理[通俗易懂]

    示例:检测实例 Allen 是否在 Woman中? 即:检测 W o m a n ( A l l e n ) \mathrm{Woman(Allen)} Wom...

    全栈程序员站长
  • 【知识图谱】知识表示:知识图谱如何表示结构化的知识?

    互联网时代,人类在与自然和社会的交互中生产了异常庞大的数据,这些数据中包含了大量描述自然界和人类社会客观规律有用信息。如何将这些信息有效组织起来,进行结构化的存...

    用户1508658
  • 知识图谱基础知识

    一份很好的PPT多看看 看到12页,从14页开始讲语义网的合并 https://onedrive.live.com/view.aspx?resid=2AA09...

    陈黎栋
  • 知识图谱构建

    步骤如下: 1 实体识别NER(对专业实体进行分类标记,训练数据,从文中中实现自动抽取专业实体):https://www.jianshu.com/p/68b9...

    DC童生
  • 【知识图谱系列】动态时序知识图谱EvolveGCN

    EvolveGCN汇报ppt版可通过关注公众号后回复关键词:EvolveGCN 来获得,供学习者使用!

    Houye
  • 知识图谱入门 , 知识抽取

    知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。大体的任务分类与对应技术如下图所示:

    机器学习AI算法工程
  • 知识图谱入门 , 知识问答

    可以看出,整体进程由基于模板到信息检索到基于知识库的问答。基于信息检索的问答算法是基于关键词匹配+信息抽取、浅层语义分析。基于社区的问答依赖于网民贡献,问答过程...

    机器学习AI算法工程
  • 知识图谱(二)——知识推理

    知识推理是知识图谱中很重要的一部分,主要用于推理暗含的知识(丰富知识图谱),检查知识库的不一致(知识清洗)

    全栈程序员站长
  • 知识图谱扫盲

    近两年来,随着Linking Open Data等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万...

    大数据和云计算技术
  • Raft知识图谱

    一见
  • Python知识图谱

    武侠,是成人的童话。江湖,是门派的斗争。要想在江湖中闯出名号, 称手的兵器很有必要。数据科学已经开山立派,Python 便在其中独领风骚。

    博文视点Broadview

扫码关注腾讯云开发者

领取腾讯云代金券