首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

音视频八股文(1)--音视频基础

模糊的视频文件大小(码率)也可以很大,分辨率小的视频文件可能也比分辨率大的视频文件清晰。...(macro-pixel) ◼ 平面(planar)格式:使用三个数组分开连续的存放Y、U、V三个分量,即Y、U、V分别存放在各自的数组中。...# 1.4.视频的主要概念 ## 1.4.1 概念 视频码率:kb/s,是指视频文件在单位时间内使用的数据流量,也叫码流率。码率越大,说明单位时间内取样率越大,数据流精度就越高。...B 帧(Bi-directional predicted frames):B 帧图像采用双向时间预测,可以大大提高压缩倍数。...物体的振动使其四周空气的压强产生变化,这种忽强忽弱变化波的形式向四周传播,当被人耳所接收时,我们就听见了声音。

68720

音视频八股文(1)--音视频基础

模糊的视频文件大小(码率)也可以很大,分辨率小的视频文件可能也比分辨率大的视频文件清晰。...(macro-pixel)◼ 平面(planar)格式:使用三个数组分开连续的存放Y、U、V三个分量,即Y、U、V分别存放在各自的数组中。...图片1.4.视频的主要概念1.4.1 概念视频码率:kb/s,是指视频文件在单位时间内使用的数据流量,也叫码流率。码率越大,说明单位时间内取样率越大,数据流精度就越高。...B 帧(Bi-directional predicted frames):B 帧图像采用双向时间预测,可以大大提高压缩倍数。...物体的振动使其四周空气的压强产生变化,这种忽强忽弱变化波的形式向四周传播,当被人耳所接收时,我们就听见了声音。

62302
您找到你想要的搜索结果了吗?
是的
没有找到

BERT, RoBERTa, DistilBERT, XLNet的用法对比

虽然BERT在几项任务中的表现都优于NLP领域沿用过的最先进的技术,其性能的提高主要还是归功于双向transformer、掩蔽语言模型对任务的训练以及结构预测功能,还包括大量的数据和谷歌的计算能力。...XLNet和RoBERTa改善了性能,而DistilBERT提高了推理速度。下表对它们进行了比较: ?...另一方面,为了减少BERT或相关模型的计算(训练,预测)时间,理应选择使用较小的网络达到相似的性能。其实有许多方法可以做到这一点,包括剪枝,蒸馏和量化,然而,所有这些都会导致预测指标更低。...DistilBERT学习了BERT的蒸馏(近似)版本,保留了95%的性能,使用了一半的参数。 具体来说,它没有标记类型和池化层的嵌入,只保留了谷歌BERT中一半的层。...如何使用 如果你真的需要推理速度快一点,可以接受代价是预测精度稍微下降那么一些的话,那么DistilBERT会是一个合适的选择,但是,如果你还在寻找最佳的预测性能,你最好使用Facebook的RoBERTa

1.1K20

MG-BERT:利用无监督原子表示学习来预测分子性质

此外,本文提出了一种有效的自监督学习策略,即掩蔽原子预测,对MG-BERT模型进行预处理,挖掘分子中的上下文信息。...这种上下文信息可以适合被下游任务使用,并大大提高其预测性能。受BERT模型的启发,有研究者提出了SMILES -BERT模型,他们将BERT模型直接应用于SMILES字符串。...所提出的MG-BERT模型能够克服一般GNN所面临的平滑问题,并为分子表达的生成提供了足够的深度特征提取能力。作者进一步提出了掩蔽原子预测预训练作为自动挖掘分子上下文信息的有效策略。...MLM是一个填空任务,其中一个模型使用上下文词包围一个掩码标记来预测掩码词应该是什么。NSP任务是确定两个句子是否连续。由于分子缺乏像句子这样的持续关系,作者只使用掩蔽原子预测任务来预训练模型。...在此之后,随机选择某些原子根据预训练策略来进行掩蔽。最后,将分子图发送给MG-BERT模型,预测原子的类型。对于一些只有几个原子的分子,作者保证至少有一个原子被选择用于掩蔽

1.2K50

南理工&上海AI Lab提出Uniform Masking,为基于金字塔结构的视觉Transformer进行MAE预训练!

作者证明了,UM-MAE显著提高了预训练的效率,在下游任务中保持有竞争力甚至更好的微调性能。...与完全丢弃屏蔽patch的US阶段不同,SM通过使用共享屏蔽token来保持屏蔽patch,确保基于金字塔的VIT与位置的兼容性。...执行提出的统一掩蔽获得紧凑的、重新组织的2D输入(包括可见patch和掩蔽token)。它以缩小的比例(即全部patch的25%)作为编码器的输入。每个掩码token是一个共享的、学习到的嵌入向量。...上表报告了大模型的Top-1精度,表明本文的UM-MAE在大型模型上保持了竞争力。...与现有备选方案SimMIM相比,UM-MAE显著提高了基于金字塔的VIT在内存和运行时方面的预训练效率,保持了具有竞争力的微调性能。

50410

Facebook AI | 从数百万预测结构中学习逆向折叠

GVP和GVP-GNN参考如下论文: GVP结构旨在通过提高生物分子结构的几何推理能力,结合CNN和GNN方法在学习生物分子结构方面的优势。...然而,这种表示法的关键挑战是,在保持标量表示法提供的旋转不变性的同时,一种同时保留原始GNN的全部表达能力的方式执行图传播。...使用预测结构训练的最佳模型(GVP Transformer)比仅使用CATH训练的最佳模型(GVP-GNN)提高了8.9个百分点的序列恢复率。...GVP-GNN体系结构掩蔽区域超过几个tokns时退化为背景分布的Perplexity,而GVP Transformer在长掩蔽跨度上保持中等精度,尤其是在对遮罩跨度的数据集上进行训练时。...通过将主干跨距掩蔽集成到反向折叠任务中,并使用序列到序列转换器,可以为短掩蔽跨距实现合理的序列预测。

55920

手把手教你用 TensorFlow 实现文本分类(下)

正则化,改善拟合 观察模型对训练集的拟合程度到90%+,而通过上步对训练数据的准确率为76%,一定程度上出现了拟合的现象,这里在原有cost function中上加入正则项,希望减轻拟合的现象。...这里使用L2正则。连同上步部分的代码如下: #!...该部分准确率有所提高影响不大。 调整网络参数 该部分主要根据严重集和测试集的表现不断调整网路参数,包括学习率、网路层数、每层节点个数、正则损失、迭代次数、batch大小等。...小结 对神经网路进行初步优化,由原来的65%的准确率提高到80%,主要的提高在于训练数据的随机化,以及网络结构的调整。为提升训练速度,同时减少内存消耗,对数据进行了降维操作。...后面会结合tensorflow的使用技巧对训练进行进一步优化。

73140

陈丹琦组掩蔽语言模型研究引争议:15%掩蔽率不是最佳,40%站得住脚吗?

掩蔽语言模型通常使用15%的掩蔽率,因为大家发现,更高的掩蔽率将不能提供足够的上下文来学习良好的表示,而更低的掩蔽率将大幅提高训练成本。...陈丹琦等人却发现,如果将掩蔽提高到40%,性能可以超过15%的基线;如果提高到80%,大部分性能仍能得以保留,这是在下游任务上进行微调测得的结果。...何恺明等人在其论文中展望了预训练大模型在CV领域的前景,而在NLP领域里,人们训练算法通常使用的遮蔽比例是15%。在陈丹琦的新研究中,这一数字被显著提高了。...当 15% 的掩蔽率进行评估时,这些方法被证明优于简单的均匀掩蔽(uniform masking),均匀掩蔽在其各自的最佳掩蔽率下与复杂的掩蔽基线相比具有竞争力。...40%的掩蔽作为基线,分离m_corr和m_pred,并分别对它们进行操作。趋势是明确的:更高的预测率是有益的,更高的损坏率是有害的。 图3:掩蔽率对不同大小的模型的影响。

21720

陈丹琦组掩蔽语言模型研究引争议:15%掩蔽率不是最佳,40%站得住脚吗?

掩蔽语言模型通常使用15%的掩蔽率,因为大家发现,更高的掩蔽率将不能提供足够的上下文来学习良好的表示,而更低的掩蔽率将大幅提高训练成本。...陈丹琦等人却发现,如果将掩蔽提高到40%,性能可以超过15%的基线;如果提高到80%,大部分性能仍能得以保留,这是在下游任务上进行微调测得的结果。...何恺明等人在其论文中展望了预训练大模型在CV领域的前景,而在NLP领域里,人们训练算法通常使用的遮蔽比例是15%。在陈丹琦的新研究中,这一数字被显著提高了。...当 15% 的掩蔽率进行评估时,这些方法被证明优于简单的均匀掩蔽(uniform masking),均匀掩蔽在其各自的最佳掩蔽率下与复杂的掩蔽基线相比具有竞争力。...40%的掩蔽作为基线,分离m_corr和m_pred,并分别对它们进行操作。趋势是明确的:更高的预测率是有益的,更高的损坏率是有害的。 图3:掩蔽率对不同大小的模型的影响。

26620

利用mAP评估目标检测模型

我们也使用 Scikit-learn 库来计算这些指标。现在我们将扩展讨论了解如何使用精度和召回率来计算 mAP。 1....★ 当一个模型的召回率高精度低时,该模型会正确分类大部分正样本,但它有很多误报(即将许多负样本分类为正样本)。...当模型具有高精度召回率低时,模型将样本分类为正样本时是准确的,但它可能仅对部分正样本进行分类。 ” 由于精度和召回率的重要性,精度-召回率曲线显示了不同阈值的精度和召回率值之间的权衡。...使用上图图形方式确定精度和召回率的最佳值可能有效,因为曲线并不复杂。更好的方法是使用称为 f1 分数的指标,它是根据下一个等式计算的。 f1 指标衡量准确率和召回率之间的平衡。...精度列表也是如此,附加了 1 而不是 0(例如 0.8、0.2、1.00.8、0.2、1.0)。 鉴于召回率和精度都是 NumPy 数组,前面的等式根据下面 Python 代码建模。

92620

利用mAP评估目标检测模型

我们也使用 Scikit-learn 库来计算这些指标。现在我们将扩展讨论了解如何使用精度和召回率来计算 mAP。1. 从预测分数到类别标签在本节中,我们将快速回顾一下如何从预测分数中派生出类标签。...当一个模型的召回率高精度低时,该模型会正确分类大部分正样本,但它有很多误报(即将许多负样本分类为正样本)。...当模型具有高精度召回率低时,模型将样本分类为正样本时是准确的,但它可能仅对部分正样本进行分类。由于精度和召回率的重要性,精度-召回率曲线显示了不同阈值的精度和召回率值之间的权衡。...使用上图图形方式确定精度和召回率的最佳值可能有效,因为曲线并不复杂。更好的方法是使用称为 f1 分数的指标,它是根据下一个等式计算的。图片f1 指标衡量准确率和召回率之间的平衡。...精度列表也是如此,附加了 1 而不是 0(例如 0.8、0.2、1.00.8、0.2、1.0)。鉴于召回率和精度都是 NumPy 数组,前面的等式根据下面 Python 代码建模。

76340

语音信号处理习题

1.如何取样精确地抽取人类发信的主要特征, 2.寻求什么样的网络特征综合声道的频率响应, 3.输出合成声 音的质量如何保证。 4、语音压缩技术有哪些国际标准?...语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题 6 分,共 30 分) 1、简述如何利用听觉掩蔽效应。...在掩蔽情况下,提高掩蔽弱音的强度,使人耳能够听见时的闻阈称为掩蔽闻阈 (或称掩蔽门限 ),被掩蔽弱音必须提高的分贝值称为掩蔽量 (或称阈移 )。 2、简述时间窗长与频率分辨率的关系。...采样周期 Ts=1/fs、窗口长度 N 和频率分辨率△ f 之间存在下列关系:△ f = 1 / (N*Ts) 可见,采样周期一定时,△ f 随窗口宽度 N 的增加而减少,即频率分辨率相应得到提高同时时间分辨率降低...P(35-41) 短时能量及短时平均幅度分析、短时零率分析、短时相关分析、短时平均幅度差函数基音检测中的应用:基音检测的提取。 4、简述语音信号的频谱和功率谱的作用。

70430

NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器

(2)为了解决掩蔽视频建模中的信息泄漏问题,提出了一种具有极高比率的管道掩蔽策略,带来了性能的提高。...然后,token的部分子集掩蔽比被随机掩蔽,并且只有剩余的token被馈送到编码器。最后,用解码器处理来自编码器的可见token和可学习的掩蔽token之上,重建图像。...VideoMAE将时序下采样的帧作为输入,使用前面提到的高比率管道掩蔽设计,在非对称编码器结构中执行MAE预训练。...而使用在ImageNet-21K和Kinetics-400上预训练的模型可以进一步将准确率提高到65.2%。...模型性能对比 先前很多工作对视频自监督预训练进行了广泛的研究,这些方法主要使用卷积神经网络作为主干网络,很少有方法去研究基于ViT的训练机制。

11710

VideoMAE:南大MCG&腾讯AI Lab 提出第一个视频版MAE框架,使用90%甚至95%遮挡,性能SOTA!

VideoMAE在非常小的数据集(即大约3k-4k视频)上取得了非常好的结果,而无需使用任何额外数据。这部分归因于视频重建的挑战性任务,加强高级结构学习。...首先,由于时间冗余,作者使用极高的掩蔽率从下采样片段中删除掩蔽立方体。这种简单的策略不仅有效地提高了预训练性能,而且由于采用了非对称的编解码结构,大大降低了计算成本。...然后,掩蔽率(75%)随机掩蔽token子集,并且仅剩下的token被馈入Transformer编码器 图片 。...作者将不同的掩蔽策略与75%的tube掩蔽进行了比较。如上表所示,普通随机掩蔽和帧掩蔽实现的性能低于tube掩蔽。当掩蔽率增加到90%时,性能从67.3%提高到69.3%。...使用在ImageNet-21K和Kinetics上预训练的模型,可进一步将精确度提高到64.8%。

67910

LeCun领导下的Meta AI,押注自监督

他指出,这样的模型将允许我们将这些知识片段结合起来,解决新问题,进行反事实模拟,或研究可能的未来。...他们那个由两部分组成的 MAE 系统首先使用一个编码器,通过训练数据集学习像素之间的关系,然后一个解码器尽最大努力从掩蔽图像中重建原始图像。...全力赴地学习海量的未经筛选的数据集可能是 Meta 提高 SSL 结果的策略,但也是一个越来越有争议的方法。...这些实验中使用的视频片段只有几秒钟, Feichtenhofer 表示,用较长的视频训练人工智能系统是一个非常活跃的研究课题。...批评人士指出,尽管在研究方面如此开放, Meta 还没有把它的核心商业算法开放出来供大家研究,即那些控制新闻推送、推荐和广告植入的算法。

24930

【Nature communications】四篇好文简读-专题10

cryo-EM density maps using deep convolutional neural networks 摘要 低温电子显微镜 (cryo-EM) 已成为蛋白质结构测定的主要方法,使用低温电子显微镜密度图准确模拟原子结构仍然具有挑战性...详细数据分析表明,CR-I-TASSER 的主要优势在于基于深度学习的 Cα 位置预测,可显着提高线程模板质量,从而通过优化的片段组装模拟提高最终模型的准确性。...这些结果证明了一种新的途径来确定冷冻电镜蛋白质结构,具有高精度和鲁棒性,涵盖各种目标类型和密度图分辨率。...作者引入了一个掩蔽图模型,该模型通过捕捉观察到的节点(原子)和边(键)上的条件分布来学习图上的分布。作者通过迭代掩蔽和替换初始化的图的不同部分来训练模型,然后对模型进行采样。...作者使用GuacaMol分布学习基准来评估我们在QM9和ChEMBL数据集上的方法。

37720

视频压缩编码和音频压缩编码的基本原理

通常使用变换编码来消去除图像的帧内冗余,用运动估计和运动补偿来去除图像的帧间冗余,用熵编码来进一步提高压缩的效率。下文简单介绍这三种压缩编码方法。...其中游程编码是一种十分简单的压缩方法,它的压缩效率不高,编码、解码速度快,仍被得到广泛的应用,特别在变换编码之后使用游程编码,有很好的效果。...通过这种变长编码,进一步提高编码的效率。...当有另外能量较大的声音出现的时候,该声音频率附近的阈值会提高很多,即所谓的掩蔽效应。如图所示: ?...(2)  压缩编码方法 当前数字音频编码领域存在着不同的编码方案和实现方式, 基本的编码思路大同小异, 如图所示。 ?

1.5K20

清华朱军团队包揽三项冠军 | NIPS 2017对抗样本攻防竞赛总结(附学习资料)

所提出的预处理有很多方法,比如进行 JPEG 压缩,或者使用中值滤波和降低输入数据的精度。...一些防御策略(比如将平滑的 sigmoid 单元替换为硬阈值)被直接设计为执行掩蔽掩盖,其他的一些防御措施,如很多形式的对抗训练,并没有梯度掩蔽作为目标设计,但是在实践中实际做的也是与梯度掩蔽类似的工作...这个思路是在训练过程中就加入对抗样本,使用对抗样本和干净样本混合训练模型。该方法已经成功应用于大型数据集,并且可以通过使用离散向量码来表示输入,进一步提高有效性。...FGSM 方法攻击,同时结合了随机扰动和增强提高鲁棒性和可迁移性。...此外,该队还使用了图像增强提高鲁棒性和可迁移性。

1.1K51
领券