首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

档案文件如何才能发挥更大的价值

一个企业的档案文件的类型是多种多样的,包括文本,图像,电子档,扫描件,音视频等等,怎么样才能让它们发挥更大的价值呢?...档案价值是什么 说到价值,我们最直接能类比的就是钱,钱的价值就是能用来交换自己所需要的产品或者服务,而要让钱发挥更大的作用,政府就要想办法让钱更快地流动起来,让钱能配置到更高效的地方,或者让钱能到更需要的人的手里...据此,所谓档案的价值实为档案的使用价值,就是档案这一客观存在物对人们所具有的实用性或有益性及有用程度。 (以上这段摘自百度百科) 简单说就是,档案及其属性要和人的需求相匹配,才能产生价值。...其实,任何一种实体的价值化,应该都是这样的。 怎么才能让档案发挥更大的价值 理解了什么是档案价值,那么怎么样才能发挥更大价值就好理解了。简单说就是: 更高效地把档案及其属性和更多有需要的人链接起来。...如果这几个问题能够被很好的解决,那么档案的流动就可以加快,也就能产生更多的价值。 提升链接数量 前面提到的技术其实也是有助于提升数量的,只是我觉得侧重点是效率,所以放到了前面。

39820

python求解中位数、均值、众数

大家好,又见面了,我是你们的朋友全栈君。...首先定义一个数据,在这里我假定为: num=[2,3,2,5,1,0,1,2,9] 一、求中位数 中位数(又称中值,英语:Median),统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值...对于一组有限个数的数据来说,其中位数是这样的一种数:这群数据的一半的数据比它大,而另外一半数据比它小。 计算有限个数的数据的中位数的方法是:把所有的同类数据按照大小的顺序排列。...为集中趋势的最常用测度值,目的是确定一组数据的均衡点。算术平均数(或简称平均数)是一组样本 的和除以样本的数量。...若是对称的单峰分布(例如正态分布),众数和平均数、中位数会重合[1]。若一随机变量是由对称的总体中产生,可以用取样的平均值来估计总体的众数。

2.8K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    为损失函数定个框架,码隆CVPR 2019提出图像检索新范式

    例如上图连着黑线的蓝色、红色样本点,它们就比同色的其它样本点重要,信息量更大,因为黄色样本点要是想与这两种样本分离,那就需要把这两个样本推开。...总体而言,第一步通过正相对相似性确定哪些是信息量大的样本对,然后第二步通过自相似性和负相对相似性为重要的样本对进一步赋不同的权重。...对于正相对相似性,我们可以度量在相同 anchor 下正样本和负样本对之间的相似性。具体而言,如果 anchor 与负样本的相似性比它与最不相似的正样本对还要大,那么该负样本就是重要的样本。...同理,如果 anchor 与正样本的相似性比它与最相似的负样本还要小,那么该正样本也含有重要信息。这两者加起来就是该 anchor 第一步选出的重要样本。...与上式类似,给正样本加权也由这两部分组成。 最后,作者将采样和加权策略结合起来,从而产生了 MS Loss 这种新型基于成对样本的损失函数。

    73030

    深度解析机器学习中的置信区间(附代码)

    置信区间是一种对估计不确定性的量化方法,它们可以用来在总体参数(例如平均值mean,就是从总体中的一个独立观测样本上估计而来)上添加一个界限或者可能性。...通常,得出估计的样本越大,估计就越精确,置信区间也越小(越好)。 更小的置信区间:更精确的估计 更大的置信区间:不太精确的估计 ? 也可以说,CI透露给我们估计的精确程度,而误差范围是精度的衡量标准。...回想一下,百分位数是从排序好的样本中抽取的观测值,其中有相应百分比的样本观测值比它小。例如,样本的70百分位表示70%的样本低于该值。50百分位数是分布的中位数。...假设我们有一个由均匀分布产生的数据集,其中包含1,000个观察值在0.5到1.0之间。...我们将把在bootstrap样本上计算的统计量作为总体平均值的估计。这很容易成为一个模型的评估。

    4.4K30

    一文详尽系列之模型评估指标

    时精确率影响力更大, 是召回率影响更大。 P-R、ROC、AUC 定义 P-R 曲线:横轴召回率,纵轴精确率。...我们可以看到不同召回率下模型 A 和模型 B 的精确率表现不同,所以如果只对某点来衡量模型的性能是非常片面的,而只有通过 P-R 曲线的整体表现才能够进行更为全面的评估。...相比 P-R 曲线来说,ROC 曲线有一个很大的特点:ROC 曲线的形状不会随着正负样本分布的变化而产生很大的变化,而 P-R 曲线会发生很大的变化。 ?...t 检验 也称学生检验,主要用于样本含量较小(例如 n总体标准差 σ 未知的正态分布。目的在于比较样本均数,所代表的未知总体均数 μ 和已知总体均数 μ 的比较。...适用条件: 已知一个总体均数; 可得到一个样本均数及该样本标准差; 样本来自正态或近似正态总体。

    1.7K11

    机器学习面试中最常考的树模型(附答案)

    (知乎) 其他问题 10、关于AUC的另一种解释:是挑选一个正样本和一个负样本,正样本排在负样本前面的概率?如何理解? 11、校招是集中时间刷题好,还是每天刷一点好呢?.... 6、随机森林的随机体现在哪些方面(贝壳、阿里) 随机森林的随机主要体现在两个方面:一个是建立每棵树时所选择的特征是随机选择的;二是生成每棵树的样本也是通过有放回抽样产生的。...7、AdaBoost是如何改变样本权重,GBDT分类树的基模型是?(贝壳) AdaBoost改变样本权重:增加分类错误的样本的权重,减小分类正确的样本的权重。...接下来整理一些最近群友提出的问题,我觉得有一些可能作为面试题,有一些是准备校招过程中的经验: 10、关于AUC的另一种解释:是挑选一个正样本和一个负样本,正样本排在负样本前面的概率?如何理解?...那么对每个负样本来说,有多少的正样本的score比它的score大呢?是不是就是当结果按照score排序,阈值恰好为该负样本score时的真正例率TPR?理解到这一层,二者等价的关系也就豁然开朗了。

    1.6K20

    【机器学习】一文详尽系列之模型评估指标

    时精确率影响力更大, 是召回率影响更大。 P-R、ROC、AUC 定义 P-R 曲线:横轴召回率,纵轴精确率。...我们可以看到不同召回率下模型 A 和模型 B 的精确率表现不同,所以如果只对某点来衡量模型的性能是非常片面的,而只有通过 P-R 曲线的整体表现才能够进行更为全面的评估。...相比 P-R 曲线来说,ROC 曲线有一个很大的特点:ROC 曲线的形状不会随着正负样本分布的变化而产生很大的变化,而 P-R 曲线会发生很大的变化。 ?...t 检验 也称学生检验,主要用于样本含量较小(例如 n总体标准差 σ 未知的正态分布。目的在于比较样本均数,所代表的未知总体均数 μ 和已知总体均数 μ 的比较。...适用条件: 已知一个总体均数; 可得到一个样本均数及该样本标准差; 样本来自正态或近似正态总体。

    72520

    【机器学习】一文详尽介绍模型评估指标

    时精确率影响力更大, 是召回率影响更大。 P-R、ROC、AUC 定义 P-R 曲线:横轴召回率,纵轴精确率。...我们可以看到不同召回率下模型 A 和模型 B 的精确率表现不同,所以如果只对某点来衡量模型的性能是非常片面的,而只有通过 P-R 曲线的整体表现才能够进行更为全面的评估。...相比 P-R 曲线来说,ROC 曲线有一个很大的特点:ROC 曲线的形状不会随着正负样本分布的变化而产生很大的变化,而 P-R 曲线会发生很大的变化。 ?...t 检验 也称学生检验,主要用于样本含量较小(例如 n总体标准差 σ 未知的正态分布。目的在于比较样本均数,所代表的未知总体均数 μ 和已知总体均数 μ 的比较。...适用条件: 已知一个总体均数; 可得到一个样本均数及该样本标准差; 样本来自正态或近似正态总体。

    6.7K11

    机器学习中的过拟合问题以及解决方案

    (我这里就假设总体数据分布满足一个线性模型y = kx+b,现实中肯定不会这么简单,数据量也不会这么少,至少也是多少亿级别,但是不影响解释。...那么我拿着这个有噪声训练的模型,在训练集合上通过不断训练,可以做到损失函数值为0,但是拿着这个模型,到真实总体数据分布中(满足线性模型)去泛化,效果会非常差,因为你拿着一个非线性模型去预测线性模型的真实分布...三、训练数据不足,有限的训练数据 当我们训练数据不足的时候,即使得到的训练数据没有噪声,训练出来的模型也可能产生过拟合现象,解释如下: 假设我们的总体数据分布如下: ?...那么我拿着这个有噪声训练的模型,在训练集合上通过不断训练,可以做到损失函数值为0,但是拿着这个模型,到真实总体数据分布中(满足线性模型)去泛化,效果会非常差,因为你拿着一个非线性模型去预测线性模型的真实分布...那么由这个训练数据,我得到的模型是一个线性模型,通过训练较多的次数,我可以得到在训练数据使得损失函数为0的线性模型,拿这个模型我去泛化真实的总体分布数据(实际上是满足二次函数模型),很显然,泛化能力是非常差的

    2.5K20

    Nature子刊:最先进的人工神经网络离人类水平还有多远?

    如果一个网络有太多的自由参数,那么网络就有“过拟合”数据的风险,也就是说,它会在一组带标签的训练样本上生成正确的响应,但不能推广到新的样本上。...具有更大灵活性的网络更强大,但是,如果没有足够的训练数据,网络对新的测试实例所做的预测可能是非常不正确的——比一个更简单、功能更弱的网络的预测要糟糕得多。...动物的学习和天生行为 因此,一个核心问题是,没有大量监督训练数据集的情况下,动物如何在出生后如此迅速地运作。...实际上,这种假设算法所面临的挑战甚至比它看起来还要大。 人类是一个outlier:我们花在学习上的时间可能比其他任何动物都多,因为我们有一个长期的不成熟期。...从某种程度上说,飞机远比鸟类优越:它能在更高的高度、更长的距离、更大的载货能力下飞行得更快。但是飞机不能潜入水中捕鱼,也不能从树上无声地俯冲下来抓老鼠。

    56720

    【DL碎片5】一只蚊子告诉你,什么是正则化(Regularization)

    而②呢,虽然它的验证集误差更大,但是相比它的训练集误差,基本没太大变化,因此它不能叫low variance。所以,说白了,variance是指你的验证集和你训练集的效果的差别,而不是某个绝对的值。...二、如何解决bias和variance的问题 如果你的模型训练结果是high bias,我们一般用以下几种方法来改进: 尝试使用更复杂更大的网络结构(增加单元数、增加层数,或者更改结构) 训练更长的时间...所以模型无论如何学习你的训练集,也无法很好地预测验证集的数据,因此我们应该收集更多的数据,学习更多的特征。...w的平方和,再乘以λ/2m,m是样本量。...参数更小,对于模型来说,就意味着更加简单,于是我们的目的就达到了。 其他的正则化方法: 除了加一个惩罚项,其实正则化还有多种多样的方法,但是总体的思想史一样的,就是想办法使得我们的模型不要那么复杂。

    64020

    机器学习 | 模型评估和选择

    3300 平方英尺给出那么离谱的价格),而二次多项式拟合的结果看起来比它们都好。...重要概念 3.1 总体 (population) 和样本 (sample) 在统计中,把研究对象的全体称为总体,而把组成总体的各个元素称为个体,把从总体中抽取的若干个体称为样本。...我们计算样本里的男性平均身高作为总体里的所有男性平均身高的推理 (inference)。 ? 弄清楚总体和样本的概念之后,我们来看看误差和残差。 3.2....当我们做统计调查时都是用的样本 (通常不可能用总体的,除非总体里面的元素不多),样本均值可以作为总体均值的良好估计量,然后我们有: 样本中每个男性的身高和不可观察的总体均值之间的差异叫误差。...在训练,测试,处理和预测速度方面,一些算法和模型类型需要更多的时间,并且需要比其他算法和存储器更大的计算能力和内存。

    1.3K50

    带答案面经分享-面试中最常考的树模型!

    (知乎) 其他问题: 10、关于AUC的另一种解释:是挑选一个正样本和一个负样本,正样本排在负样本前面的概率?如何理解? 11、校招是集中时间刷题好,还是每天刷一点好呢?.... 6、随机森林的随机体现在哪些方面(贝壳、阿里) 随机森林的随机主要体现在两个方面:一个是建立每棵树时所选择的特征是随机选择的;二是生成每棵树的样本也是通过有放回抽样产生的。...7、AdaBoost是如何改变样本权重,GBDT分类树的基模型是?(贝壳) AdaBoost改变样本权重:增加分类错误的样本的权重,减小分类正确的样本的权重。...接下来整理一些最近群友提出的问题,我觉得有一些可能作为面试题,有一些是准备校招过程中的经验: 10、关于AUC的另一种解释:是挑选一个正样本和一个负样本,正样本排在负样本前面的概率?如何理解?...那么对每个负样本来说,有多少的正样本的score比它的score大呢?是不是就是当结果按照score排序,阈值恰好为该负样本score时的真正例率TPR?理解到这一层,二者等价的关系也就豁然开朗了。

    2.3K41

    干货 | 深度学习中不均衡数据集的处理

    AI 科技评论按:在深度学习中,数据是非常重要的。但是我们拿到的数据往往可能由大部分无关数据和少部分我们所关心的数据组成。那么,如何对这些数据集进行处理,才能得到我们所需要结果呢?...在这个例子中,我们绝对需要产生购买行为的少数类的数据非常精确,而那些不产生购买行为的类的数据,就没什么大不了的。...如果其中一个类的样本明显多于另一个类,我们也可以使用这种方法进行平衡。我们可以尝试使用权重平衡法来使所有的类都对我们的损失函数产生一样大的影响,而不必花费时间和资源去收集更多的少数类实例。...当存在其他更具挑战性的数据点时,如果正确分类,那么这些数据点能够对我们的总体准确性做出更大的贡献,为什么我们仍然给予它们相同的权重? ? 这正是焦距损失法可以解决的问题!...在存在数据不平衡的实际环境中,大多数类将很快被很好地分类,因为我们有更多的训练样本数据。因此,为了保证我们对少数类的训练也达到较高的准确度,我们可以利用焦距损失在训练中给那些少数类更大的相对权重。

    1K40

    AB试验(二)统计基础

    因此一个用户下载情况只存在发生与不发生两种情况,符合二项分布 通过一个月的数据观察,发现每分钟平均有10个人会看到广告,平均下载率10% 如何理解二项分布中的样本量30 1....所以,我们现在要提高这个样本量,才能使下载率的分布趋近正态分布。 2. 简单的进行样本量提高,可以考虑计算每小时的下载率,因为每小时平均有600人看到广告,样本量也就从10提高到了600。...,去验证在A/B测试中我们提出的假设是否正确 假设:零假设与备则假设 检验 从假设角度区分:单尾检验与双尾检验 经验结论:A/B试验更推荐使用双尾检验 双尾检验可以让数据自身在决策中发挥更大的作用...t检验,概率类指标一般用Z检验(比例检验) 样本量大的情况下均值类指标是正态分布,正态分布的总体方差的计算需要知道总体中各个数据的值,这在现实中几乎做不到,因为我们能获取的只是样本数据。...所以总体方差不可知,选用t检验 概率类指标是二项分布,二项分布总体方差可以通过样本数据求得总体方差。而且现实中A/B测试的样本量一般都远大于30,所以选用Z检验。

    72420

    《机器学习》-- 第二章:模型评估与选择

    (假设测试样本独立同分布)我们知道一个 ? 个样例的数据集 ? ,我们要对这个数据集既要训练又要测试,那么如何产生训练集 ? 和测试集 ? 是我们要面对的问题。 ?...就好比它真是一个西瓜,按甜度将其分为七块,采样时每一块都要按照相同的所占比例去采。这七类数据集的测试集与训练集的比值应是相等的。 ?...小,这必然会引入一些因样本规模不同而导致的估计偏差。那么如何做到较少训练样本规模不同造成的影响,同时还高效地进行实验估计呢? 自助法 bootstrapping:对有 ? 个样本的数据集 ?...优点:训练集与数据集规模一致;数据集小、难以有效划分训练/测试集时效果显著;能产生多个不同的训练集; 缺点:改变了训练集的样本分布,引入估计偏差。...时 recall 有更大影响,反之,precision 有更大影响。

    95130

    EM算法学习(三)

    ,现在我们知道EM算法对于缺失数据是非常有利的,现在我们用EM算法来求: 假设协方差矩阵 估计未知参数: 首先以u=[2,4]为例产生二元正态分布随机数,并将产生的随机数扣掉一部分数据,将扣掉的这一部分数据当成未知的缺失数据...则当y(i)=k时,表示第i个样本观测值x(i)是由高斯混合分布的第k个分支产生的。因此,引入变量y后,对数似然函数可以改写成为: 改写似然函数之后,我们就可以考虑用EM算法来对模型进行参数估计。...,但是计算还是太复杂,更有意思的是如何巧妙地拓展参数空间进行加速收敛.还有在高斯混合模型研究中,本文是因为事先知道GMM分支的数量来 进行估计的,但是如果给的是一堆杂乱的数据,需要解决如何确定分支的问题...,才能更好的拟合样本,这是一个有待考虑的问题 .最后还有EM算法在其他模型中的应用,在其他方向的应用,如不止可以用来进行参数估计,还 可以进行假设检验等。...,EM算法会得到更大的推广和改进,这些问题也都会逐步得到解决。

    1.6K80

    概率论--矩估计

    其基本思想是利用样本矩来估计总体矩,即用样本的统计量代替总体的相应统计量进行估计。 矩估计法的基本步骤 推导总体矩:首先,需要根据总体分布推导出涉及感兴趣参数的总体矩。...延伸 矩估计法在大样本情况下的准确性和有效性如何评估? 矩估计法在大样本情况下的准确性和有效性可以通过以下几个方面进行评估: 大样本性质:矩估计在大样本情况下通常表现出较好的性质。...如何处理矩估计法在某些情况下可能出现的不合理解或无法唯一确定参数的问题?...对总体分布的依赖性差:矩估计只涉及总体的一些数字特征,并未用到总体的分布,因此在体现总体分布特征上往往性质较差,只有在样本容量较大时才能保障其优良性。...此外,对于罕见事件或偏态分布的情况,通常需要更大的样本量才能获得可靠的估计。

    27910

    干货 | 深度学习中不均衡数据集的处理

    那么,如何对这些数据集进行处理,才能得到我们所需要结果呢?工程师 George Seif 认为,可以通过权重平衡法和采样法来解决这个问题。 ?...在这个例子中,我们绝对需要产生购买行为的少数类的数据非常精确,而那些不产生购买行为的类的数据,就没什么大不了的。...如果其中一个类的样本明显多于另一个类,我们也可以使用这种方法进行平衡。我们可以尝试使用权重平衡法来使所有的类都对我们的损失函数产生一样大的影响,而不必花费时间和资源去收集更多的少数类实例。...当存在其他更具挑战性的数据点时,如果正确分类,那么这些数据点能够对我们的总体准确性做出更大的贡献,为什么我们仍然给予它们相同的权重? ? 这正是焦距损失法可以解决的问题!...在存在数据不平衡的实际环境中,大多数类将很快被很好地分类,因为我们有更多的训练样本数据。因此,为了保证我们对少数类的训练也达到较高的准确度,我们可以利用焦距损失在训练中给那些少数类更大的相对权重。

    1.9K10
    领券