首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据分析从零开始实战 (六)

4.数据转换工具OpenRefine进阶使用 二、开始动手动脑 1、数据转换工具OpenRefine介绍 OpenRefine是一个数据转换工具(IDTS),Metaweb公司2009年发布的一个开源软件...文本facet可以让你快速地对数据集中文本列的分布有一个感觉,也就是了解文本数据在一些维度上的信息。...我们仔细观察显示结果会发现,有很多其实是一个城市,只是所处州邮政编码不同导致统计的时候误认为是两个城市了,所以我们在统计数据前需要处理一下数据。 ?...用一句GREL表达式处理数据,提取出city_state_zip中的城市名。 '''表达式解析''' value.match("(.*?) CA.*?")...(5)OpenRefine 快速去除空白、缺失数据 如何去除这些分布在数据中的空白行呢? 我们可以创建一个空白数值过滤器。

1.7K20

只需4步,微软数据科学家教你用OpenRefine搞定数据清洗

再次,city_state_zip列,顾名思义,是市、州、邮编的混合体。我们还是希望拆分它们,在下文“用正则表达式与GREL清理数据”中,我们将看到如何提取这些信息。...在打开的窗口中,使用GREL转换日期: ? 这里的value变量代表选中列(sale_date)中每个单元格的值。...准备 要学习本技巧,你需要在计算机上装好OpenRefine以及一个浏览器。至于如何安装OpenRefine,参阅本文01部分的准备部分。...文本facet可以让你快速地对数据集中文本列的分布有一个感觉。比如,我们可以找到数据集中,2008年5月15日到5月21日之间销售额最高的是哪个城市。.../之间。我们一步步解释这个正则表达式。 我们知道city_state_zip列的模式:首先是城市名(可能不止一个词),然后是州名的两字母缩写,最后是5位数字的邮编。

4.9K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据导入与预处理-第7章-数据清理工具OpenRefine

    ,对于编程能力薄弱的用户而言是一个不错选择。...操作列 常见的操作包括 收起列、 移动列和重排列、 移除该列和移除列、 重命名列 收起列 收起该列后,会出现一个空白列,单击空白列即可恢复name2列 移动列和重排列 OpenRefine...右移后 重排/移动列 选择重拍/移除列后如下 窗口左侧按顺序显示了所有列的标题,大家可通过拖曳列标题至相应的位置来重排列。...重新定义列标题 如果列标题不能清晰明了地传递该列数据所代表的含义,可通过重命名列来重新定义列标题。...数据归类 数据归类是OpenRefine工具中常见的功能之一,它主要用于从数据中获得一个变化的子集,方便用户从多个角度查看数据,并且不会改变数据本身。

    78110

    9.7K Star开源一款用于清洗数据的桌面工具,拥有查询,过滤,去重,分析等功能,跨平台哦

    软件介绍 OpenRefine(以前称为Google Refine)是一个免费和开源的数据清洗和转换工具。它提供了一种简单而强大的方式来规范、清理和转换杂乱、不规范的数据集。...功能特点 1.数据清洗和规范化: OpenRefine允许用户通过一系列简单的操作步骤来清洗和规范化数据。用户可以消除重复值、填充缺失的数据、删除空格和修复拼写错误等。...2.数据转换和整合: OpenRefine提供了各种转换和整合数据的功能。它可以根据特定的规则或模式将数据拆分成多个列,合并多个列,提取特定的子字符串,并将数据转换为其他格式。...3.数据探索和筛选: 该软件还支持强大的数据探索和筛选功能。用户可以使用过滤器来快速查找和筛选数据,根据自定义条件进行逻辑查询,并根据某些列的值对数据进行排序和分组。...2.导入数据: 打开OpenRefine并导入要处理的数据。可以从文件或URL导入数据,也可以直接将数据粘贴到OpenRefine的界面中。

    92930

    干货:4个小技巧助你搞定缺失、混乱的数据(附实例代码)

    原理 要规范化数据,即让每个值都落在0和1之间,我们减去数据的最小值,并除以样本的范围。统计学上的范围指的是最大值与最小值的差。...想了解更多,可访问: http://www.numpy.org .digitize(...)方法对指定列中的每个值,都返回所属的容器索引。第一个参数是要分级的列,第二个参数是容器的数组。...(0到1之间的)数字,来表明要返回的分位数(例如,0.5是中位数,0.25和0.75是上下四分位数)。...要使用它们,我们要先进行编码,也就是给它们一个唯一的数字编号。这解释了什么时候做。至于如何做—应用下述技巧即可。 1. 准备 要实践本技巧,你要先装好pandas模块。 其他没有什么要准备的了。...比如,考虑一个变量,以三种水平中的某一种作为值: 1 One 2 Two 3 Three 需要用三列进行编码: 1 One 1 0 0 2 Two 0 1 0 3 Three 0 0 1 有时可用两列。

    1.5K30

    来瞧瞧webp图像强大的预测算法

    进行有损压缩时,WebP 会将图片划分为两个 8x8 色度像素宏块和一个 16x16 亮度像素宏块。在每个宏块内,编码器基于之前处理的宏块来预测冗余动作和颜色信息。...A 和列 L 的像素的平均值作为宏块唯一的值来填充宏块; TM_PRED(TrueMotion预测):除了行 A 和列 L 之外,用宏块上方和左侧的像素P、A(从P开始)中像素块之间的水平差异以列 L...WebP 使用的是布尔算术编码作为熵编码方式,直接把输入的消息编码为一个满足(0.0 ≤ n 的小数n。...减去绿色变换 “减去绿色变换”从每个像素的红色、蓝色值中减去绿色值。当此变换存在时,解码器需要将绿色值添加到红色和蓝色。 彩色缓存编码 无损 WebP 压缩使用已经看到的图像片段来重构新的像素。...,那么要如何在网站中开启 WebP 格式呢?

    2.9K21

    可视化工具solo show

    整个项目基于Netbeans platform开发,面向接口编程,模块之间耦合度低,体现了高内聚低耦合的程序设计思想。      ...点点鼠标我们就可以方便的对数据进行批量处理:排序,过滤,绘制各种图表,而不用考虑如何编写代码,如何处理GUI事件。...同样,尽管也可以用R来实现,但还有其他更方便的途径,比如Flash或者Processing。...OpenRefine可以支持多种的Web Services数据 Openrefine:免费开源数据清洗工具是一个帮助用户转换数据集的工具,优化数据的质量以便于在真实场景中使用,你的数据是杂乱无章的。...OpenRefine就是这样的IDT工具,可以观察和操纵数据的工具。它类似于传统Excel的表格处理软件,但是工作方式更像是数据库,以列和字段的方式工作,而不是以单元格的方式工作。

    2K90

    70个NumPy练习:在Python下一举搞定机器学习矩阵运算

    输入: 输出: 答案: 16.如何交换2维numpy数组中的两个列? 难度:2 问题:交换数组arr中的第1列和第2列。 答案: 17.如何交换2维numpy数组中的两个行?...难度:2 问题:颠倒二维数组arr的列。 答案: 20.如何创建一个包含5到10之间随机浮点数的二维数组? 难度:2 问题:创建一个5×3的二维数组,以包含5到10之间的随机浮点数。...难度:2 问题:在iris_2d的sepallength(第1列)中查找缺失值的数量和位置。 答案: 34.如何根据两个或多个条件过滤一个numpy数组?...难度:2 问题:将iris_2d的花瓣长度(第3列)组成一个文本数组,如果花瓣长度为: <3则为'小' 3-5则为'中' '> = 5则为'大' 答案: 41.如何从numpy数组的现有列创建一个新的列...难度:2 问题:从一维numpy数组中删除所有nan值 输入: 输出: 答案: 62.如何计算两个数组之间的欧氏距离? 难度:3 问题:计算两个数组a和b之间的欧式距离。

    20.7K42

    矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见

    以第4个token(index 3)为例,看看是如何被用来生成输入嵌入的第4列向量的。 我们使用token index(在本例中为B = 1)来选择左侧token嵌入矩阵的第二列。...为此,我们要找出该列的这两个量(平均值 (μ) 和标准偏差 (σ)),然后减去平均值,再除以标准偏差。 这里我们使用E[x]表示平均值,Var[x]表示方差(长度为C的列)。方差就是标准差的平方。...每个输出单元都是输入向量的线性组合。例如,对于Q向量,这是用Q权重矩阵的一行和输入矩阵的一列之间的点积来完成的。...我们首先计算当前列(t=5)的Q向量与之前各列的K向量之间的点积。然后将其存储在注意力矩阵的相应行(t=5)中。 这些点积是衡量两个向量相似度的一种方法。如果它们非常相似,点积就会很大。...在对模型进行时间步进时,需要利用最后一列的概率值来决定下一个要添加到序列中的token。举个例子,如果已经向模型输入了6个token,那么就会用第6列的输出概率来决策。

    1.5K10

    你如何在PHP中使用bcrypt来哈希密码

    添加到每个密码盐(bcrypt需要盐),你可以肯定的是,一个攻击实际上是不可行的,没有可笑的金额或硬件。 bcrypt使用Eksblowfish算法来散列密码。...[ 来源 ] 如何使用bcrypt: 使用PHP> = 5.5-DEV 密码散列函数现在已直接构建到PHP> = 5.5中。...\n"; // $2y$11$6DP.V0nO7YI3iSki4qog6OQI5eiO6Jnjsqg7vdnb.JgGIsxniOn4C 要根据现有的散列验证用户提供的密码,可以使用以下password_verify...安装兼容性库后,用法与上述相同(如果仍在5.3.x分支上,则减去速记数组表示法)。 使用PHP <5.3.7 (DEPRECATED) 您可以使用crypt()函数来生成输入字符串的bcrypt散列。...这个类可以自动生成salt并根据输入验证现有的散列。如果您使用的PHP版本高于或等于5.3.7,强烈建议您使用内置函数或compat库。此替代方案仅用于历史目的。

    1.8K30

    创新工具:2024年开发者必备的一款表格控件

    使用SpreadJS构建资产负债表的步骤 (1)打开SpreadJS在线表格编辑器。 (2)导入现有模板或新建一个空白工作表。 (3)在设计器中使用拖拉拽的方式设计一个资产负债表模板。...同样的,在SpreadJS当中,也支持图表: (1)柱形图 作为数据分析中最常用的图表类型之一,柱形图可以直观地展示数据的变化趋势和比较不同数据之间的差异。...除了上述会用到的图表之外,还有一些基于以上三种图表的衍生图表也很有可能在工作中会用到: (1)瀑布图表 瀑布图表是基于柱形图表衍生出来的一种新型图表,该图表将运行总计显示为添加或减去的值,这些值排列为具有正值和负值的列...$A$1:$A$3"); 使用SpreadJS图表美化资产负债表 第一步(快速构建表格应用)中小编使用SpreadJS设计器创建了一个资产负债表,下面介绍如何在资产负债表中增加一个柱形图来美化图表: (...集算表通常以表格的形式呈现,其中行和列代表不同的数据表或数据源,而交叉点处的数值则表示相应的汇总或计算结果。 SpreadJS中的集算表支持从数据源添加字段,新版本还支持具有公式数据类型的虚拟列。

    24610

    datawhale学习小组 Task4:方差分析

    EMDR是组间因子,因为每位患者都仅被分配到一个组别中,没有患者同时接受CBT和EMDR。...注意:数据必须是两列数值数据(分类型数值、度量值) 步骤: F检验 原假设:三个品牌寿命方差没有显著差异 备择假设:三个品牌寿命方差有显著差异 注意:F检验结果中显著性>0.05才算方差齐...中选出的进行分析所需要的列,实际上ols是通过DataFrame的列名来获得试验结果和因素水平的数据的。...# #如果是对于有重复的多因素方差分析,将formula中加上C(A)*C(B) 总结 方差分析的思想就是通过方差比较各族群之间有没有差异, 其中就是计算组内均方和和组间均方和,然后代入统计量做显著性检验...组间平方和=每一组的均值减去样本均值 组内平方和=个体减去每组平方和 方差分析看的最终结果看的统计量是:F统计量、R2 参考资料: datawhale组队学习——《率统计(四)-方差分析》 Task3

    90410

    Pandas基础:如何计算两行数值之差

    对于Excel用户来说,很容易使用循环来计算行之间的差异,因为在Excel中就是这样做的。然而,pandas提供了一个简单得多的解决方案。 我们将使用下面的示例数据框架进行演示。...从第二行开始,它基本上从原始数据框架的第二行获取值,然后减去原始数据框架第一行的值。例如405-400=5,400-200=200。...图2 对于相同的推理,我们可以通过将periods设置为负数来向后计算行之间的差异。这非常方便,因为我们不必颠倒数据的顺序。...图3 还可以通过将periods设置为1以外的数字来计算非连续行之间的差异。 图4 为了帮助可视化上述示例,可以先将列向下移动两行,然后执行减法。...图5 计算两列之间的差 还可以通过将axis参数设置为1(或“columns”)来计算数据框架中各列之间的差异。pandas中的axis参数通常具有默认值0(即行)。

    4.8K31

    分配问题与匈牙利算法

    下面的表格显示了这些城市之间飞机票的费用.。...可以用一个花费矩阵来代表上图数据: ⎡⎣⎢250400200400600400350350250⎤⎦⎥(1) \left[ \begin{matrix} 250 & 400 & 350...种可能的情况,显然,遍历不可行。 定理 如果从成本矩阵的任一行或列的所有项中添加或减去数字,那么,所得矩阵的最优分配也是原始矩阵的最优分配。...每行的所有数字减去该行的最小项 每列的所有数字减去该列的最小项 使用横线或者竖线穿过矩阵中的所有0,并记录达成此目的所需的最少线路总数 如果线路总数等于矩阵的行数或者列数n,那么一种最优的分配是可能的,...如果总数小于n,执行下一步 找到线路未覆盖的地方的最小项,存在未覆盖的项的行减去该项,然后将该项添加到覆盖的列中 例2 题目同例1 解题方法: 第一步:第一行减去250,第二行减去350

    2.5K20

    数三角形(组合计数+容斥原理)

    题意: 给一个n*m的网格,让你计算三角形三个顶点都在网格点上的三角形的数量。 思路: 首先我们可以知道,n * m的网格一共有 sum= (n+1)*(m+1) 个网格点。...然后在一个矩形的网格中,要想组成三角形,只需要满足三点不共线即可 我们预处理C[i][j]这样一个数组,表述从i个格点中抽取j个格点的数量。...那么ans = C[sum][3] - 三点共线 那么接着我们来考虑三点共线的情况: 1.横着共线 2.竖着共线 3.斜着共线 1.对于横着共线:C[n+1][3]*(m+1); 我们可以理解为一列中有...2.同上 3.对于斜着共线: 我们要有这样的一个理念:固定两个端点,然后以这两个点为坐标做直角三角形,那么覆盖整点数为gcd(直角边,直角边)+1 作图解释下: ?...如上图,我们现有AB两个端点,我们想在AB之间再找一个点,那么首先我们需要知道AB之间有多少个点,即为—gcd(AC,AB)+1 然后我们减去2个端点即为第三个点可选取的个数。

    63720

    如何利用SQL实现余弦相似度匹配

    1.基本原理 余弦相似度是通过计算两个向量的夹角余弦值来评估它们的相似度,也可以说是根据两个空间向量的夹角来评估两个个体的差异度。...余弦相似度也可以用余弦距离表示,余弦距离通常定义为  ,也就是用 1 减去它们的余弦相似度来得到一个表示距离的数值,该数值范围在[0,2]之间,值越小表示两个向量越 “接近”,相似度越高。...1.1.向量的点积 两个向量的点积可以解释为,一个向量的模长与另一个向量在此向量方向上投影的长度的乘积,假设有两个向量 ,向量 ,向量的点积也就是 ,其计算公式为: 上述公式中 , 为空间向量的坐标。...以下做一个简单的示例,在这里我们创建一个简单的数据表table_a ,在向其中添加一些数据: -- 创建table_a表 create table table_a( field1 int,...1.数据类型转换 在这里我们可以重新创建一个中间表,来将 field3 列转换为数据类型,并保存到新数据表中: create table_b as select field1, field2

    6110

    【译】向量搜索的相似度度量

    例如,你的屏幕离你的脸有多远。 L2 或欧几里得距离是如何工作的? l2 那么,我们已经想象了 L2 距离在空间中是如何工作的;在数学中它是如何工作的呢?让我们首先将两个向量想象为一列数字。...余弦相似度 我们使用“余弦相似度”或“余弦距离”来表示两个向量之间的方向差异。例如,你需要转多少度才能面向前门?...cosine 所以,我们知道了余弦相似度度量的是两个向量之间的夹角。让我们再次将我们的向量想象成一列数字。不过这次的过程稍微复杂一些。 我们再次将向量上下对齐。...像 TF-IDF、BM25 或 SPLADE 这样的过程产生的向量就是这种类型的向量。 汉明距离适用于衡量两个文本之间的措辞差异、单词拼写差异或任何两个二进制向量之间的差异。...余弦用于我们关心方向的差异。内积用于我们关心大小和方向的差异。 查看这些视频,了解更多关于向量相似度度量的信息,或 阅读文档[13] 了解如何在 Milvus 中配置这些度量。

    14410

    GPT 大型语言模型可视化教程

    让我们来看看第 4 个标记(索引 3)是如何用于生成输入嵌入的第 4 列向量的。 我们使用标记索引(本例中为 B = 1)来选择左边标记嵌入矩阵的第 2 列。...我们的目标是使该列的平均值等于 0,标准差等于 1。为此,我们要找出该列的这两个量(平均值 (μ) 和标准差 (σ)),然后减去平均值,再除以标准差。...我们首先计算当前列(t = 5)的 Q 向量与之前各列的 K 向量之间的点积。然后将其存储在注意力矩阵的相应行(t = 5)中。 这些点积是衡量两个向量相似度的一种方法。...softmax 运算的一个有用特性是,如果我们在所有输入值上添加一个常数,结果将是相同的。因此,我们可以找到输入向量中的最大值,然后将其从所有值中减去。...当我们对模型进行时间步进时,我们会使用上一列的概率来决定下一个要添加到序列中的标记。例如,如果我们已经向模型提供了 6 个标记,我们就会使用第 6 列的输出概率。

    18310

    【运筹学】指派问题、匈牙利法总结 ( 指派问题 | 克尼格定理 | 匈牙利法 | 行列出现 0 元素 | 试指派 | 打 √ | 直线覆盖 ) ★★★

    , 每一行元素 中加上或减去一个常数 u_i , 每一列元素 中加上或减去一个常数 v_j , 得到新的效率矩阵 [b_{ij}] , 两个效率矩阵 [a_{ij}] 与 [b_{ij...0 元素 : (c_{ij}) 系数矩阵中 , 每行都 减去该行最小元素 ; 每列都出现 0 元素 : 在上述变换的基础上 , 每列元素中 减去该列最小元素 ; 注意必须先变行 ,...0 元素 : 在上述变换的基础上 , 每列元素中 减去该列最小元素 ; 观察矩阵后发现 , 只有第三列没有 0 元素 , 这里将第 3 列 , 都减去最小值 5 , 得到如下矩阵 :...列中的其它 0 元素标记为 废弃 0 元素 ( 绿色矩形框 ); 第 2 行中原来有两个 0 元素 , 有一个被标记为 废弃 0 元素 , 因此只剩下一个 0 元素 , 标记为独立...: 将该行废弃 0 元素列打钩 , 有两个 : 将废弃 0 元素列中对应的 独立 0 元素 行 打钩 : 上述两行对应的 废弃 0 元素的列打钩 : 在上述打钩的列中 , 将独立

    1.9K20

    盘点 Pandas 中用于合并数据的 5 个最常用的函数!

    正好看到一位大佬 Yong Cui 总结的文章,我就按照他的方法,给大家分享用于Pandas中合并数据的 5 个最常用的函数。这样大家以后就可以了解它们的差异,并正确使用它们了。...df0.merge(df1, how="cross") 使用后缀 当两个 DataFrame 对象有同名的列,且想保持同时存在,就需要添加后缀来重命名这两列。...combine 的特殊之处,在于它接受一个函数参数。此函数采用两个系列,每个系列对应于每个 DataFrame 中的合并列,并返回一个系列作为相同列的元素操作的最终值。听起来很混乱?...在这种情况下,df1 的 a 列和 b 列将作为平方,产生最终值,如上面的代码片段所示 5、append 回顾前文,我们讨论的大多数操作都是针对按列来合并数据。 如果按行合并(纵向)该如何操作呢?...append 函数专门用于将行附加到现有 DataFrame 对象,创建一个新对象。我们先来看一个例子。

    3.4K30
    领券