首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

降低数据大小的四大绝招。

↑↑↑关注后"星标"炼丹笔记 炼丹笔记干货 作者:Kaggle竞赛宝典摘自Chris Deotte的分享 降低数据大小的四大绝技 简介 在非常的问题中,例如商品推荐数据存储(大量的用户和商品...我们可以将此转换为仅使用4字节或8字节的int32或int64。典型的技巧如获取十六进制字符串的最后16个字母,然后将该base16数字转换为base10并另存为int64。 2....类别特征,8 bytes降低为1 bytes 一些最大为8个的类别转化为int8的正数,这样就变成了1个byte,原先8个bytes转化为了1个byte。 4....数值特征,8 bytes降低为2 bytes 对于一些float64化为float32而不损失信息的字段可以直接转化,还有很多字段可以直接float64化为float16,这样就可以转化为2个...一些文件格式(如Parquet)逐保存数据。这将影响以后读取数据。如果将来我们想读取行的子集。也许行顺序更好更快。如果将来我们想读取的子集,那么顺序可能会更好更快。

1.3K10

个人永久性免费-Excel催化剂功能第92波-地理地址与经纬度互转功能

同样地还有一些不周到的报表导出数据,地址信息中的省市区县和详细地址信息合并起来,某些场景需要重新加工成有的地址信息如省、市、区县、详细地址各一时,手工一次性做完这样的工作几乎不可能。...使用本篇的地址转换功能,也同样可以地址转换为经纬度的同时,也将其拆散出省、市、区县、详细地址的数据。...其逆转换场景同样也很常见,许多设备记录下来的是经纬度信息,需要将其转换为省、市、区县、详细地址的数据结构,并进行下一步地分类汇总统计分析。...功能入口 在第90波费了很大的劲,实现出来的json标准数据表结构,将在接下来的许多的网络API接口信息采集过程中大放光彩,所有的选择主动权完成交回给用户自身处理。...数据源准备 接口文档说明 Excel催化剂提供address和city两个参数的设置,当选择一时,只传入address,当选择两时,右侧参数为city,city请根据上一篇中提供的行政区域信息下载中自行查询

1.3K40
您找到你想要的搜索结果了吗?
是的
没有找到

个人永久性免费-Excel催化剂功能第16波-N使用场景的多维表一维表

很可惜,一般主流Excel插件都仅限于二维表转换为一维表的功能实现,另外多种多维一维的需求都未见有实现的功能。此次Excel催化剂多维表转换一维表的功能发挥得淋漓尽致。...组字段名称 在多级表头中,如上图的年份、季度数据中,需要逆透视把数据合并到一时,需要重新命名的列名称,对应于拉透视表时的多个字段的列名称。...字段名称 对数据区域的内容重新定义是属于什么类型的数据,如上图的销售量、销售额、销售成本等,对应于拉透视表时的是区域里的数据列名称。...选择的数据(选标题即可,按住Ctrl可选多个间隔开的),此时区域会出现逗号(,)或冒号(:),此时程序识别为人工已经选择了所有同一类型的数据,无需使用后两项再进行逻辑加工出所有同一类型的数据...选择1的数据,请选择左边开始首次出现标题,如上图的销售量是C4单元格开始出现,然后判断数据的后续出现规律是连续出现还是间隔出现,如类型4为连续出现,类型5为间隔出现。

3.4K20

如何把多维数据转换成一维数据?

,所以在置前把索引给去除,然后在进行置。...对每一个表用表格里的第一的第一个作为表的说明。...Table.AddColumn(删除的其他, "自定义.1", each [自定义][Column1]{0}) 添加并取自定义表的Column1的第1行作为表的说明。 ? 5....(二) 使用自定义函数 之前我们有做过一个关于数据组合的自定义函数。 Power Query中如何把数据合并? Power Query中如何把数据合并?升级篇 ? 1....使用自定义函数进行合并 批量合并(置表,Table.ColumnCount(置表)/7,7,0) 解释: 第1参数代表需要处理的表,置表代表上个过程的表 第2参数代表是循环次数,这里实际转换是

2.6K10

③matlab向量和矩阵

3 5 任务 创建一个名为 x 的数组,其中包含两个元素:7 和 9 3.当您用空格(或逗号)分隔数值时(如前面的任务中所示),MATLAB 会将这些数值组合为一个行向量,行向量是一个包含一行的数组...6.您可以组合使用空格和分号来创建一个矩阵,即包含多行的数组。输入矩阵时,您必须逐行输入它们。...但是,您可以使用置运算符 (') 行向量转换为向量。 x = 1:3; x = x' x = 1 2 3 任务 使用置运算符 x 行向量置为向量。...7.您可以通过在一条命令中创建行向量并将其全部置来创建向量。注意此处使用圆括号来指定运算的顺序。...结果赋给名为 x 的变量。 3.任务 使用 zeros 函数创建一个包含 6 行 3 (6×3) 的全零矩阵。结果赋给名为 x 的变量。 附加练习 如何知道现有矩阵的大小?

8210

站在机器学习视角下来看主成分分析

求和项进行更深一步的化简得到: ? 即现在问题是一个最大的优化问题。 ? 我们开始的最小化问题是最小化数据集到投影的正交距离。对于最大化问题,我们看到它是最大化方差。...由于矩阵Q(Q的置)是对称的,所以应用上述对称矩阵的相同定理, 如果A是可对角化的矩阵,则A的轨迹等于A的特征之和。这是证明: ?...我们还可以跟踪的想法带入最小化问题,如下所示: ? 因此,最大化矩阵的轨迹是 ? 等效于最大化协方差矩阵以及与X的X置相关联的特征。...注意,X的X置的维度是dxd,但是其轨迹被最大化的矩阵具有kx k的维度。trace操作的输出是特征之和的kxk矩阵,但是argmax操作的输出是(dxk)Q矩阵,其中每是X的X置的特征向量。...但是,我们真正想要的是原始数据投影到新维度上。PCA的最后一步是我们需要将Q的Q置与原始数据矩阵相乘以获得投影矩阵。我们(dxk)Q矩阵开始,Q的Q置导致dxd维度。

1.1K50

个人永久性免费-Excel催化剂插件功能修复与更新汇总篇之一

第5波-使用DAX查询PowerbiDeskTop中获取数据源 DAX查询结果导出到Excel表格性能提升,旧有方式地导出10万级别的数据量时会比较慢,现使用EEPLUS的xml读写方式,得到很大提升...第11波-快速批量插入图片并保护纵横比不变 修复在不同工作表不能插入相同的图片的bug 【重新调整图片】按钮可以对筛选或排序引起图片错位时使用,此时尽量保持数据插入是整列插入的,而不是分散到的插入图片...,因第13波可以使用自由报表功能,把整列插入的图片转换为自由布局的显示,故此处的【重新调整图片】不再做其他场景使用。...第16波-N使用场景的多维表一维表 修复多级表头转换为一维表时,保留字段过多时,数据转换会出现错位问题 新增当多级表头,需要双击选择某一数值字段时,自动把选择的数值字段对应的单元格的文本存放至左侧的字段名位置...、高度来缩放图片(不建议如此操作,图片可能会变形)

1.6K20

在Pandas中更改的数据类型【方法总结】

例如,上面的例子,如何2和3为浮点数?有没有办法数据转换为DataFrame格式时指定类型?或者是创建DataFrame,然后通过某种方法更改每的类型?...pandas’: >>> pd.to_numeric(s) # or pd.to_numeric(s, errors='raise') ValueError: Unable to parse string 可以无效强制转换为...对于或者整个DataFrame 如果想要将这个操作应用到多个,依次处理每一是非常繁琐的,所以可以使用DataFrame.apply处理每一。...软转换——类型自动推断 版本0.21.0引入了infer_objects()方法,用于具有对象数据类型的DataFrame的换为更具体的类型。...astype强制转换 如果试图强制换为整数类型,可以使用df.astype(int)。 示例如下: ? ?

20K30

BI开发过程中的数据处理(Doris)

() COALESCE() null替换为设置的字符 select name,COALESCE(phone,'-') as phone from t_student_detail; 处理策略 替换为最小...replace_min 替换为最大 replace_max 替换为平均值 replace_avg 替换为中位数 replace_median 替换为出现频率最高的 replace_high_frequency...根据条件筛选:左至右依次分别为设置字段、逻辑符和。...分隔符:逗号、分号、空格、tab、- 拆分后的按照新字段名称_数字序号的格式按顺序依次命名,数字序号1开始 参数 { tableName:"t_user", fields:["name...fieldPivot 透视 fieldValue 列名称 dealType 聚合方式 dealType 求和 sum 计数 count 最大 max 最小 min 通过case实现 先查出要进行行转列的属性的

76280

数据导入与预处理-拓展-pandas筛选与修改

数据删除-删除 1.5 数据筛选 1. 数据筛选-筛选指定号 2. 数据筛选-筛选指定列名 4. 数据筛选-筛选指定行 4. 数据筛选-筛选行号+列名 2. 总结 1....数据修改–修改 # ROC(第一第五行)修改为 俄奥委会 df_new.iloc[4,0] = '俄奥委会' df_new 输出为: 4....数据修改–替换 替换(单) # 数据修改--替换(单金牌数列的数字 0 替换为 无 df_new['金牌数'].replace(0,'无',inplace=True) df_new 输出为...: 替换(多值) # 数据修改--替换(多值) # 无 替换为 缺失 0 替换为 None import numpy as np df_new.replace(['无',0]...max(0) 输出为: 金牌数 39 银牌数 41 铜牌数 33 dtype: int64 查看行数据中指定中的最大 如果查看每个国家中金牌数银牌数铜牌数的最大 df_new.bfill

1.3K20

位运算

分别读作:左移、右移 位于 &(一0则0) 两个十进制数转为二进制,将此两个二进制转换为竖式,运算时两个位数任意一个是0则此位是0,有1个1则是1。然后结果转为十进制。...位或| (双0则0) 十进制数转为二进制,2个二进制的数转换为竖式,两个位数都是0,则此位是0,否则是1。...14 异或 ^(互异则1) 十进制数转为二进制,2个二进制的数转换为竖式,两个位数不同时,则此位是1,否则是0。...,2个二进制的数转换为竖式, 左移 <<(数值变大) 十进制数转为二进制,原二进制向左移动X位,空位补0,然后将此结果转为10进制 @Test void 左移() {...() { // 定义用户当前状态 int userStatus = 15; System.out.println("初始化状态:" + userStatus

1.3K20

一文搞懂反卷积,置卷积

我们想要将输入矩阵中的一个映射到输出矩阵的9个,这将是一个一对(one-to-many)的映射关系。这个就像是卷积操作的反操作,其核心观点就是用置卷积。...因此就结论而言,卷积操作是对一,而置卷积操作是一对,如下图所示,每一个“对”而言,都需要维护一个权。 但是我们将如何具体操作呢?...为了卷积操作表示为卷积矩阵和输入矩阵的向量乘法,我们输入矩阵 4 × 4 4 \times 4 4×4摊平(flatten)为一个向量,形状为 16 × 1 16 \times 1 16×1,如下图所示...需要注意的是:这里的置卷积矩阵的参数,不一定原始的卷积矩阵中简单置得到的,置这个操作只是提供了置卷积矩阵的形状而已。...即使它被称为置卷积,它并不是意味着我们一些现存的卷积矩阵简单置并且使用其置后的本质来说,置卷积不是一个卷积,但是我们可以将其看成卷积,并且当成卷积这样去用。

66920

Python数据分析:numpy

a.transpose() a.swapaxes(1,0) a.T 以上的三种方法都可以实现二维数组的置的效果,置和交换轴的效果一样。...numpy索引和切片 a[1,:] # 取一行,可简写为a[1] a[:,2] # 取一 a[1:3,:] # 取连续多行,可简写为a[1:3] a[:,2:4] # 取连续 a[[1,3...不满足替换为4 a.clip(2,3) # 裁剪,大于3替换为3,小于2替换为2 numpy中的nan和inf nan(NAN,Nan):not a number,表示不是一个数字,type类型为float...(axis=None) 均值:t.mean(axis=None) 中值:np.median(t,axis=None) 最大:t.max(axis=None) 最小:t.min(axis=None)...其他实用方法 1.获取最大最小的位置 np.argmax(t,axis=0) np.argmin(t,axis=1) 2.创建一个全0的数组: np.zeros((3,4)) 3.创建一个全1的数组

1.1K40

快速掌握apply函数家族推荐这篇文档

sapply:与 lapply 类似,但它自动结果转换为向量、矩阵或数组。 apply:用于对矩阵或数组的行、或其他维度进行循环操作。...❝如果想要将结果转换为向量、矩阵或数组,可以使用 sapply 函数。它的基本语法与 lapply 类似,只是 lapply 替换为 sapply 即可。...❞ 例如,下面的代码使用 sapply 函数列表中的每个字符串转换为大写: # 创建列表 x <- list("apple", "banana", "cherry") # 使用 sapply 函数对列表中的每个字符串执行...函数求出矩阵中每一的最大: # 创建矩阵 x <- matrix(1:9, nrow = 3) # 使用 apply 函数求出矩阵中每一的最大 apply(x, 2, max) [1] 3...6 9 例子 2:使用 apply 函数矩阵置 下面的代码使用 apply 函数矩阵置: # 创建矩阵 x <- matrix(1:9, nrow = 3) # 使用 apply 函数矩阵

2.9K30

一次性学懂Excel中的Power Query和Power Pivot使用

合并列常用的方法 3.5 透视与逆透视操作 3.5.1 一维表和二维表 3.5.2 实例1:一维表二维表 3.5.3 实例2:二维表一维表 3.5.4 实例3:含有多重行/列表头的数据清洗 3.6...4.4.3 容错语句try…otherwise… 4.4.4 each _与(x)=>的关系 4.4.5 为公式添加注释 第5章  常用的M函数实战详解 5.1 各种数据类型之间的相互转换 5.1.1 换为文本...5.1.2 换为数值 5.1.3 换为日期 5.2 List和Table的批量转换实战 5.2.1 批量转换函数List.Transform的实际应用 5.2.2 批量转换函数Table.TransformColumns...5.6.1 Table.Group函数和常规分组计算 5.6.2 实例:条件分组计算和数据清洗整理获奖数据 5.7 参数与自定义函数 5.7.1 参数的设置方法 5.7.2 实例:创建和调用自定义函数拆分为...Excel工作簿中的数据 6.1.3 实例3:获取网页中的表格数据 6.1.4 实例4:获取CSV或TXT文件数据 6.1.5 实例5:实时获取数据库中的数据 6.2 数据转换综合实战 6.2.1 实例1:复杂的二维调薪表转换为一维明细表

8.8K20

numpy基础知识

进行运算(3)数相同(a(1,2),b(4,2)): b的每一行和a进行运算(4)行数和数不等:报错 多维(广播原则)如果两个数组的后缘维度(末尾开始算起的维度)的轴长度相符或其中方的长度为1,则他们是广播兼容的...unpack:若为true,矩阵置 numpy 置: (1)transpose() 方法 (2)T属性 (3)swapaxes(1,0)方法,0和1分别为轴 取行 单行: t[行数] 连续多行:t[...行数:],指定行数开始连续取数组的行 不连续:t[[1,5,8]], 取第1、5、8行 取 单列:t[行,],取指定的行和,其中:表示都要,如t[1,:]表示第二行的所有例: import numpy...取不相邻的点t[[0,2],[0,1]], 取下标为(0,0)和(2,1)对应的 修改 条件修改t[t<10]=3 t中小于10的 where方法np.where(条件,符合条件的元素要赋的,不符合条件的元素要赋的...)ge: np.where(t>10, 0, 20) t中小于10 的元素替换为10,大于等于10的赋值为20 clip方法t.clip(value1,value2) 把小于value1的元素替换为value1

1.1K20

左手用R右手Python系列——数据塑型与长宽转换

数据长宽转换是很常用的需求,特别是当是Excel中导入的汇总表时,常常需要转换成一维表(长数据)才能提供给图表函数或者模型使用。...转换之后,长数据结构保留了原始宽数据中的Name、Conpany字段,同时剩余的年度指标进行堆栈,转换为一个代表年度的类别维度和对应年度的指标。(即转换后,所有年度字段被降维化了)。...pandas中的数据透视表函数提供如同Excel原生透视表一样的使用体验,即行标签、标签、度量值等操作,根据使用规则,行列主要操作维度指标,主要操作度量指标。...(可以使多个类别变量) values=["Sale"] #(一般是度量指标) ) ?...(但是使用stack\unstack需要额外设置索引,灰常麻烦,所以不是很推荐,有兴趣可以查看pandas中的stack/unstack方法,这里不再赘述)。

2.5K60
领券