首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI办公自动化:Excel表格数据批量整理分列

,删除单元格内容后面的数字,比如:单元格内容为“公司公告,国海证券研究所 61”,删除“61”; 对单元格内容进行分: 如果单元格内容中有“、”,就根据“、”来分拆到多个,比如:“金融界、微软官网、...,新浪科技,天风证券研究所; 如果单元格内容中有空格,就根据空格来分拆到多个,比如:“ckdd 微软亚洲研究员 联讯证券”; 单元格分完成后,把所有分拆出去的单元格内容追加到A列当前内容的后面; 然后对...,文件损坏、权限问题等。...\d+', '', str(x)).strip()) # 初始化一个列表存储拆分后的数据 split_data = [] # 分单元格内容 http://logging.info("分单元格内容")...()), axis=1) # 拆分后的内容追加到第一列当前内容的后面 http://logging.info("将拆分后的内容追加到第一列当前内容的后面") df_expanded = pd.DataFrame

7810

Tidyverse|数据的分分合合,一分多,多合一

一 载入数据 R包 使用TCGA下载的数据,仅使用以下几行几列, 作为示例 library(tidyverse) data <- read.csv("separate.csv",header = TRUE...第一列的ID,和人为添加的ID2,名称不规则,我们只需要前面的基因名。...二 合久可分-一列 使用separate函数, 将“指定”分隔符出现的位置一列分成多 2.1 默认,不指定分隔符 data %>% separate(ID, into = c("Gene",...可参考:盘一盘Tidyverse| 筛行选之select,玩转列操作 Tips: 1)数据分列可以先默认试一下,2.1所示 2)使用R的帮助,一定!...三 分久必合-多一列 使用unite函数, 可将多按照“指定”分隔符合并为一列 data %>% unite(ID_new, ID:ID2, sep = "_") %>% head() ?

3.6K20
您找到你想要的搜索结果了吗?
是的
没有找到

pandas | DataFrame中的排序与汇总方法

在上一篇文章当中我们主要介绍了DataFrame当中的apply方法,如何在一个DataFrame对每一行或者是每一列进行广播运算,使得我们可以在很短的时间内处理整份数据。...排序 排序是我们一个非常基本的需求,在pandas当中将这个需求进一步细分,细分成了根据索引排序以及根据值排序。我们先来看看Series当中的排序方法。...最简单的差别是在于Series只有一列,我们明确的知道排序的对象,但是DataFrame不是,它当中的索引就分为种,分别是行索引以及索引。...值排序 DataFrame的值排序有所不同,我们不能对行进行排序,只能针对。我们通过by参数传入我们希望排序参照的,可以是一列也可以是多。 ?...比如每一列的均值、样本数量、标准差、最小值、最大值等等。是一个常用的统计方法,可以用来了解DataFrame当中数据的分布情况。 ?

4.5K50

教你用Python拆分表格并发送邮件

周末看了「凹凸玩数据」交流群内Huang Supreme的分享,有一篇写到了日常表操作挺有意思的。...决定举一反三一下,ta拆成sheet,那我就拆成工作簿,如果能完直接发邮件给不同的人就更有意思了。 照葫芦画个瓢。...huang的表代码是我能找到的最简洁的了,ta首先用 ExcelWriter 生成一个完表后的容纳工作簿,然后调用了 For 循环对某一列进行遍历,area_list 取自表格的某一列,这一列有多少种因子...\拆分自动邮件发送\chaifen.xlsx", encoding='gbk') area_list = list(set(data['店铺'])) writer = pd.ExcelWriter(r"C...建一个附件和收件人的索引,用之前给文件命名的变量j ,索引到收件人'Rec'中'店铺'等于 j的行。 最后构建邮件发送的函数,包括收件人、抄送人、附件、正文等,从拆分到邮件整个过程不超过1分钟。

1.9K40

pandas | DataFrame中的排序与汇总方法

在上一篇文章当中我们主要介绍了DataFrame当中的apply方法,如何在一个DataFrame对每一行或者是每一列进行广播运算,使得我们可以在很短的时间内处理整份数据。...排序 排序是我们一个非常基本的需求,在pandas当中将这个需求进一步细分,细分成了根据索引排序以及根据值排序。我们先来看看Series当中的排序方法。...最简单的差别是在于Series只有一列,我们明确的知道排序的对象,但是DataFrame不是,它当中的索引就分为种,分别是行索引以及索引。...值排序 DataFrame的值排序有所不同,我们不能对行进行排序,只能针对。我们通过by参数传入我们希望排序参照的,可以是一列也可以是多。...比如每一列的均值、样本数量、标准差、最小值、最大值等等。是一个常用的统计方法,可以用来了解DataFrame当中数据的分布情况。

3.8K20

单列文本拆分为,Python可以自动化

为了自动化这些手工操作,本文将展示如何在Python数据框架中将文本拆分为。...示例文件包含,一个人的姓名和出生日期。 图2 我们的任务如下: 1.把名字和姓氏分开 2.将出生日期拆分为年、月和日 让我们将数据加载到Python中。...矢量化操作(在表面上)相当于Excel的“分列”按钮或Power Query的“拆分列”,我们在其中选择一列并对整个执行某些操作。...看一个例子: 图6 上面的示例使用逗号作为分隔符,将字符串拆分为个单词。从技术上讲,我们可以使用字符作为分隔符。注意:返回结果是个单词(字符串)的列表。 那么,如何将其应用于数据框架?...我们想要的是将文本分成(pandas系列),需要用到split()方法的一个可选参数:expand。当将其设置为True时,可以将拆分的项目返回到不同的中。

6.9K10

面试题:聊聊TCP的粘包、包以及解决方案

今天这篇文章就带大家详细了解一下TCP的粘包和包以及解决方案。 什么是粘包? 在学习粘包之前,先纠正一下读音,很多视频教程中将“粘”读作“nián”。经过调研,个人更倾向于读“zhān bāo”。...如果一次请求发送的数据量比较大,超过了缓冲区大小,TCP就会将其拆分为多次发送,这就是包。 关于粘包和包可以参考下图的几种情况: ?...上图中演示了以下几种情况: 正常的理想情况,个包恰好满足TCP缓冲区的大小或达到TCP等待时长,分别发送个包; 粘包:个包较小,间隔时间短,发生粘包,合并成一个包发送; 包:一个包过大,超过缓存区大小...,拆分成个或多个包发送; 包和粘包:Packet1过大,进行了包处理,而拆出去的一部分又与Packet2进行粘包处理。...如果发生包需等待多个包发送过来之后再找到其中的\r\n进行合并;例如,FTP协议; 将消息分为头部和消息体,头部中保存整个消息的长度,只有读取到足够长度的消息之后才算是读到了一个完整的消息; 通过自定义协议进行粘包和包的处理

9K50

R语言入门(一)之数据处理

写在前面:公众号又被我搁置好久,闲来无事,写写近期学的R语言吧,主要分为个部分写,一主要为数据处理,二为ggplot作图。...这个部分将生信分析的绝大多数常用命令都讲到了,作为R语言入门是够用的,但是学海无涯,以此只是作为一个引子,想要进步还是要自己多学多练,举一反三才行。...a2 = a1[,1:3] #显示a1第一列到第三内容 ? e = t(a1) #t(x)转置 ?...#的合并 d1$Quality = "NAU" #在d1数据后加一列的名称为Quality,内容均为"NAU" ?...;fun.aggregate:聚集函数, mean、median、sum;示例 为对行和进行求平均数;margins=T,加上后显示平均数这一列和行,不加不显示 d2.1 = reshape(data

10.1K40

R来拼图和排版,告别AI和PS(二):调节宽度和高度

前面我们简单给大家介绍了如何使用R包patchwork来拼图和排版,今天我们接着来探讨,如何在拼图和排版的时候调节图片的宽度和高度,使最后的图片层次鲜明,重点突出。...接下来我们就来看看,四张图,排布,我们来改变宽度。...来个复杂点的,先来看下效果 然后我们来看代码 ( (plot_spacer()/p1/plot_spacer()+ plot_layout(heights = c(1.2,1,1)) #第一列...widths = c(1,4)) #第一列和第二的宽度 这张图,整体分为,图A和个空白占位图拼成第一列,图B,C和D为第二。...而第二分为行,图B为一行,图C和图D拼成第二行。 今天的分享就先到这里,后面会给大家介绍更复杂的排版方式,敬请期待! 参考资料: 用R来拼图和排版,告别AI和PS(一)

55220

MySQL按字符串hash分区_mysql分区理论「建议收藏」

List 适合与有固定取值的,支持复合分区 有限的分区,插入记录在这一列的值不在List中,则数据丢失 一般只针对某一列 Hash 线性Hash使得增加、删除和合并更快捷 线性Hash的数据分布不均匀...,而一般Hash的数据分布较均匀 一般只针对某一列 Key 可以为字符型等其他非Int类型 效率较之前低,因为函数复制的程度,(。...MD5或SHA函数) 一般只针对某一列 海量数据优化2种方法 1、大表小表,分表、分区,物理的操作 2、sql语句的优化,通过增加索引来调整,但是数据量增大将会导致索引的维护代价增大,逻辑层面提升 大表小表...垂直分表,字段,缺点:破坏表关系,表关联 水平分表,数据行,缺点:php代码量维护,逻辑层面困难增加 mysql分区 有点类似水平分表,但是它是基于逻辑层面,而不是物理层面,对于程序而言分区表还是一张表...,测试使用 key分区:类似按hash分区,区别在于key分区只支持计算一列或多,且mysql服务器提供自身的哈希函数 range分区sql create table emp( int int not

2.3K20

NumPy能力大评估:这里有70道测试题

何在 2d NumPy 数组中交换? 难度:L2 问题:在数组 arr 中交换 1 和 2。 arr = np.arange(9).reshape(3,3) arr 17....如何在 NumPy 数组中找出缺失值的位置? 难度:L2 问题:在 iris_2d 的 sepallength(第一列)中找出缺失值的数目和位置。...如何基于个或以上条件过滤 NumPy 数组? 难度:L3 问题:过滤 iris_2d 中满足 petallength(第三)> 1.5 和 sepallength(第一列)< 5.0 的行。...如何找出 NumPy 数组中之间的关联性? 难度:L2 问题:找出 iris_2d 中 SepalLength(第一列)和 PetalLength(第三)之间的关联性。...如何在 NumPy 数组中将所有缺失值替换成 0? 难度:L2 问题:在 NumPy 数组中将所有 nan 替换成 0。

6.6K60

NumPy能力大评估:这里有70道测试题

何在 2d NumPy 数组中交换? 难度:L2 问题:在数组 arr 中交换 1 和 2。 arr = np.arange(9).reshape(3,3) arr 17....如何在 NumPy 数组中找出缺失值的位置? 难度:L2 问题:在 iris_2d 的 sepallength(第一列)中找出缺失值的数目和位置。...如何基于个或以上条件过滤 NumPy 数组? 难度:L3 问题:过滤 iris_2d 中满足 petallength(第三)> 1.5 和 sepallength(第一列)< 5.0 的行。...如何找出 NumPy 数组中之间的关联性? 难度:L2 问题:找出 iris_2d 中 SepalLength(第一列)和 PetalLength(第三)之间的关联性。...如何在 NumPy 数组中将所有缺失值替换成 0? 难度:L2 问题:在 NumPy 数组中将所有 nan 替换成 0。

5.7K10

70道NumPy 测试题

何在 2d NumPy 数组中交换? 难度:L2 问题:在数组 arr 中交换 1 和 2。 arr = np.arange(9).reshape(3,3) arr 17....如何在 NumPy 数组中找出缺失值的位置? 难度:L2 问题:在 iris_2d 的 sepallength(第一列)中找出缺失值的数目和位置。...如何基于个或以上条件过滤 NumPy 数组? 难度:L3 问题:过滤 iris_2d 中满足 petallength(第三)> 1.5 和 sepallength(第一列)< 5.0 的行。...如何找出 NumPy 数组中之间的关联性? 难度:L2 问题:找出 iris_2d 中 SepalLength(第一列)和 PetalLength(第三)之间的关联性。...如何在 NumPy 数组中将所有缺失值替换成 0? 难度:L2 问题:在 NumPy 数组中将所有 nan 替换成 0。

6.3K10

简单易学的机器学习算法——Softmax Regression

Logistic回归是处理二分类问题的比较好的算法,具有很多的应用场合,广告计算等。Logistic回归利用的是后验概率最大化的方式去计算权重。...二、Logistic回归的回顾     在Logistic回归中比较重要的有个公式,一个是阶跃函数: ? 另一个是对应的损失函数 ? 最终,Logistic回归需要求出的是个概率: ? 和 ?...,而在Softmax Regression中将不是个概率,而是 ? 个概率, ? 表示的是分类的个数。我们需要求出以下的概率值: ? 此时的损失函数为 ? 其中 ?...Logistic回归中一样,可以使用基于梯度的方法来求解这样的最大化问题。基于梯度的方法可以参见“优化算法——梯度下降法”。 四、实验 1、训练数据 ?    从图上我们可以看到分为4类。...data(:,3)); labelLen = length(labels);%划分的种类 dataMat(:,2:3) = data(:,1:2); dataMat(:,1) = 1;%做好数据集,添加一列

1.1K100

简单易学的机器学习算法——Softmax Regression

Logistic回归是处理二分类问题的比较好的算法,具有很多的应用场合,广告计算等。Logistic回归利用的是后验概率最大化的方式去计算权重。...二、Logistic回归的回顾     在Logistic回归中比较重要的有个公式,一个是阶跃函数: ? 另一个是对应的损失函数 ? 最终,Logistic回归需要求出的是个概率: ? 和 ? 。...,而在Softmax Regression中将不是个概率,而是 ? 个概率, ? 表示的是分类的个数。我们需要求出以下的概率值: ? 此时的损失函数为 ? 其中 ?...Logistic回归中一样,可以使用基于梯度的方法来求解这样的最大化问题。基于梯度的方法可以参见“优化算法——梯度下降法”。 四、实验 1、训练数据 ?    从图上我们可以看到分为4类。...data(:,3)); labelLen = length(labels);%划分的种类 dataMat(:,2:3) = data(:,1:2); dataMat(:,1) = 1;%做好数据集,添加一列

1K50

C++网络编程:TCP粘包和分包的原因分析和解决

在学习粘包之前,先纠正一下读音,很多视频教程中将“粘”读作“nián”。经过调研,个人更倾向于读“zhān bāo”。...如果一次请求发送的数据量比较大,超过了缓冲区大小,TCP就会将其拆分为多次发送,这就是包。...关于粘包和包可以参考下图的几种情况:上图中演示了以下几种情况:正常的理想情况,个包恰好满足TCP缓冲区的大小或达到TCP等待时长,分别发送个包;粘包:个包较小,间隔时间短,发生粘包,合并成一个包发送...;包:一个包过大,超过缓存区大小,拆分成个或多个包发送;包和粘包:Packet1过大,进行了包处理,而拆出去的一部分又与Packet2进行粘包处理。...如果发生包需等待多个包发送过来之后再找到其中的\r\n进行合并;例如,FTP协议;将消息分为头部和消息体,头部中保存整个消息的长度,只有读取到足够长度的消息之后才算是读到了一个完整的消息;通过自定义协议进行粘包和包的处理

2.5K40

pandas基础:在pandas中对数值四舍五入

标签:pandas,Python 在本文中,将介绍如何在pandas中将数值向上、向下舍入到最接近的数字。...也就是说,这个round()的工作原理相似。 DataFrame.round(decimals=0) DataFrame和Series类都有round()方法,它们的工作原理完全相同。...例如,要四舍五入到2位小数: 在pandas中将数值向上舍入 要对数值进行向上舍入,需要利用numpy.ceil()方法,该方法返回输入的上限(即向上舍入的数字)。...以下种方法返回相同的结果: 在上面的代码中,注意df.apply()接受函数作为其输入。 向下舍入数值 当然,还有一个numpy.floor()方法返回输入的底数(即向下舍入的数字)。...这使得同时对多个进行取整变得容易。 可以将第一列四舍五入到2位小数,并将第二四舍五入到最接近的千位,如下所示: 欢迎在下面留言,完善本文内容,让更多的人学到更完美的知识。

9.7K20

何在矩阵的行上显示“其他”【4】看得见与看不见,看上去看不见但还是能看得见,看上去看不见也真的看不见

按照惯例,先上链接: 往期推荐 如何在矩阵的行上显示“其他”【1】 如何在矩阵的行上显示“其他”【2】 如何在矩阵的行上显示“其他”【3】切片器动态筛选的猫腻 引子 正常情况下,我们所见的表或者矩阵...没什么特别的,因为但凡使用过Power BI次以上的,都习以为常了。 所以,如果你看到下面这个矩阵,你是否会感到意外? 注意,后面都是度量值。...原本这个问题可以使用度量值来解决,但是度量值要实现的必要条件是在矩阵上额外添加一列排序: (来源:阿伟,固定城市分组配色。报告非常棒,值得学习。...如果处理的比较好,甚至可以将这一列给“隐藏”掉: (来源:夕枫,多维度动态帕累托分析,优质报告,非常值得学习。 https://app.powerbi.com/view?...) 正如我在这篇文章中所采用的思想: Power BI巧用“空白度量值”,解决诸多复杂的问题 将某一列的宽度缩小到最小,可以实现假装“隐藏”,仿佛这一列不存在一样: 但是,一定不能让报告使用者点击其他排序

1.6K30

【通俗易懂】关系模式范式分解教程 3NF与BCNF口诀!小白也能看懂「建议收藏」

1NF是指数据库表的每一列都是不可分割的基本数据项,即实体中的某个属性不能有多个值或者不能有重复的属性。 2NF要求属性完全依赖于主键,不能存在仅依赖主关键字一部分的属性。...还原即可删,再左非单。 通过求下面的最小依赖集对口诀进行解释, (2)3NF分解: 口诀: 保函依赖分解题,先求最小依赖集。 依赖侧未出现,分成子集放一边,剩余依赖变子集。...先求出R的最小依赖集,可得F={A ->D,E->D,D->B,BC->D,DC->A} 第二步:依赖侧未出现,分成子集放一边。...首先可以发现没有不出现在侧的元素不用单独分出一个子集,“剩余依赖变子集”然后我们将各依赖分别划分为子集得到:{AD} {ED} {DB} {BCD} {DCA},即为所求保持函数依赖的3NF分解 第三步...首先可以发现没有不出现在侧的元素,然后我们将各依赖分别划分为子集得{BG} {CEB} {CA} {BD} {CD},即为所求保持函数依赖的3NF分解 第三步:若要连接成无损,再添候选做子集。

8.4K50
领券