开发实例:学生成绩排名及分布 需求目标是从网页上抓取某班级学生的各科成绩汇总表,然后对分数进行排名,并通过可视化图表展示成绩的分布情况。在开发的过程中,我会使用腾讯混元大模型作为辅助。...不过我想要Excel文件,所以让它再给我改一下。...比如来计算一下每个学生的各科成绩总分和平均分。 混元给出了计算总分和平均分的方法,但有点小问题,计算取的列不对。...于是我再提醒它一下: 根据修改后的回答,更新我们的代码: import pandas as pd df = pd.read_excel("output.xlsx", sheet_name="Sheet1...不过它给的 'Microsoft YaHei' 字体我电脑上没有,替换成我系统里有的 'Songti SC',确实可以解决显示问题: 然后再把这两张分布图分开绘制: 混元给出的方案是根据 matplotlib
把目标 URL 代入混元给出的代码中: 运行效果如下: 02、存储数据 在上一个回答中,混元已经给我们提供了将数据保存为 csv 文件的方法。不过我想要 Excel 文件,所以让它再给我改一下。...混元给出的方案是使用 pandas 的 .to_excel 方法,把它加入到我们前面的代码中: 执行后得到的 Excel 文件如下: 03、读取数据 保存完数据之后,再进行处理的话需要从文件中读取出数据...读取 Excel 数据的代码很简单,在混元给出的代码上改一下文件名就可以用了: 运行效果如下: 04、清洗数据 成绩表中有一些缺失的分数。对于这些成绩我希望将其替换成0分,以便于后续的计算。...于是我再提醒它一下: 根据修改后的回答,更新我们的代码: 运行效果如下: 06、数据可视化 最直观展示数据整体情况的方法就是通过可视化图表。...不过它给的 'Microsoft YaHei' 字体我电脑上没有,替换成我系统里有的 'Songti SC',确实可以解决显示问题: 然后再把这两张分布图分开绘制: 混元给出的方案是根据 matplotlib
关键词: python、pandas、to_excel、文本形式存储的数据 需求描述: 我用 python pandas 写了数据统计与分析脚本,并把计算结果用 pandas 的 to_excel()...但遇到一个问题:当我的老板和同事们打开 excel 文件时,发现百分比数值无法正常显示,提示为“文本形式存储的数据”。 ? 想让此类百分比数值正常显示,我该怎么办呢? ?...在工作中,当我们需要输出文档给团队查阅,必须自己为文档的质量负责,而非要求或期望我的老板和同事来处理。 2、立即生效、简单好用的笨办法。...如果单个文件中此类“文本形式存储的数据”较多,或你需要频繁输出该类文件,那么当然更好的做法是:直接优化脚本,从根源上解决问题。...btw,您有解决办法吗?当需要把dataframe数据输出到excel并有多个子表时,如何能让百分数正常显示,而无任何异常提示呢?
然而,当时的解决办法是SGD,,通过随机梯度下降,避免梯度在更新时连续乘以一个小于1或者大于1的数,从而避免梯度消失或爆炸的情况。...因为神经网络的每一个层难以做到这样的精确变换[参见解释一]。 那么有没有这样一种可能,通过让56层网络多出来的层,不仅让前面一层传来的参数作为输入,而且让前n层的参数传过来作为输入呢?...这种想法也并不是毫无来由,当时的VLAD就是类似的残差结构,并且是一种很成功的提取图像特征、进而对图像分类的办法——图3中 , 为第i个局部特征, 为第i个聚类中心(kmeans),通过计算特征与最近的聚类中心的距离...,难以应用; 网络越深,梯度越往后穿越容易消失(梯度弥散),难以优化模型 对于图片识别,同一个对象在每一个图片里面的大小是不同的,如果用相同的卷积核显然不合常理,而Inception的解决办法就是将多个卷积或池化操作放在一起组装成一个单元...下采样:在数据量分布不均衡的情况下,直接拿这样的数据建模容易出问题 直接拿原始数据建模的问题在于数量少的类别容易被分错,而下采样就是在数量多的类别中采取一部分数据作为训练数据去建模。
「还有一个办法是在与训练好的模型上用 embedding 与 vectorization 做预检索给企业提供私有数据的大模型。」简仁贤说。 这个办法做起来很方便,但弊端也很明显。...让大模型变得聪明起来的办法很多,无论是 Instruct learning、in context learning、Chain of Thought (CoT),门槛都比较高,模型工程师也要懂得很多技术细节...例如,在模型推理阶段,用户可以根据不同业务需求,调整「temperature」的数值,低温度可以生成更加专注、保守和一致的回答。...是不是符合商业规范或道德标准?有没有人身攻击?有没有牵扯到政治? 「所有这些环节,一个前面的大模型反思模型、加上基于人类反馈的强化学习、私域数据的掌控,还有 temperature 也可以调。...,也不受云计算厂商的限制,不用绑定任何云计算资源。」
所以我们的算法大多数都是基于无监督学习的,无监督学习意味着算法模型的有效性没有办法直观的衡量,任何发现的审计问题预警都需要相当长时间去证明,这些预警里面有些是真的审计风险,而大部分肯定只是一些比较特殊的正常情况...Z-Score 算法 标准分数(Standard Score,又称z-score,中文称为Z-分数或标准化值)在统计学中是一种无因次值,就是一种纯数字标记,是借由从单一(原始)分数中减去母体的平均值,再依照母体...实现:Z分数 Z-score的计算公式是,其中是数据集中的一个数据值,是数据集的均值,是数据集的标准差,而则是该数据值对应的Z分数。...如果你正想找一个单变量异常检测的算法,你一定要考虑一下Z分数。但是注意也不要以为这个算法可以通杀所有数据集,Z分数算法的应用往往受限于数据集,所以如何灵活使用各种技巧让数据集适用于这个算法是难点。...实现:皮尔森相关系数 两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商: 我们在项目中使用的是pandas里面的corr函数和复杂的SQL查询语句计算,以下是我找到的一些实现方法: Excel
大家好,我是早起。 最近在知乎上看到这样一个问题 题主表示pandas用起来很乱,事实真的如此吗?本文就将先如何利用pandas来行数据转换/编码的十种方案,最后再回答这个问题。...为了方便理解,下面创建示例DataFrame 数值型数据 让我们先来讨论连续型数据的转换,也就是根据Score列的值,来新增一列标签,即如果分数大于90,则标记为A,分数在80-90标记为B,以此类推...None for i in range(len(df1)): df1.iloc[i,3] = myfun(df1.iloc[i,2]) 这段代码,相信所有人都能看懂,简单好想但比较麻烦 有没有更简单的办法呢...例如新增一列,将性别男、女分别标记为0、1 使用 replace 首先介绍replace,但要注意的是,上面说过的自定义函数相关方法依旧是可行的 df6 = df.copy() df6['Sex_Label...如果我们希望它是有序的,也就是 Python 对应 0,Java对应1,除了自己指定,还有什么优雅的办法?
大家好,我是小F~ Pandas是一个开源Python库,广泛用于数据操作和分析任务。 它提供了高效的数据结构和功能,使用户能够有效地操作和分析结构化数据。...Series是一个一维标记数组,可以容纳多种数据类型。DataFrame则是一种二维表状结构,由行和列组成,类似于电子表格或SQL表。...# 检查重复行 df.duplicated() # 删除重复行 df.drop_duplicates() # 计算z分数 z_scores = (df - df.mean()) / df.std...() # 根据z分数识别离群值 = df[z_scores > threshold] # 删除离群值 df_cleaned = df[z_scores <= threshold] # 替换列中的值...Pandas提供了广泛的统计函数和方法来分析DataFrame或Series中的数据。
整合公司数据是让 LLM 能够提供及时结果的内在需求。* **幻觉**:当回答问题或进行交互式对话时,LLM 模型可能会编造一些听起来可信和令人信服的事实,但实际上是一些不符合事实的预测。...使用 Elastic 的平台,开发团队可以使用密集的矢量检索来创建更直观的问题回答,而不受关键字或同义词的限制。...以上面示例:filter match "bar" 对命中的文档计算出一个分数,它用的 score 函数是 random_score。...filter match "cat" 对命中的文档计算出一个分数,它用的 score 函数是 weight。...不同 filter 条件计算的得分衡量维度不一样,比如有些是百分制,有些是小数制,因此需要结合成最终分数时需要统一维度,这就是每个 filter 条件对应的 weight 参数所起的作用。
深度学习自然语言处理 原创 作者 | 刘嘉玲 随着开源语言大模型(LLM)的百花齐放,模型的性能和效率关乎到产品的成本和服务体验的均衡。那么,有没有办法让语言大模型变得更高效、更优秀呢?...UltraChat的三个方案:关于世界的问题、写作和创作、对现有材料的协助都有特点的设计,如下图: 图:UltraChat的构建过程 2.1 关于世界的问题 这部分数据主要关注的是现实世界中存在的概念...收集这部分数据的方法有两个角度:一个是围绕主题和概念,另一个是围绕现实世界的实体。...最后对200k个特定问题和250k个一般问题以及50k个元问题进行采样,并迭代地生成多轮的对话。 2.2 写作和创作 这部分的目的是根据用户的指示,自动生成不同类型的写作文本。...将生成的指令作为初始输入,分别生成2~4轮的对话。 2.3 对现有材料的协助 这部分的目的是根据现有的文本材料,生成不同类型的任务,比如改写、翻译、总结等。
比如我之前在的一家公司里学习过使用一种插件,叫@Risk,不知道大家有没有听过,没听过也没关系,我用到这个插件的功能叫,MonteCarlo 蒙特卡洛分析,是一种统计模拟方法。...PowerPivot可以解决这个问题,让你随心所欲地实现计算度量。...另一方面是数据分析功能,就是PowerPivot,DAX语言,它可以让我用类似Excel写公式的方式,实现很多非常复杂的高级分析。...虽然这些软件的设计已经尽最大努力考虑到大部分数据分析的应用场景,但本质上他们都是定制化的,如果没有设计某一项功能,或者开发某项功能的按钮,很有可能你就不能完成你的工作。...我今天分享的部分就先讲到这里,希望个人的一些见解能够给大家一些启发。各位朋友如果有不同的看法或者想法也非常欢迎与我探讨。接下来的时间我来看看大家有没有什么问题,我尽量一一解答。
迟先生进行了 coprocessor 模块的开发,这个模块主要负责的是 TiDB 的下推计算,它通过将 TiDB 的部分算子下推到 TiDB 分布式存储层来做,可以有效提高数据库运行的效率。...这个回答出乎了我们的意料,我们都笑了出来。 不平静的大学生活 “如果自己就是潮水的一部分,怎么能看见潮流的方向呢?”...实践课基本上是根据课后项目的完成度来给分数的,而他因为有着丰富的工程经验,所以可以快速的上手,所以这些实践课的分数基本上都比较高(小编补充:满分)。...另外一些课程是理论课,比如说计算理论、人工智能这样的课。这些课的分数组成大部分都是考试。...那么在这种情况下面,他们确实对我造成了一些影响,让我觉得我特别的失败,我不管怎么努力都没有办法达到他们的水平。
迟先生进行了 coprocessor 模块的开发,这个模块主要负责的是 TiDB 的下推计算,它通过将 TiDB 的部分算子下推到 TiDB 分布式存储层来做,可以有效提高数据库运行的效率。...这个回答出乎了我们的意料,我们都笑了出来。 不平静的大学生活 ? “ 如果自己就是潮水的一部分,怎么能看见潮流的方向呢?...实践课基本上是根据课后项目的完成度来给分数的,而他因为有着丰富的工程经验,所以可以快速的上手,所以这些实践课的分数基本上都比较高(小编补充:满分)。...另外一些课程是理论课,比如说计算理论、人工智能这样的课。这些课的分数组成大部分都是考试。...那么在这种情况下面,他们确实对我造成了一些影响,让我觉得我特别的失败,我不管怎么努力都没有办法达到他们的水平。
的增删改查,Series实例填充到Pandas中,请参考: 玩转Pandas,让数据处理更easy系列1 玩转Pandas,让数据处理更easy系列2 02 读入DataFrame实例 读入的方式有很多种...read_excel是静态方法,不是实例方法,所以pd模块可以直接引用。...保存到excel或csv文件中,最经常出现的一个问题: 某些中文字符出现乱码。解决措施,to_csv方法的参数:encoding 设置为'utf_8_sig'. 这种方法应该是比较简洁的解决办法。...04 DataFrame遍历Series 读入或内存创建一个DataFrame实例:pd_data后,我们想根据某些条件,按照某个规则,对这些数据进行聚类,那么,一种比较直接的办法便是对pd_data遍历...在Python中,这种一边循环一边计算的机制,称为生成器:generator。
有了这个认知,接下来就是想办法让这个临界值变小,也就是用更小的训练集来更快地达到最理想的性能,如右图的红虚线所示。...进一步的思路是图二的红实线认知:要多少是多啊,先训着再说,慢慢的就会发现即便用自己有的一小部分数据集好像也能达到一个不错的分类性能,这个时候就遇到一个问题:自己的数据集样本数到底有没有到达临界值呢?...这个问题我会在第三部分去回答它,这里先假设我们知道了它的答案,接下来的问题就是如何让这个临界值变小? 2、如何让临界值变小?...我们给出的解决方法是:先计算majority的预测,然后在majority上面算diversity,只要网络的预测大方向是统一的,就是统一的。意思就是想个办法把Fig.4中的三个非主流0.1扔掉。...这个改进的数学表达也非常直观,以Fig.4为例,为了知道大方向,我们计算它们的平均值,如果大于0.5,大方向就是label 1,反之大方向是label 0,如果是前者,那么就从大到小取前25%的预测,其他的不要啦
你此刻想到的可能是one-hot encoding,但还是有问题,对于逻辑回归来说,one-hot encoding输出的矩阵太稀疏了,很难让逻辑回归有很好的效果。...这个分数必须和必须有这个特性:分数越大,代表这个变量给bad label的贡献度越大,这个贡献度,视运算符号不同,可以是正向,也可以是负向,但我们期望它们之间有个线性关系。 我们需要引入WOE编码。...Bad_i为在i个分箱的bad label数量,Bad_T为总共的bad label数量。例如下面举个例子, 计算可以得到 ?...我们知道,逻辑回归的方程是: 逻辑回归拿年龄做变量,例如 是年龄,训练后 是固定权重值,如果 是正值,那么年龄越高, 的值越大,最后分数 值也越大,但从上图可以看出实际不是这样的。...为了解决这个非线性的问题,我们用WOE代替年龄段,根据WOE的计算过程,我们可以知道WOE值越高的分类,违约率越高,这样就可以把非线性映射转换成线性映射。
理论计算量是多少?测试 FLOPs 的时候是不是多帧测量? 高通的 npu 架构是很强的,不能单看高通的数据,你有没有自己在移动端部署过这个模型?是什么型号的芯片?...回答:如果是分割任务的话可以用 CRF 或者 Random Walk 来 refine 一下标签;或者参考文献将 noisy label 和 精细的 label 一起训练提升效果;或者用 noisy label...先训一个模型,作为预训练权重,然后再用精细的 label 进行 finetune;然后问面试官给点提示,他说他也没做过,只是一个开放性问题,然后说如果是他的话,可能会用不确定性来将 noisy 的部分给干掉...移动端部署加速的话你能想到用什么办法吗?...回答:蒸馏提供了一个更加 soft 的 label,可以使网络更好地去拟合。 MODNet 是一个 Trimap Free 的还是 Trimap Based 的算法?
大致的意思就是通过excel自动提交表单数据你帮我搞定了,你好厉害,现在整理excel的工作我也不是很想做,你有没有办法帮我搞定,搞定之后不会亏待你的,奶茶一定双手奉上。...经过 聊了十几分钟之后,大致了解了需求,其实就是有几个部门每天会发来固定的excel,她需要根据一定的要求整理汇总,有问题的数据联系对应的人去处理,没有问题的数据再录入到系统。...但存放路径不定,基本上都是通过邮件来沟通的,原本想去遍历邮件去获取附件的,但考虑到无法判断哪份excel是最终版,所以这一步就算了,让业务自行判断后放到统一的路径下。...接下来就是遍历指定路径下的excel,根据业务给的数据规则进行整合,整合之后生成一个目标excel,一份是正确的数据,还一份是异常数据。...python操作excel 面对这样的需求,正好也让自己复习巩固下python操作excel的几个模板,记录下来,供大家参考。
LearnFromPapers系列——标签增强技术(Label Enhancement) 作者:郭必扬时间:2020.12.29 前言:我们习惯于使用one-hot标签来进行模型的训练,但是有没有办法可以构造出更好的标签呢...标签分布学习(Label Distribution Learning,LDL)的任务是让模型去学习一个样本的标签分布(Label Distribution),即每一个维度都反映对应标签程度的一种概率分布...第一步,通过下面的公式,计算N个样本之间的一个N×N的相似性矩阵A: 然后,根据下面的公式,构建label propagation matrix,即标签传导矩阵P: 看到这个公式,熟悉GCN的人会发现...根据前面提到的思想,作者设计的目标函数是这样的,由两部分组成: 前一个部分,就是一个普通的MSE损失函数或最小二乘损失: 如果只优化这个目标,那么得到的就是一个倾向于one-hot/logical...第二部分,希望相似的样本其分布也相似: 其中这里的a是表达样本i和j之间的相似系数,公式如下: 可以发现,这里计算相似性的方法,跟Label Propagation十分相似,只是多了一个“仅在最近邻范围内计算相似度
猴子数据分析训练营的第2关视频课程是《如何看懂数据?》,根据同学在训练营里的讨论,我对常见问题进行了整理和回答。 【问】什么是字段? 字段信息就是表的列名(比如Excel表的列名)。...如果数据中有2个众数,就说这个数据集是是双峰数据 例如,课程里下面球员1的得分数据集,得分10分的数据出现次数最多(也就是频数最大是4),所以这个数据集的众数是10分 【问】为什么不同的书上、课程里的四分位数计算方法不一样...知识加餐:Excel的数据分析功能可以计算出描述统计分析,在训练营后面关卡课程里会讲到。...Python也有专门的计算四分位数的工具,方法如下: 【问】在分析就餐人员距离案例中,在箱线图中是如何看出大部分数据集中在哪一端的?...这个案例中的箱线图,中位数距离下四分位数比较近,表明大部分数据集中盒子的下端,也就是大部分数据集中在下四分位数和中位数之间。
领取专属 10元无门槛券
手把手带您无忧上云