首页
学习
活动
专区
工具
TVP
发布

机器学习与统计学

专栏成员
822
文章
1166657
阅读量
97
订阅数
Pandas中使用pivot_table函数进行高级数据汇总
Pandas的pivot_table函数是一个强大的数据分析工具,可以帮助我们快速地对数据进行汇总和重塑。
统计学家
2024-09-18
130
概率、统计学在机器学习中应用:20个Python示例
在数据科学和机器学习领域,概率论和统计学扮演着至关重要的角色。Python作为一种强大而灵活的编程语言,提供了丰富的库和工具来实现这些概念。本文将通过20个Python实例,展示如何在实际应用中运用概率论和统计学知识。
统计学家
2024-09-18
220
Cursor 完全使用教程
本文是对 Juan Stoppa 的博文 Code Smarter, Not Harder: Developing with Cursor and Claude Sonnet[1] 的改译。之所以叫改译是因为本文大部分内容是根据我自己的使用体验来讲的,但是因为行文的框架是参考他的文章架构来的,因此叫做改译。
统计学家
2024-09-14
1090
一行Python代码,数据集转化为交互式可视化分析工具
在您的 Jupyter Notebook 中导入 pygwalker 和 pandas 来开始使用。
统计学家
2024-09-12
800
统计学最重要的10个概念【附Pyhon代码解析】
平均值是一组数据的算术平均数,计算方法是将所有数值相加后除以数据的总数。它是最常用的集中趋势度量,但容易受极端值影响。
统计学家
2024-09-12
940
深度学习架构,国产!
根据摩尔定律,计算机的速度平均每两年就会翻一倍,但深度学习的发展速度还要更快,如图 1 和 2 所示。
统计学家
2024-09-12
650
Python新手必学:10个内置模块让你的代码更高效
collections模块提供了额外的数据结构,如Counter, defaultdict和namedtuple。这些结构可以让你的代码更简洁、更高效。
统计学家
2024-09-12
790
【Python代码模板】数据预处理、数据分析、假设检验、机器学习
本次分析使用的数据来自"yc_data.csv",该文件包含了 Y Combinator(YC)创业加速器投资的公司详细信息:
统计学家
2024-09-12
1030
大模型是一场泡沫?
转眼,2024年的九月就要带来,能写在简历里的东西,和两年前没什么区别。为数不多的变化是精神状态,从对未来充满希望,变得无所适从,变得绝望,变得死亡,又开始在死亡里寻找一点点新的生活的影子。
统计学家
2024-09-12
730
神经网络泛化能力研究!
论文标题:Feature Contamination: Neural Networks Learn Uncorrelated Features and Fail to Generalize
统计学家
2024-09-02
1280
极简演示,机器学习建模全流程:从数据到模型部署的全面指南
机器学习已经成为现代技术领域不可或缺的一部分。无论是推荐系统、图像识别还是自然语言处理,机器学习都在发挥着重要作用。但是,如何从原始数据到最终的机器学习模型呢?让我们一起探索机器学习建模的完整流程。
统计学家
2024-09-02
1210
Chat RAG-基于检索增强生成(RAG)的交互式编程助手,可本地部署
Chat RAG 是一个基于检索增强生成(RAG)技术的交互式编程助手,它提供了一个用户友好的 Gradio 界面,允许用户与各种语言模型进行交互,以获得编程问题的解答。该项目结合了先进的自然语言处理技术和灵活的用户界面,为开发者提供了一个强大的工具来解决编程难题。
统计学家
2024-09-02
1180
为什么检索增强生成(RAG)在获取新知识方面优于微调?
虽然 RAG 和微调都可以用于将新信息整合到 LLM 并提高特定任务的性能,但研究表明,对于训练期间遇到的知识以及全新知识,RAG 的表现始终优于无监督微调(也称为持续预训练)。一项研究比较了 RAG 和无监督微调在 MMLU 子集和时事上的表现,发现 RAG 的表现始终优于微调。另一篇论文将 RAG 与农业数据集上的监督微调进行了比较,结果表明,RAG 带来的性能提升大于微调,特别是对于 GPT-4。
统计学家
2024-08-21
900
最容易找到工作的8种编程语言,Python排第2
目前,JavaScript 是整个市场中需求最高的编程语言,此外,TypeScript(一种带有类型安全性的 JavaScript 超集)的到来也可能帮助它达到这一里程碑。
统计学家
2024-08-20
1040
开发了一个快捷指令,一键AI总结网页,保存到本地,附代码
方法是在r.jina.ai后加网址,curl 用法如下,为取content方便,响应采用 JSON 格式
统计学家
2024-08-01
1470
如何用 Python 制作 epub 电子书
最近出的两个小册子PDF版手机阅读起来太费劲了,也试着制作了适合手机端阅读的epub版。
统计学家
2024-07-16
1190
把训练集的损失降低到0,没必要
在训练模型的时候,我们需要将损失函数一直训练到0吗?显然不用。一般来说,我们是用训练集来训练模型,但希望的是验证机的损失越小越好,而正常来说训练集的损失降到一定值后,验证集的损失就会开始上升,因此没必要把训练集的损失降低到0
统计学家
2024-07-16
1040
用 PCA 探索数据分类的效果(使用 Python 代码)
我们先从理论开始。我不会深入讲解太多细节,因为如果你想了解 PCA 的工作原理,有很多很好的资源^2^3。重要的是要知道 PCA 是一种降维算法。这意味着它用于减少用于训练模型的特征数量。它通过从许多特征中构建主成分 (PC) 来实现这一点。
统计学家
2024-07-16
1430
谷歌这次确实有诚意,性能翻倍
AI赛道上,科技巨头们激烈角逐。前脚有GPT-4o问世,后脚就出现了Claude 3.5 Sonnet。如此激烈的争斗中,谷歌虽然发力较晚,但在短时间内就能有显著的能力跟进,可见其技术发展与创新的潜力。
统计学家
2024-07-06
1020
Pandas 加速150倍!
Pandas是Python中一个强大的数据处理和分析库,特别适用于结构化数据。它提供了易于使用的数据结构和数据分析工具,使得处理和分析数据变得更加便捷和高效。
统计学家
2024-07-06
1110
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档