首页
学习
活动
专区
工具
TVP
发布

磐创AI技术团队的专栏

定期分享机器学习深度学习相关优质原创文章
专栏作者
718
文章
988241
阅读量
123
订阅数
主题建模 — 简介与实现
在自然语言处理(NLP)的背景下,主题建模是一种无监督(即数据没有标签)的机器学习任务,其中算法的任务是基于文档内容为一组文档分配主题。给定的文档通常以不同比例包含多个主题 — 例如,如果文档是关于汽车的,我们预期汽车的名称会比某些其他主题(例如动物的名称)更突出,而我们预期诸如“the”和“are”之类的词汇会几乎等比例出现。主题模型实施数学方法来量化给定文档集合的这些主题的概率。
磐创AI
2024-05-08
690
扎克伯格发布“史上最强大开源模型”——Llama3,Meta AI 挑战 OpenAI!
近日,Meta 在官网官宣开源模型Llama-3系列, Llama 3 8B(80亿参数)和70B(700亿参数)两个版本!Meta 将 Llama 3 称为有史以来最强的开源大模型!除了这两个版本,扎克伯克透露,Llama 3 最大的4050亿参数的模型仍在训练中。
磐创AI
2024-04-28
1560
地理空间数据的时间序列分析
例如,在环境科学中,时间序列分析有助于分析一个地区的土地覆盖/土地利用随时间的变化及其潜在驱动因素。它在气象研究中也很有用,可以帮助我们理解天气模式的时空变化(我将很快使用降雨数据演示一个这样的案例研究)。社会和经济科学在理解时间和空间现象的动态方面也极大受益,例如人口、经济和政治模式。
磐创AI
2024-04-28
830
为什么梯度提升表现如此出色?
诸如xgboost之类的梯度提升算法是表格数据中表现最佳的模型之一。与其他模型(如随机森林)一样,梯度提升属于集成模型的范畴。该名称来源于该范畴的一个核心特征:它们不适应单个大模型,而是适应一个由多个模型组成的整体模型集合。集成模型与基础函数的概念密切相关。两者都使用较简单的构建块,这些构建块组合在一起以解决更复杂的问题。
磐创AI
2024-04-22
750
生存分析:优化Cox模型的部分似然
在本文中,我们介绍了一种流行的生存分析算法,Cox比例风险模型¹。然后,我们定义了其对数部分似然和梯度,并通过一个实际的Python示例对其进行优化,以找到最佳的模型参数集。
磐创AI
2024-04-15
880
超10秒高分辨率,北大Open Sora视频生成更强了,还支持华为芯片!
【导读】OpenAI 在今年年初扔出一项重大研究,Sora 将视频生成带入一个新的高度,很多人表示,现在的 OpenAI 一出手就是王炸。然而,众多周知的是,OpenAI 一向并不 Open,关于 Sora 的更多细节我们无从得知。谁能率先发布类 Sora 研究成了一个热门话题。
磐创AI
2024-04-15
1200
Streamlit颜色选择器
Streamlit的一个有用功能是颜色选择器工具。这使你可以通过让用户选择任何颜色,而不是使用默认的硬编码颜色,为你的仪表板添加灵活性。
磐创AI
2024-04-15
1160
带有依从性预测区间的时间序列预测
在进行时间序列预测任务时,我们通常会开发产生未来观测点的点估计的解决方案。这是正确的,如果经过适当验证,它们可能对业务结果产生积极影响。有没有可能做得更好?通过简单添加更多信息,我们能够提供更详细的预测吗?
磐创AI
2024-04-03
660
霍尔特-温特斯的时间序列预测
我们讨论一组非常知名的预测模型,指数平滑。指数平滑的基本原则是将更多的权重放在最近的观测值上,而在历史观测值上放置更少的权重,以用来预测时间序列。
磐创AI
2024-04-03
1560
Python列表创建的技巧
《Effective Python》是Brett Slatkin撰写的一本涵盖59种写更好Python代码的具体方法的书籍。该书以随机访问的方式编写,每个主题都有独立的源代码。对于中级Python程序员来说,无论是工程师还是数据科学家,这是一个很好的资源,因为它涵盖了可以以任何顺序学习的广泛主题范围。
磐创AI
2024-04-03
660
英伟达发布全球最强芯片B200!AGI的时代真要提前到来?
【导读】2024年3月18日,英伟达在美国硅谷的圣何塞会议中心举行了2024年度AI大会GTC(GPU Technology Conference)。在这场人工智能大会上,英伟达的新一代性能巨兽Backwell B200诞生了!
磐创AI
2024-04-03
1100
加载大型CSV文件到Pandas DataFrame的技巧和诀窍
现实世界中的大多数数据集通常都非常庞大,以千兆字节为单位,并包含数百万行。在本文中,我将讨论处理大型CSV数据集时可以采用的一些技巧。
磐创AI
2024-04-03
1010
为什么以及如何弃用仪表板
一个人可以合理地从多少个仪表板中获得洞察并采取行动?虽然我不知道答案(实际上这将是一项很好的调查),但我希望我们都可以达成一致的看法,即存在一定的限制。当我们在分析问题本身之前就为每个问题创建一个仪表板,而不进行分析时,仪表板膨胀就会发生。
磐创AI
2024-04-03
820
生存分析是什么?手动和使用R的示例
尽管生存分析是统计学的一个分支,但通常不包含在初级统计学课程中,对一般公众来说也相对不知名。它主要在生物统计学课程或高级统计学研究计划中教授。
磐创AI
2024-03-22
860
如果 .apply() 太慢怎么办?
如果你在Python中处理数据,Pandas必然是你最常使用的库之一,因为它具有方便和强大的数据处理功能。
磐创AI
2024-03-22
810
在Python中使用交叉验证进行SHAP解释
在许多情况下,由于其出色的预测性能和处理复杂非线性数据的能力,机器学习模型通常优于传统的线性模型。然而,机器学习模型常见的批评是它们缺乏可解释性。例如,集成方法如XGBoost和随机森林将许多个体学习器的结果结合起来生成它们的结果。尽管这通常导致更好的性能,但它使得很难知道数据集中每个特征对输出的贡献是多少。
磐创AI
2024-03-22
1230
从零开始的K均值聚类
机器学习的主要思想是创建一个可以根据先前数据提供合理决策而无需显式编程的广义模型。机器学习问题可以是监督或无监督的。本文关注的是一种无监督机器学习算法,称为“K均值”聚类。
磐创AI
2024-03-22
790
单变量分析 — 简介和实施
作为一名数据科学家,当你收到一组新的、不熟悉的数据时,你会采取什么第一步?熟悉数据。
磐创AI
2024-03-12
960
【AIGC工具系列】火山写作!一款免费又好用的国产AI写作工具!
【导读】这是AIGC工具系列的第三篇文章,今天主要给大家介绍的是字节旗下的一款非常好用而且免费的国产AI写作工具——火山写作!欢迎大家体验:https://www.openmao.cn/sites/1317.html。大家想了解更多的AIGC工具,也欢迎范文开放猫AI导航网。
磐创AI
2024-03-12
2070
调整模型以减少错误预测
在创建分类模型时,许多算法提供了predict_proba()函数,用于给出观察结果被分类到每个类别的概率。因此,通常会看到如下输出:
磐创AI
2024-03-12
1050
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档