将我的代码转换为列表理解，以允许无限的数据点 - 腾讯云开发者社区

在许多情况下，机器学习模型比传统线性模型更受欢迎，因为它们具有更好的预测性能和处理复杂非线性数据的能力。然而，机器学习模型的一个常见问题是它们缺乏可解释性。例如，集成方法如XGBoost和随机森林将许多个体学习器的结果组合起来生成结果。尽管这通常会带来更好的性能，但它使得难以知道数据集中每个特征对输出的贡献。为了解决这个问题，可解释人工智能（explainable AI, xAI）被提出并越来越受欢迎。xAI领域旨在解释这些不可解释的模型（所谓的黑匣子模型）如何进行预测，实现最佳的预测准确性和可解释性。这样做的动机在于，许多机器学习的真实应用场景不仅需要良好的预测性能，还要解释生成结果的方式。例如，在医疗领域，可能会根据模型做出的决策而失去或挽救生命，因此了解决策的驱动因素非常重要。此外，能够识别重要变量对于识别机制或治疗途径也很有帮助。最受欢迎、最有效的xAI技术之一是SHAP。

练手扎实基本功必备：非结构文本特征提取方法

在本文中，我们将研究如何处理文本数据，这无疑是最丰富的非结构化数据来源之一。文本数据通常由文档组成，文档可以表示单词、句子甚至是文本的段落。文本数据固有的非结构化(没有格式整齐的数据列)和嘈杂的特性使得机器学习方法更难直接处理原始文本数据。因此，在本文中，我们将采用动手实践的方法，探索从文本数据中提取有意义的特征的一些最流行和有效的策略。这些特征可以很容易地用于构建机器学习或深度学习模型。

您找到你想要的搜索结果了吗？

是的

没有找到

经验 | 3行代码数据预处理提速6倍！

统计学小抄：常用术语和基本概念小结

来源：DeepHub IMBA本文约2200字，建议阅读5分钟统计学是涉及数据的收集，组织，分析，解释和呈现的学科。统计的类型 1) 描述性统计描述性统计是以数字和图表的形式来理解、分析和总结数据。对不同类型的数据(数值的和分类的)使用不同的图形和图表来分析数据，如条形图、饼图、散点图、直方图等。所有的解释和可视化都是描述性统计的一部分。重要的是要记住，描述性统计可以在样本和总体数据上执行，但并不会使用总体数据。 2) 推论统计从总体数据中提取一些数据样本，然后从这些数据样本中，推断一些东西(结论)。

写给小白：K近邻算法入门

本文的代码，均发布到百度AI Studio的在线平台中，关注微信公众号「老齐教室」，并回复：#真实姓名+手机号+‘案例’#，申请加入含有苯问案例的《机器学习案例》课程，得到包含本案例在内的更多机器学习案例。注意：回复信息中（1）必须以#开始和结尾（2）必须是真实姓名和手机号。

统计学小抄：常用术语和基本概念小结

描述性统计是以数字和图表的形式来理解、分析和总结数据。对不同类型的数据(数值的和分类的)使用不同的图形和图表来分析数据，如条形图、饼图、散点图、直方图等。所有的解释和可视化都是描述性统计的一部分。重要的是要记住，描述性统计可以在样本和总体数据上执行，但并不会使用总体数据。

如何将 Transformer 应用于时间序列模型

在机器学习的广阔前景中，transformers 就像建筑奇迹一样高高耸立，以其复杂的设计和捕获复杂关系的能力重塑了我们处理和理解大量数据的方式。

python在Keras中使用LSTM解决序列问题

时间序列预测是指我们必须根据时间相关的输入来预测结果的问题类型。时间序列数据的典型示例是股市数据，其中股价随时间变化。

《Julia 数据科学应用》总结

3．假设你想创建一个列表，保存在一段文本中遇到的不同的（唯一的）词以及词的数量，你应该使用哪种数据结构来保存它们，可以最容易地进行随后的数据存取？

智能主题检测与无监督机器学习：识别颜色教程

介绍人工智能学习通常由两种主要方法组成：监督学习和无监督的学习。监督学习包括使用现有的训练集，这种训练集由预先标记的分类数据列组成。机器学习算法会发现数据的特征和这一列的标签(或输出)之间的关联。通过这种方式，机器学习模型可以预测它从来没有公开过的新的数据列，并且根据它的训练数据返回一个精确的分类。在你已经有了预先分类的数据的情况下，监督学习对于大数据集是非常有用的。在另一种是无监督的学习。使用这种学习方式，数据不需要在训练集中进行预先标记或预分类，相反，机器学习算法在数据的特征中发现相似的特征和关

高斯函数、高斯积分和正态分布

正态分布是高斯概率分布。高斯概率分布是反映中心极限定理原理的函数，该定理指出当随机样本足够大时，总体样本将趋向于期望值并且远离期望值的值将不太频繁地出现。高斯积分是高斯函数在整条实数线上的定积分。这三个主题，高斯函数、高斯积分和高斯概率分布是这样交织在一起的，所以我认为最好尝试一次性解决这三个主题（但是我错了，这是本篇文章的不同主题）。本篇文章我们首先将研究高斯函数的一般定义是什么，然后将看一下高斯积分，其结果对于确定正态分布的归一化常数是非常必要的。最后我们将使用收集的信息理解，推导出正态分布方程。

「搜索和非结构化数据分析」2020年值得关注的5大趋势

大多数组织都很好地利用了结构化数据(表格、电子表格等)，但是很多未开发的业务关键的见解都在非结构化数据中。

python在Keras中使用LSTM解决序列问题

时间序列预测是指我们必须根据时间相关的输入来预测结果的问题类型。时间序列数据的典型示例是股市数据，其中股价随时间变化。

基于PyTorch深度学习框架的序列图像数据装载器

如今，深度学习和机器学习算法正在统治世界。PyTorch是最常用的深度学习框架之一，用于实现各种深度学习算法。另一方面，基于学习的方法本质上需要一些带注释的训练数据集，这些数据集可以被模型用来提取输入数据和标签之间的关系。为了给神经网络提供数据，我们定义了一个数据加载器。

如何对非结构化文本数据进行特征工程操作？这里有妙招！

文本数据通常是由表示单词、句子，或者段落的文本流组成。由于文本数据非结构化（并不是整齐的格式化的数据表格）的特征和充满噪声的本质，很难直接将机器学习方法应用在原始文本数据中。在本文中，我们将通过实践的方法，探索从文本数据提取出有意义的特征的一些普遍且有效的策略，提取出的特征极易用来构建机器学习或深度学习模型。研究动机想要构建性能优良的机器学习模型，特征工程必不可少。有时候，可能只需要一个优秀的特征，你就能赢得 Kaggle 挑战赛的胜利！对于非结构化的文本数据来说，特征工程更加重要，因为我们需要将文

【译】JSX 如何生成 HTML 元素？

JSX 使我们更容易编写 React 组件。有些人可能会发现 JSX 具有很陡峭的学习曲线，这是完全可以理解的。它不完全是 HTML，也不完全是 JavaScript，所以学习它可能需要一些时间来适应。

原创｜一文读懂Embeding技术

Embedding 技术是一种将高维数据映射到低维空间的方法，通常用于将离散的、非连续的数据转换为连续的向量表示，以便于计算机进行处理。这种技术广泛用于自然语言处理（NLP）、图像处理、推荐系统和其他机器学习应用中，以方便大语言模型处理输入数据。

UCB Data100：数据科学的原理和技巧：第二十一章到第二十六章

HAVING通过在每个组的所有行上应用一些条件来过滤组。我们将其解释为只保留具有某些条件的组的一种方式。请注意WHERE和HAVING之间的区别：我们使用WHERE来过滤行，而我们使用HAVING来过滤组。在 SQL 执行查询时，WHERE在HAVING之前。

只要你用ReLU，就是“浅度学习”：任意ReLU神经网络都有等效3层网络

最近有研究证明，所有基于ReLU的深度神经网络都可以重写为功能相同的3层神经网络。

如何使用 Java 对时间序列数据进行每 x 秒的分组操作？

在时间序列数据处理中，有时需要对数据按照一定的时间窗口进行分组。本文将介绍如何使用 Java 对时间序列数据进行每 x 秒的分组操作。

GPT代码解释器功能来袭，你准备好了嘛？

OpenAI最新推出的ChatGPT的代码解释器功能，将AI的强大能力与数据科学相结合，提供了一个强大的工具，以改变我们对数据的处理、分析和可视化方式。在这篇文章中，我们将详细探讨这个新功能的各个方面，并深入理解它如何改变我们的工作和生活。

[云原生]用 GPT 开发听懂人话的云原生工具

2022 年 11月 ChatGPT 像一股风暴席卷全球。时隔数月，OpenAI 终于在 3 月 1 日正式推出了 ChatGPT 的开放 API。这意味着，我们通过简单的 API 调用，就可以与 ChatGPT 进行对话。可以预见的是像自来水一样使用 AI 的时代已经到来，我们可以随时随地使用它，而不需要关心算法实现细节。

数据清理的简要介绍

清理数据应该是数据科学（DS）或者机器学习（ML）工作流程的第一步。如果数据没有清理干净，你将很难在探索中的看到实际重要的部分。一旦你去训练你的ML模型，他们也将更难以训练。也就是说，如果你想充分利用你的数据，它应该是干净的。

数学科学计算工具Mathematica软件，Mathematica软件下载安装教程

Mathematica是一款非常强大的数学软件，它可以帮助我们进行各种数学计算和可视化操作。如果你正在学习数学或需要进行数学计算，那么Mathematica将是你的好帮手。

PyTorch 深度学习（GPT 重译）（二）

在上一章中，我们了解到张量是 PyTorch 中数据的构建块。神经网络将张量作为输入，并产生张量作为输出。事实上，神经网络内部的所有操作以及优化过程中的所有操作都是张量之间的操作，神经网络中的所有参数（例如权重和偏置）都是张量。对于成功使用 PyTorch 这样的工具，对张量执行操作并有效地对其进行索引的能力至关重要。现在您已经了解了张量的基础知识，随着您在本书中的学习过程中，您对张量的灵活性将会增长。

深度学习研究：微软认知转移神经元（CSN）技术，创建适应性元学习模型

适应性是将我们定义为人类的关键认知能力之一。即使我们没有事先对婴儿进行训练，也可以在相似的任务之间直观地切换。与大多数人工智能系统的传统训练和测试方法对比，无需在掌握特定任务之前通过大量训练。根据定义，训练和测试系统不具有很强的适应性，因此它们不适用于在真实环境中运行。提高人工智能系统的适应性一直是越来越受欢迎的核心研究领域之一，这被称为元学习，其重点在于提高智能体的学习能力。

基于 Apache Hudi 构建分析型数据湖

为了更好地发展业务，每个组织都在迅速采用分析。在分析过程的帮助下，产品团队正在接收来自用户的反馈，并能够以更快的速度交付新功能。通过分析提供的对用户的更深入了解，营销团队能够调整他们的活动以针对特定受众。只有当我们能够大规模提供分析时，这一切才有可能。

使用 HuggingFace Transformers创建自己的搜索引擎

2019年8月，我投入了我的第一个自然语言处理(NLP)项目，并在我的网站上托管了自动侍酒师(Auto-Sommelier)。使用TensorFlow 1和Universal Sentence Encoder，我允许用户描述他们理想的葡萄酒，并返回与查询相似的描述的葡萄酒。该工具将葡萄酒评论和用户输入转换为向量，并计算用户输入和葡萄酒评论之间的余弦相似度，以找到最相似的结果。

人人都能读懂的无监督学习：什么是聚类和降维？

可以说机器学习已经成为了改变时代的大事，一时间似乎人人都应该懂一点机器学习。但机器学习涉及到的数学知识和编程能力往往让没有相关经验的人望而却步。YupTechnologies 机器学习专家 Vishal Maini 近日在 Medium 上发布了一个介绍机器学习的系列文章《人类读得懂的机器学习（Machine Learning for Humans）》，用普通人能理解的语言对机器学习领域的一些核心概念进行了阐述。机器之心在这里编译了这一系列文章的第三部分「无监督学习」，对主要的聚类和降维算法进行了介绍，其中

Python 海象运算符 (:=) 的三种用法

原标题 | Three Ways to Use the Walrus Operator in Python

如何优雅的实现 try/catch 异常块？

来源 | cnblogs.com/liruilong/p/13403963.html

用JavaScript实现一个编译器

Babel is a JavaScript compiler！这是Babel官方对于babel的定义。身为前端工程师，因此有必要了解编译原理，幸运的是，“The Super Tiny Compiler”开源项目利用JavaScript写了一个简单的编译器。

Python那些熟悉又陌生的函数，每次看别人用得很溜，自己却不行？

如果您曾经发现自己在编程时一次又一次地查找相同的问题、概念或语法，那么您并不孤单。我发现自己经常这样做。我们生活在一个世界里，似乎有无限数量的可访问的。然而，这既是福也是祸。如果没有有效地管理，过度依赖这些资源会养成坏习惯，让你长期停滞不前。

一文详解聚类和降维（附实例、代码）

来源：机器之心作者：Vishal Maini 本文长度为3500字，建议阅读6分钟本文对无监督学习的聚类和降维算法进行介绍，其中包括 K 均值聚类、层次聚类、主成分分析（PCA）和奇异值分解（SVD）。我们可以怎样发现一个数据集的底层结构？我们可以怎样最有用地对其进行归纳和分组？我们可以怎样以一种压缩格式有效地表征数据？这都是无监督学习的目标，之所以称之为「无监督」，是因为这是从无标签的数据开始学习的。我们将在这里探索的两种无监督学习任务是：将数据按相似度聚类（clustering）成不同的分

主动学习（Active Learning）概述、策略和不确定性度量

来源：DeepHub IMBA本文约2400字，建议阅读9分钟主动学习是解决标注数据问题的一个方向，并且是一个非常好的方向。主动学习是指对需要标记的数据进行优先排序的过程，这样可以确定哪些数据对训练监督模型产生最大的影响。主动学习是一种学习算法可以交互式查询用户(teacher 或 oracle)，用真实标签标注新数据点的策略。主动学习的过程也被称为优化实验设计。主动学习的动机在于认识到并非所有标有标签的样本都同等重要。主动学习通过为专家的标记工作进行优先级排序可以大大减少训练模型所需的标记数据量。

主动学习（Active Learning）概述、策略和不确定性度量

主动学习是指对需要标记的数据进行优先排序的过程，这样可以确定哪些数据对训练监督模型产生最大的影响。

Python 海象运算符 (:=) 的三种用法

如果您快速浏览了一下，就会理解对这个新操作的担忧。似乎将两个简单的语句混为一谈，以使收益最小。

Python 海象运算符 (:=) 的三种用法

原标题 | Three Ways to Use the Walrus Operator in Python

使用傅立叶变换清理时间序列数据噪声

傅立叶变换是一种从完全不同的角度查看数据的强大方法：从时域到频域。但是这个强大的运算用它的数学方程看起来很可怕。

人人都能读懂的无监督学习：什么是聚类和降维？

选自Medium 作者：Vishal Maini 机器之心编译参与：Panda 机器学习已经成为了改变时代的大事，一时间似乎人人都应该懂一点机器学习。但机器学习涉及到的数学知识和编程能力往往让没有相关经验的人望而却步。YupTechnologies 机器学习专家 Vishal Maini 近日在 Medium 上发布了一个介绍机器学习的系列文章《人人读得懂的机器学习（Machine Learning for Humans）》，用普通人能理解的语言对机器学习领域的一些核心概念进行了阐述。机器之心在这里编译了

010

基于K-Means聚类算法的主颜色提取

本期我们将一起实现基于K-Means聚类算法的主色提取。在深入研究代码之前，让我们先了解一下K-Means算法的背景知识。

简介机器学习中的特征工程

要解决一个机器学习问题，我们不能仅仅通过将算法应用到提供的数据上。比如.fit() 。我们首先需要构建一个数据集。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐