无法修复我在为分析O‘’Reilly书中的"California Housing“数据集编写代码时遇到的错误 - 腾讯云开发者社区

2006 年，Geoffrey Hinton 等人发表了一篇论文，展示了如何训练一个能够以最先进的精度（>98%）识别手写数字的深度神经网络。他们将这种技术称为“深度学习”。深度神经网络是我们大脑皮层的（非常）简化模型，由一系列人工神经元层组成。在当时，训练深度神经网络被普遍认为是不可能的，大多数研究人员在 1990 年代末放弃了这个想法。这篇论文重新激起了科学界的兴趣，不久之后，许多新论文证明了深度学习不仅是可能的，而且能够实现令人惊叹的成就，其他任何机器学习（ML）技术都无法匹敌（在巨大的计算能力和大量数据的帮助下）。这种热情很快扩展到许多其他机器学习领域。

专栏 | 基于 Jupyter 的特征工程手册：特征选择（四）

数据预处理后，我们生成了大量的新变量（比如独热编码生成了大量仅包含0或1的变量）。但实际上，部分新生成的变量可能是多余：一方面它们本身不一定包含有用的信息，故无法提高模型性能；另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此，我们应该进行特征选择并选择特征子集进行建模。

您找到你想要的搜索结果了吗？

是的

没有找到

首个AI软件工程师Devin完整技术报告出炉，还有人用GPT做出了「复刻版」

这周三，Cognition AI 团队发布的首个 AI 软件工程师 Devin 引爆了 AI 社区，引发了人们对程序员这个职业未来前景的热议。

专栏 | 基于 Jupyter 的特征工程手册：特征选择（五）

专栏 | 基于 Jupyter 的特征工程手册：特征选择（一）

保姆级！一个新手入门 NLP 完整实战项目

分类模型还可用于解决一些起初并不明显合适的问题。例如 Kaggle 美国专利短语匹配[1]竞赛。在这项比赛中，我们的任务是比较两个单词或短语，并根据它们是否相似、在哪个专利类别中使用等因素进行评分。如果得分为 1，则认为这两个输入词具有相同的含义；如果得分为 0，则表示它们具有完全不同的含义。例如，abatement 和 eliminating process 得分为 0.5，表示它们有些相似，但不完全相同。

【TensorFlow篇】--Tensorflow框架初始，实现机器学习中多元线性回归

TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。

《Scikit-Learn与TensorFlow机器学习实用指南》第9章启动并运行TensorFlow

第9章启动并运行TensorFlow 来源：ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻译项目译者：@akonwang @WilsonQu 校对：@Lis

011

【机器学习基础】获取机器学习和深度学习的练习数据

初学者学习机器学习和深度学习的时候，经常会找不到练习的数据，本文提供了获取数据的一些方法。

日拱一卒，《机器学习实战》，做模型的前期准备

我们今天继续学习《机器学习实战》一书，之前我们已经聊完了第一章当中关于机器学习背景知识和基本概念。进入第二章，书中给了我们一个亲自动手建立端到端机器学习项目的案例，让我们从案例当中亲身体会机器学习模型的应用。

《Scikit-Learn与TensorFlow机器学习实用指南》第09章启动并运行TensorFlow

TensorFlow 是一款用于数值计算的强大的开源软件库，特别适用于大规模机器学习的微调。它的基本原理很简单：首先在 Python 中定义要执行的计算图（例如图 9-1），然后 TensorFlow 使用该图，并使用优化的 C++ 代码高效运行该图。

模型的可解释性：部分依赖图PDP和个体条件期望图ICE

部分依赖图 (PDP) 和个体条件期望 (ICE) 图可用于可视化和分析训练目标与一组输入特征之间的交互关系。

超完整总结，XGBoost算法！！

XGBoost，全称为 eXtreme Gradient Boosting，是一种优化的分布式梯度提升库，设计用于高效、灵活和可移植的机器学习模型。

TensorFlow 基础实战

Tensorflow 是干嘛的，就不过多赘述了，小伙伴们可以访问官网来详细了解 https://www.tensorflow.org/

模型的可解释性：部分依赖图PDP和个体条件期望图ICE

来源：Deephub Imba本文约1800字，建议阅读5分钟本文我们通过一个简单据集的回归示例了解了部分依赖图 (PDP) 和个体条件期望 (ICE) 图是什么，以及如何在 Python 中制作它们。部分依赖图 (PDP) 和个体条件期望 (ICE) 图可用于可视化和分析训练目标与一组输入特征之间的交互关系。部分依赖图（Partial Dependence Plot) 部分依赖图显示了目标函数（即我们的机器学习模型）和一组特征之间的依赖关系，并边缘化其他特征的值（也就是补充特征）。它们是通过将模型

数据可视化入门——我该从何开始？

选文：席雄芬翻译：佘彦遥姚佳灵校对：丁雪王方思我爱数据——并且我把这一事实告诉了很多人。如果你最近曾与我一起参加过聚会，我对在你的耳边喋喋不休地讲网页数据可视化工具或我

011

大模型入门实战

当大家都在热议大模型和生成式AI时，怎么让这些炫酷的技术快速落地，真正帮到商业和社会，成了个大难题。不过，AWS已经把大模型和生成式AI的门槛大大降低了。

美亚4.6，写给程序员看的大模型入门实战书来了！

写给软件工程师的大模型入门实战书(文末送书)

React 设计模式 0x2：整洁和可维护的代码

大多数代码都会被推送到在线仓库（GitHub 等），使我们能够拥有持续集成（CI）和持续交付（CD）

【下载】Scikit-learn作者新书《Python机器学习导论》, 教程+代码手把手带你实践机器学习算法

【导读】哥伦比亚大学老师Andreas C. Müller同时也是著名机器学习Python包scikit-learn的主要贡献者 Andreas Muller 和 Reonomy 公司数据科学家 Sarah Guido 的新书《Python机器学习导论》（Introduction to machine learning with Python）从实战角度出发带你用Python快速上手机器学习方法。随书同时提供代码和Jupyter Notebook，可以让你动手调试改进。请关注专知公众号（扫一扫最下面专知

是时候彻底放弃“高分低能”的 Leetcode了：AI 时代的面试需要大变革！

随着软件开发行业正发生整体转变，我们越来越依赖 Copilot 和 GPT 等 AI 工具来生成代码、提高生产力，所以必然要据此调整对人才的甄选思路。

全球首个AI程序员当老板！IOI金牌得主全部工作AI掌盘，技术细节报告公开

最近，Cognition AI的首席执行官Steven Hao给了Devin访问自己帐户的权限，然后Devin便开始为他工作了...

O'Reilly新书：《生成式深度学习》，近5年最先进GAN一网打全！

50年前的今天，尼尔·阿姆斯特朗和巴兹·奥尔德林驾驶驾驶的登月舱“鹰”号降落在月球上。这是一项伟大的工程壮举，充满着勇气和坚定的决心。

《生成式深度学习》近5年最先进GAN一网打全！

50年前的今天，尼尔·阿姆斯特朗和巴兹·奥尔德林驾驶驾驶的登月舱“鹰”号降落在月球上。这是一项伟大的工程壮举，充满着勇气和坚定的决心。

九章云极DataCanvas YLearn因果学习开源项目：从预测到决策

机器之心专栏机器之心编辑部图灵奖得主 Judea Pearl 曾表示，现有的机器学习模型不过是对数据的精确曲线拟合，只是在上⼀代的基础上提升了性能，在基本的思想方面没有任何进步。根据福布斯的统计数据，全球范围只有 13% 左右的机器学习项目能够真正上线运行，项目失败的一个重要原因是模型的泛化能力不足，在真实数据上的表现和完全达不到训练数据上的效果。随着机器学习建模越来越多的应用，企业对人工智能的要求也在进一步提高。近几年提及的「数智化」核心是智能决策，以数据驱动的方式实现自动化决策来提高整体运营效

Python 数据分析（PYDA）第三版（一）

第 3 版的《Python 数据分析》现在作为“开放获取”HTML 版本在此网站wesmckinney.com/book上提供，除了通常的印刷和电子书格式。该版本最初于 2022 年 8 月出版，将在未来几个月和年份内定期修正勘误。如果您发现任何勘误，请在此处报告。

全球代码质量骤降，罪魁祸首竟是AI！1.53亿行代码深度分析报告出炉

最近，GitClear发布的一项调查报告显示，用AI写代码，会让代码的质量和可维护性不断下降。

《Scikit-Learn与TensorFlow机器学习实用指南》第02章一个完整的机器学习项目（下）选择并训练模型模型微调启动、监控、维护系统实践！练习

大多机器学习算法不能处理特征丢失，因此先创建一些函数来处理特征丢失的问题。前面，你应该注意到了属性total_bedrooms有一些缺失值。有三个解决选项：

Seaborn-让绘图变得有趣

如果曾经在Python中使用过线图，条形图等图形，那么一定已经遇到了名为matplotlib的库。

scikit-learn Cookbook 00

This chapter discusses setting data, preparing data, and premodel dimensionality reduction.These are not the

探索高效开发神器：Blackbox AI（免费编程助手）

无论你是想要提升自己的编程技能，还是寻找一种更高效的开发方式，Blackbox AI 都可以成为你不可或缺的工具。通过这篇博客，希望你能更好地了解 Blackbox AI 的强大功能，并激励你在未来的开发过程中尝试和使用它。🌟

YLearn因果学习开源项目：从预测到决策

来源：九章云极DataCanvas YLearn研发团队本文约4400字，建议阅读7分钟本文介绍了Ylearn因果学习开源项目的情况。图灵奖得主 Judea Pearl 曾表示，现有的机器学习模型不过是对数据的精确曲线拟合，只是在上⼀代的基础上提升了性能，在基本的思想⽅⾯没有任何进步。根据福布斯的统计数据，全球范围只有13%左右的机器学习项目能够真正上线运行，失败的项目其中很重要的一个原因就是模型的泛化能力不足，在真实数据上的表现完全达不到训练数据上的效果。随着机器学习建模越来越多的应用，企业对人工智能

数据科学家所需的技能和素质

对数据科学家的关注，源于大家逐步认识到，Google、Amazon、Facebook等公司成功的背后，存在着这样的一批专业人才。这些互联网公司对于大量数据不是仅进行存储而已，而是将其变为有价值的金矿

命令行上的数据科学第二版：十一、总结

在这最后一章，这本书接近尾声。我将首先回顾我在前面十章中讨论的内容，然后给你三条建议，并提供一些资源来进一步探索我们触及的相关主题。最后，如果您有任何问题、评论或新的命令行工具要分享，我提供了一些与我联系的方法。

快速入门Python机器学习（二）

lcenter_box：中心确定之后的数据边界，默认值(-10.0, 10.0)。

《Scikit-Learn与TensorFlow机器学习实用指南》第2章一个完整的机器学习项目使用真实数据项目概览获取数据数据探索和可视化、发现规律为机器学习算法准备数据选择并训练模型模型微调启动

本章中，你会假装作为被一家地产公司刚刚雇佣的数据科学家，完整地学习一个案例项目。下面是主要步骤：项目概述。获取数据。发现并可视化数据，发现规律。为机器学习算法准备数据。选择模型，进行训练。微调模型。给出解决方案。部署、监控、维护系统。使用真实数据学习机器学习时，最好使用真实数据，而不是人工数据集。幸运的是，有上千个开源数据集可以进行选择，涵盖多个领域。以下是一些可以查找的数据的地方：流行的开源数据仓库： UC Irvine Machine Learning Repository K

015

《Scikit-Learn与TensorFlow机器学习实用指南》第2章一个完整的机器学习项目

第2章一个完整的机器学习项目来源：ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻译项目译者：@SeanCheney 校对：@Lisanaaa @飞龙本章中，你会假装作为被一家地产公司刚刚雇佣的数据科学家，完整地学习一个案例项目。下面是主要步骤：项目概述。获取数据。发现并可视化数据，发现规律。为机器学习算法准备数据。选择模型，进行训练。微调模型。给出解决方案。部署、监控、维护系统。使用真实数据学习机器学习时，最好使用真实数据，而不是人工数

021

机器学习之数据预处理

当数据集的数值属性具有非常大的比例差异，往往导致机器学习的算法表现不佳，当然也有极少数特例。在实际应用中，通过梯度下降法求解的模型通常需要归一化，包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树不使用，以C4.5为例，决策树在进行节点分裂时主要依据数据集D关于特征X的信息增益比，而信息增益比跟特征是否经过归一化是无关的

第10章使用Keras搭建人工神经网络·精华代码

电脑上看效果好，不用左右滑屏。都调好了，复制粘贴就可以在PyCharm里直接跑起来。 # -*- coding: utf-8 -*- # 需要安装和引入的包有tensorflow\pandas\numpy\matplotlib\scikit-learn # 使用pip安装：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ tensorflow pandas matplotlib scikit-learn import numpy as

DeepMind成员、谷歌资深员工：神经网络序列学习突破及发展（附报告下载）

【新智元导读】谷歌CEO在给投资人的信中写道谷歌搜索将更具有情景意识，其关键技术自然是深度学习。本文中，谷歌资深员工、DeepMind 成员 Oriol Vinyals 全面剖析神经网络序列学习的优势、瓶颈及解决方案。他指出机器翻译实质上是基于序列的深度学习问题，其团队希望用机器学习替代启发式算法，最后推测机器阅读并理解文本将在未来几年实现。文章来源：O'Reilly 报告《The Future of Machine Intelligence）作者：David Beyer 题目：Oriol Vinyal

如何编写更好的SQL查询：终极指南-第一部分

结构化查询语言（SQL）是数据挖掘分析行业不可或缺的一项技能，总的来说，学习这个技能是比较容易的。对于SQL来说，编写查询语句只是第一步，确保查询语句高效并且适合于你的数据库操作工作，才是最重要的。这个教程将会提供给你一些步骤，来评估你的查询语句。

数据的可视化

在数据分析中，数据可视化是一道很重要的工序，毕竟人都是视觉动物，要想以最直观最震撼地方式，向不同知识背景的观众老爷展示我的数据分析结果，可视化是最佳也几乎是唯一的选择。

20个必知的自动化机器学习库（Python）

AutoML是指自动机器学习。它说明了如何在组织和教育水平上自动化机器学习的端到端过程。机器学习模型基本上包括以下步骤：

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐