首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

这里有 300 篇 Python 与机器学习类原创笔记

动态规划|相邻约束下最优解 动态规划|相邻约束下最优解(House Robber II ) 详解连续子数组最大乘之动态规划解法 除自身算法题,又有创意解法了 一道伤脑筋算法题 亮了...2、Python学习路线 主要包括Python核心语法使用总结,以及基于Python常用数据分析与处理包Numpy, Pandas 和 Matplotlib 常用API使用和实战总结。...实现 数据分箱技术之qcut 聊聊 [ ] 操作符,最后引出一个看似..... 3招降服Python数据None值 4 个Python数据读取常见错误 趣学Python数据分析:轴和索引 Pandas...一位面试过近千人技术官肺腑之言,句句要害,字字透着真情 SQL|语句执行逻辑 MySQL|索引背后 MySQL|索引应用 设计模式|结构图汇总 进程和线程模型 Ubuntu|GDB调试常用命令...面试14: 谈谈 docker 深度学习任务应用 BAT面试题13:请简要说说一个完整机器学习项目的流程 BAT面试题12:机器学习为何要经常对数据做归一化?

4.6K31

数据科学家令人惊叹排序技巧

,会转成堆排序算法,它可以让快速排序最糟糕情况时间复杂度是 O(n*log(n)) stable会根据待排序数据类型自动选择最佳稳定排序算法。...numpy 算法参数更加友好 pandas 可以继续使用,并且我发现函数可以很容易就保持。...排序算法选择。详情可以看看numpy ndarray.np.sort 。 pandas 这个参数只会在对单个标签或者中使用 na_position:{'first', 'last'} 。...而对于多排序算法Pandas 确保采用是 Numpy mergesort ,但实际上会采用 Timsort 或者 Radix sort 算法。...().head()) Dask ,是一个基于 Pandas 用于处理大数据库,尽管已经开始进行讨论,直到2019年秋天时候,还没有实现并行排序功能。

1.2K10
您找到你想要的搜索结果了吗?
是的
没有找到

Python 全栈 191 问(附答案)

关于文件压缩、加密,专栏会涉及到。 time 模块,time.local_time() 返回值是什么?对象类型是? 如何格式化时间字符串?'...NumPy 灵魂:shape 与 reshape,提供直观 6 幅图理解,其中一幅: 线性代数,矩阵乘法操作 NumPy 怎么实现?...求两个特征相关系数 如何找出 NumPy 缺失值、以及缺失值默认填充 Pandas read_csv 30 个常用参数总结,从基本参数、通用解析参数、空值处理、时间处理、分块读入、格式和压缩等...Pandas 做特征工程之 删除 Pandas 增加特征方法 Pandas 使用 cut, qcut, ChiMerge 算法做分项总结 LabelEncoder 编码和 get_dummies...分类中出现次数较少值,如何统一归为 others,该怎么做到? 某些场景需要重新排序 DataFrame ,该如何做到?

4.2K20

PythonPandas相关操作

2.DataFrame(数据框):DataFrame是Pandas二维表格数据结构,类似于电子表格或SQL表。它由行和组成,每可以包含不同数据类型。...可以使用标签、位置、条件等方法来选择特定行和。 5.缺失数据处理:Pandas具有处理缺失数据功能,可以检测、删除或替换数据缺失值。...7.数据排序和排名:Pandas提供了对数据进行排序和排名功能,可以按照指定或条件对数据进行排序,并为每个元素分配排名。...8.数据合并和连接:Pandas可以将多个DataFrame对象进行合并和连接,支持基于或行合并操作。...9.时间序列数据处理:Pandas对处理时间序列数据提供了广泛支持,包括日期范围生成、时间索引、重采样等操作。

24530

机器学习测试笔记(2)——Pandas

Pandas 适用于处理以下类型数据: 与 SQL 或 Excel 表类似的,含异构表格数据; 有序和无序(非固定频率)时间序列数据; 带行列标签矩阵数据,包括同构或异构型数据; 任意其它形式观测...其它说明: Pandas 速度很快。Pandas 很多底层算法都用 Cython 优化过。...然而,为了保持通用性,必然要牺牲一些性能,如果专注某一功能,完全可以开发出比 Pandas 更快专用工具。...4 3 4 3 1 2 sort_values by:指定列名(axis=0或’index’)或索引值(axis=1或’columns’) axis:若axis=0或’index’,则按照指定数据大小排序...;若axis=1或’columns’,则按照指定索引数据大小排序,默认axis=0 ascending:是否按指定数组升序排列,默认为True,即升序排列 inplace:是否用排序数据集替换原来数据

1.5K30

Pandas图鉴(一):Pandas vs Numpy

Pandas可以一个步骤完成。...一个稳定排序算法可以保证第一次排序结果在第二次排序时不会丢失。用NumPy还有其他方法,但都不如用Pandas简单和优雅。...它需要热身:第一次查询比NumPy慢一些,但随后查询就明显快了。 5.按连接 如果想用另一个表信息来补充一个基于共同表,NumPy几乎没有用。而Pandas更好,特别是对于1:n关系。...下面是1行和1亿行结果: 从测试结果来看,似乎每一个操作Pandas都比NumPy慢!而这并不意味着Pandas速度比NumPy慢! 当数量增加时,没有什么变化。...Pandas,做了大量工作来统一NaN在所有支持数据类型用法。根据定义(CPU层面上强制执行),nan+任何东西结果都是nan。

21550

猿创征文|数据导入与预处理-第3章-pandas基础

关于pandas,官方解释是,pandas是一个基于BSD开源协议开源库,提供了用于python编程语言高性能、易于使用数据结构和数据分析工具。 这里还提到了BSD开源协议。...Series类对象索引样式比较丰富,默认是自动生成整数索引(从0开始递增),也可以是自定义标签索引(由自定义标签构成索引)、时间索引(由时间构成索引)等。...若未指定数据类型,pandas会根据传入数据自动推断数据类型。 使用pandasSeries数据结构时,可通过pandas点Series调用。...(行标签)对齐 输出为: /排序 排序1 - 按值排序 .sort_values pandas可以使用sort_values()方法将Series、DataFrmae类对象按值大小排序。...使用[]访问数据 变量[索引] 需要说明是,若变量值是一个Series类对象,则会根据索引获取该对象对应单个数据;若变量值是一个DataFrame类对象,使用“[索引]”访问数据时会将索引视为索引

13.9K20

时序数据预测:ROCKET vs Time Series Forest vs TCN vs XGBoost

我发现在这个时间序列,它们大多数都没有太大竞争力,所以我专注于实际上足够好用 2 个,可以现实生活中部署。...预处理数据——只需从其余减去第一个值,使其等于 0,然后删除该。将第一个 X 小时数作为您训练数据。我从 4 小时开始,这意味着 239 个时间点(第 240 个是您要预测时间点)。...Sktime 分类器要求数据以一种奇怪格式存储——一个 Pandas DataFrame,除了每个时间(239 个特征,一个形状数组 (N, 239),你有 1 ,其中每一行或每个元素 该本身就是一个...("Matthews CC:%2.3f" % matthews_corrcoef(ytest_sktime, predicted)) Time Series Forest——这个很有趣——它不是将每个时间作为一个特征并将其扔到基于分类器...这意味着保留时间顺序,而如果您只是将每个时间视为一个独立特征,那么您算法并不关心它们排列顺序。然后将这些特征交给 DecisionTreeClassifier。

1.3K20

玩转Pandas,让数据处理更easy系列4

Pandas基于Numpy(Numpy基于Python)基础开发,因此能和带有第三方库科学计算环境很好地进行集成。...(玩转Pandas,让数据处理更easy系列2) 通俗易懂地DataFrame结构上实现merge和join操作(merge操作见:玩转Pandas,让数据处理更easy系列3) 善于处理missing...强大而灵活分组功能,在数据集上实现分-应用-合操作,达到整合和改变数据形状目的。 时间序列处理功能,生成 data range,移动时间窗,时间移动和lagging等。...4.2 sort Pandas排序操作提供了2个主要API,分别按照值排序和索引排序。...默认情况下,排序中等于NaN值相应地位于后面,如果设置na_position='first',才会将NaN值位于前面; 排序默认不是就地排序,inplace=False; 多排序,第一个参数是主排序字段

1.1K31

Pandas Sort:你 Python 数据排序指南

目录 Pandas 排序方法入门 准备数据集 熟悉 .sort_values() 熟悉 .sort_index() 单列上对 DataFrame 进行排序 按升序按排序 更改排序顺序 选择排序算法...对 DataFrame 进行排序 使用 DataFrame 轴 使用标签进行排序 Pandas排序时处理丢失数据 了解 .sort_values() na_position 参数...缩小会导致更快加载时间和更少内存使用。为了进一步限制内存消耗并快速了解数据,您可以使用 指定要加载行数nrows。...查看突出显示索引,您可以看到行顺序不同。这是因为quicksort不是稳定排序算法,而是mergesort。 注意: Pandas ,kind当您对多个或标签进行排序时会被忽略。...Manual 5-spd 1985 True [100 rows x 11 columns] df对象,值现在基于city08按升序排序

13.9K00

Pandas入门2

image.png 5.5 排序和排名 使用DataFrame对象sort_valuse方法,需要两个参数:第1个参数by是根据哪一行或排序; 第2个参数axis为0或1,默认为0,0为按排序,...image.png 5.6 pandas聚合函数 聚合函数包括:求和,最大值,最小值,计数、均值、方差、分位数 这些聚合函数都是基于没有缺失数据情况。 ?...Pandas时间序列 不管在哪个领域中(如金融学、经济学、生态学、神经科学、物理学等),时间序列数据都是一种重要结构化数据形式。多个时间点观察或者测量到任何事物都是可以形成一段时间序列。...时间序列数据意义取决于具体应用场景,主要有以下几种: 1.时间,特定时间 2.固定时期(period),如2017年1月或2017年 3.时间间隔(interval),由开始时间和结束时间表示...image.png 7.3 Pandas时间序列 pandas通常是用于处理成组日期,不管这个日期是DataFrame轴索引还是。to_datetime方法可以解析多种不同日期表示形式。

4.2K20

Pandas DateTime 超强总结

基本上是为分析金融时间序列数据而开发,并为处理时间、日期和时间序列数据提供了一整套全面的框架 今天我们来讨论 Pandas 处理日期和时间多个方面,具体包含如下内容: Timestamp 和...、总内存使用量、每数据类型等 根据上面的信息,datetime 数据类型是对象,这意味着时间存储为字符串值。...pandas to_datetime() 方法将存储 DataFrame 日期/时间值转换为 DateTime 对象。将日期/时间值作为 DateTime 对象使操作它们变得更加容易。...[ns] 表示基于纳秒时间格式,它指定 DateTime 对象精度 此外,我们可以让 pandas read_csv() 方法将某些解析为 DataTime 对象,这比使用 to_datetime...85 2019-03-07 02:00:00 104 0.74 0.24 77 可以选择与索引特定时间部分匹配

5.4K20

首次公开,用了三年 pandas 速查表!

本文收集了 Python 数据分析库 Pandas 及相关工具日常使用方法,备查,持续更新。...返回所有行均值,下同 df.corr() # 返回之间相关系数 df.count() # 返回每一非空值个数 df.max() # 返回每一最大值 df.min() # 返回每一最小值...累积连乘,乘 df.cumsum(axis=0) # 累积连加,累加 s.nunique() # 去重数量,不同值量 df.idxmax() # 每最大索引名 df.idxmin() #...pd.Timedelta(days=2) # unix 时间 pd.to_datetime(ted.film_date, unit='ms') # 按月(YMDHminS)采集合计数据 df.set_index...全屏 Fragment:一开始是隐藏,按空格键或方向键后显示,实现动态效果。一个页面 Skip:幻灯片中不显示单元。 Notes:作为演讲者备忘笔记,也不在幻灯片中显示。

7.4K10

python对100G以上数据进行排序,都有什么好方法呢

缩小会导致更快加载时间和更少内存使用。为了进一步限制内存消耗并快速了解数据,您可以使用 指定要加载行数nrows。...查看突出显示索引,您可以看到行顺序不同。这是因为quicksort不是稳定排序算法,而是mergesort。 注意: Pandas ,kind当您对多个或标签进行排序时会被忽略。...这在其他数据集中可能更有用,例如标签对应于一年几个月数据集。在这种情况下,按月按升序或降序排列数据是有意义 Pandas排序时处理丢失数据 通常,现实世界数据有很多缺陷。...Manual 5-spd 1985 True [100 rows x 11 columns] df对象,值现在基于city08按升序排序。...本教程,您学习了如何: 按一或多值对Pandas DataFrame进行排序 使用ascending参数更改排序顺序 通过index使用对 DataFrame 进行排序.sort_index(

10K30

PySpark SQL——SQL和pd.DataFrame结合体

注:由于Spark是基于scala语言实现,所以PySpark变量和函数命名也普遍采用驼峰命名法(首单词小写,后面单次首字母大写,例如someFunction),而非Python蛇形命名(各单词均小写...这里补充groupby两个特殊用法: groupby+window时间开窗函数时间重采样,对标pandasresample groupby+pivot实现数据透视表操作,对标pandaspivot_table...接受参数可以是一或多(列表形式),并可接受是否升序排序作为参数。...,仅仅是筛选过程可以通过添加运算或表达式实现创建多个新,返回一个筛选新DataFrame,而且是筛选多少列就返回多少列,适用于同时创建多情况(官方文档建议出于性能考虑和防止内存溢出,创建多时首选...提取相应数值,timestamp转换为时间、date_format格式化日期、datediff求日期差等 这些函数数量较多,且与SQL相应函数用法和语法几乎一致,无需全部记忆,仅在需要时查找使用即可

9.9K20

使用pandas-profiling对时间序列进行EDA

由于时间序列数据性质,探索数据集时分析复杂性随着同一数据集中添加实体个数增加而增加。在这篇文章,我将利用 pandas-profiling 时间序列特性,介绍EDA一些关键步骤。...这意味着在建模时间序列时,如果为训练和测试数据集提供动态时间可能比预先确定时间更好。另外在EDA时还将进一步调查缺失记录和记录归属范围。”...为了使分析正常工作,df要按实体时间排序,或者利用 sortby 参数来自定义排序规则。...总之,这个警报是非常重要,因为它可以将帮助识别此类并相应地预处理时间序列。 时间序列季节性是另一种场景,其中数据定义周期内重复出现定期且可预测变化。...在上面的pandas-profiling图中你会注意到第一个区别是线图将替换被识别为时间相关直方图。使用折线图,我们可以更好地了解所选轨迹和性质。

1.2K20

Python之PandasSeries、DataFrame实践

Python之PandasSeries、DataFrame实践 1. pandas数据结构Series 1.1 Series是一种类似于一维数组对象,它由一组数据(各种NumPy数据类型)以及一组与之相关数据标签...1.2 Series字符串表现形式为:索引左边,值右边。...2. pandas数据结构DataFrame是一个表格型数据结构,它含有一组有序,每可以是不同值类型(数值、字符串、布尔值)。...可以看做由元数组组成数组 DatetimeIndex 存储纳秒级时间(用NumPydatetime64类型表示) PeriodIndex 针对Period数据(时间间隔)特殊Index 5....排序和排名 要对行或索引进行排序(按字典顺序),可使用sort_index方法,它将返回一个已排序新对象;对于DataFrame,则可以根据任意一个轴上索引进行排序。 8.

3.9K50

pandas时间序列常用方法简介

进行时间相关数据分析时,时间序列处理是自然而然事情,从创建、格式转换到筛选、重采样和聚合统计,pandas都提供了全套方法支持,用熟练简直是异常丝滑。 ?...pd.Timestamp(),时间对象,从其首字母大写命名方式可以看出这是pandas一个类,实际上相当于Python标准库datetime定位,创建时间对象时可接受日期字符串、时间数值或分别指定年月日时分秒等参数三类...需要指出,时间序列pandas.dataframe数据结构,当该时间序列是索引时,则可直接调用相应属性;若该时间序列是dataframe时,则需先调用dt属性再调用接口。...3.分别访问索引序列时间和B日期,并输出字符串格式 ? 03 筛选 处理时间序列另一个常用需求是筛选指定范围数据,例如选取特定时段、特定日期等。...仍然以前述时间索引记录为例,首先将其按4小时为周期进行采样,此时每个4小时周期内所有记录汇聚为一条结果,所以自然涉及到聚合函数问题,包括计数、求均值、和等等。 ?

5.7K10
领券