开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

将连续变量分成类别( ValueError:仓位标签必须比仓位边数少一个)

将连续变量分成类别是一种常见的数据预处理技术，通常用于将连续的数值型数据转换为离散的类别型数据。这种转换可以帮助我们更好地理解和分析数据，以及应用于一些特定的机器学习算法中。

在Python中，可以使用pandas库的cut()函数来实现将连续变量分成类别的操作。该函数可以根据指定的边界值将连续变量划分为不同的类别，并为每个类别分配一个标签。

下面是一个示例代码：

import pandas as pd

# 创建一个示例数据
data = pd.DataFrame({'score': [85, 92, 78, 90, 88, 95, 80, 85, 91]})

# 定义边界值
bins = [0, 60, 70, 80, 90, 100]

# 将连续变量分成类别
data['category'] = pd.cut(data['score'], bins=bins, labels=['F', 'D', 'C', 'B', 'A'])

# 打印结果
print(data)

运行以上代码，将会输出如下结果：

   score category
0     85        B
1     92        A
2     78        C
3     90        A
4     88        B
5     95        A
6     80        C
7     85        B
8     91        A

在这个例子中，我们将分数(score)这个连续变量分成了五个类别，分别是A、B、C、D和F。根据边界值的设置，分数在90以上的被划分为A类，80-89之间的被划分为B类，以此类推。

这种将连续变量分成类别的方法在很多场景中都有应用，比如将年龄分成不同的年龄段、将收入分成不同的收入水平等。它可以帮助我们更好地理解数据的分布情况，并在一些机器学习任务中提高模型的性能。

腾讯云相关产品和产品介绍链接地址：

腾讯云官网：https://cloud.tencent.com/
云服务器（CVM）：https://cloud.tencent.com/product/cvm
云数据库 MySQL 版：https://cloud.tencent.com/product/cdb_mysql
人工智能平台（AI Lab）：https://cloud.tencent.com/product/ailab
云存储（COS）：https://cloud.tencent.com/product/cos
区块链服务（TBC）：https://cloud.tencent.com/product/tbc
腾讯云元宇宙：https://cloud.tencent.com/solution/virtual-universe
腾讯云音视频处理：https://cloud.tencent.com/product/mps

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

标签系统的数据存储方案设计思考与梳理

好处：相对于第三种，非常节省空间，位运算也比直接使用like进行匹配高效很多；坏处：使用场景非常受限，标签数量稍微多点或者标签可能变化比较大的时候，就很不适合，另外索引通常也是无效的。...（相对而言，可能PG数据库对json的支持会比较完善些，不过我们使用的是MySQL）多种单一标签的存储设计在我们系统里，有一个应用场景是这样的：每个学生会有多个类别的健康相关的标签，例如视力/营养等...不过这里设计的困惑在于：标签的类别很多，造成表的字段很多，这可能会对MySQL造成压力，不过对列式存储的数仓应该不成问题；这些标签的类别没法保证将来不会变化，放到字段里可能会加大后续的维护工作量...如果使用json：这可能是一个比较好的方案，开始也是这么想的，但是在我们的这个场景暂时却不是很适用，因为我们这些数据会被实时同步到数仓中，而合作的数仓暂时还不支持json结构。...对于不需要同步到数仓的一些业务逻辑表，使用json应该是比较合适的，只要保证MySQL的版本比较高就行。所以，在这个场景下，采用大宽表独立成字段可能暂时是目前比较合适的方案。

1.7K1 0

教你如何应对五花八门的业务场景——WMS智能业务策略

比如同一个仓库下A货主希望可以边拣边分，B货主希望先拣后分；冷冻生鲜类库区的产品在执行出库时，为了保持库内产品的新鲜度，需要严格执行先进先出，日用百货类库区则对保质期和有效期敏感性较弱，仓管希望拣货路径最短...（如靠近固定仓位的空仓）。...具体常见配置规则如下：定时规则：按照一个固定的时间周期（比如下单时间、期望到货时间等）将订单进行合并。...分配策略：WMS系统可以将仓内的物理库区，划分为一个或多个不同的逻辑拣货作业区，也可以将多个物理库区合并为一个逻辑拣货作业区。...库位利用率优先：优先清空货位上库存少的货位，再寻找库存多的货位。拣货策略：波次下发后，拣货策略直接定义拣货单中商品的数量和拣货顺序，拣货数量，拣货方式等。

7774 1

【干货】期货市场的佼佼者是如何做资金管理的？

前期会拿最大允许回撤资金做一个安全包，然后逐步加入资金，在盈利完成一定百分比的前提后逐步撤出本金，在保证本金安全下，用盈利博取高收益。 5 任克能：期货交易10年，拥有有多套成熟的交易系统。...凯利公式是胜率-（落败率/赔率），这里赔率我们可以理解为盈亏比。很多专家用这个公式算出来的结果就当作是他们的实际持仓仓位，但是我认为这是不正确的。...但是把凯利公式用在期货上会有一个很大的问题，期货上必须是1手起买，亏损可能让你到最后开不到应有的仓位，导致翻不了本。...也因为这样，盈利时我必须出金，以备亏损后需，这样做也基于这么一句话，人们常说“复利可以创造奇迹”，既然是奇迹，暂且就把理解为难以实现，特别是短期内更难实现，我自己的理解，如果想做到复利，必须是在一个阶段后...在具体交易上，我会按照定额止损计算品种交易手数。以上是15位盘手对于资金管理的一些看法和做法，在资金管理上，你又是如何做的呢？

1.1K2 0

策略代码拆解1

通过将`currency`转换为图表商品的货币，仍然可以打开市场仓位。使用的转换率基于FX_IDC对的前一天的每日汇率（相对于进行计算的K线）。此设置也可以在策略的“设置/属性”标签页中更改。可选。...margin_long (const int/float) 多头保证金是多头仓位必须以现金或抵押品覆盖的证券购买价格的百分比。必须是非负数。在帮助中心解释了用于模拟追加保证金的逻辑。...此设置也可以在策略的“设置/属性”标签页中更改。可选。默认值为0，在这种情况下，策略不会对仓位大小施加任何限制。...margin_short (const int/float) 空头保证金是必须以现金或空头仓位抵押品覆盖的证券购买价格的百分比。必须是非负数。在帮助中心解释了用于模拟追加保证金的逻辑。...此设置也可以在策略的“设置/属性”标签页中更改。可选。默认值为0，在这种情况下，策略不会对仓位大小施加任何限制。

3K3 0

简单粗暴的WMS梳理

1)所有仓库、仓位、物料和批次的数量信息 2)当前物料在仓库和仓位中的库存情况 3)当前仓库中物料的库存情况 4)当前物料的各批次在仓库和仓位中的库存情况 5)当前仓库及当前仓位中的物料库存情况 9、赠品管理...11、仓位管理该功能在仓库中增加仓位属性，同时进行仓位管理，以丰富仓库信息，提高库存管理质量，主要包括基础资料设置、仓库仓位设置、初始数据录入、日常业务处理和即时库存查询等。...16、波次计划WAVE 将多个订单合成一个订单，或将一个大订单拆分成多个小订单。主要用来提高拣货效率。 17、DAS/DPS 支持订单的播种分拣或订单的摘果方式拣选。...04 WMS的技术： WMS系统集成了信息技术、无线射频技术、条码技术、电子标签技术、WEB技术及计算机应用技术等将仓库管理、无线扫描、电子显示、WEB应用有机的组成一个完整的仓储管理系统，从而提高作业效益...其中的关键技术主要有无线射频技术（RadioFrequency，简称RF），电子标签，数据接口技术。

2.2K2 0

数据开发数仓工程师上手指南(二)数仓构建分层概念

前言回顾上篇文章我们可以用思维导图一遍概览：在了解了数仓的基本架构之后，我们还需要掌握数仓构建方法，也就是了解数仓是如何建模的，有什么规则和通用方法。...那么我们首先需要理解构建数仓的几个基本分层概念：2.1.1业务板块首先需要明确公司构建数仓具体需要使用在哪些业务上，比如是用于电商系统，或者是投资系统，不同的业务系统需要构建唯一的数仓，不能N:1的构建数仓...面向业务分析，将业务过程或者维度进行抽象的集合一个数据域代表一个特定的业务领域或主题领域，如销售、财务、人力资源、库存管理等。每个数据域包含特定的业务事实和与这些事实相关的维度。...雪花模型相当于将星形模式的大维表拆分成小维表，满足了规范化设计。但是难以维护，加大开发难度。很多时候维度空间内的事实表不止一个，而一个维表也可能被多个事实表用到。...客户获取成本（CAC）：获取一个新客户的平均成本。净利润率：净利润占总收入的百分比。库存周转率：库存在特定时间内被出售和替换的次数。

2713 1

机器学习之逻辑回归

在这里插入图片描述第一个数[1.42575343e-02, 9.85742466e-01] 也就是x = 0.014, y=0.9>0.5 分类结果为1 对于精确性如何，导入accuracy_score...仓位 # 仓位缺失的百分比 print('"Cabin" 缺失的百分比 %.2f%%' %((df['cabin'].isnull().sum()/df.shape[0])*100)) "Cabin"...缺失的百分比 77.48% 约 77% 的乘客的仓位都是缺失的, 最佳的选择是不使用这个特征的值. 2.3....票价和仓位相关, 也许是仓位影响了逃生的效果, 我们接下来看仓位的分析. 3.3....cols = ["age","fare","TravelAlone","pclass","embarked_C","embarked_S","sex_male"] # 创建 X (特征) 和 y (类别标签

9744 1

店铺存货仓位查询看板

从店铺后仓或者物流中心补货到卖场是货品流转的一个常规作业。...补货的这个过程需要知道两个信息： 1.这个商品在仓库哪个位置放着 2.这个商品长什么样本文使用Power BI建立一个货品仓位查询系统，可以方便的按照各个维度查询货品位置，提升仓管人员找货效率，如下图所示...：上方是查询条件区，可以按照性别、类别以及货号查询货品所在位置；中间是模拟的仓库平面图，彩色区域为货品存放位置，每个色块显示仓位编号信息及该仓位库存数量信息（如A1仓位存货172件），当查询条件发生变化...其中，货号、存货仓位和存货数量是必须，其他按照实际需求选择添加。数据导入Power BI后，为模板设立筛选条件，筛选分为两种：批量筛选和单个产品筛选。...仓位框选完成后，在上图右侧区域对仓位进行命名，注意仓位名称需与数据源中的仓位名称保持一致。接着选择“EXPORT TO POWER BI”，将图片另存为SVG文件。

1.5K2 1

期货、外汇、股票等交易策略的建立原则及玄学辅助系统

无论我们的交易系统正确率有多高或者我们得到的消息导致坚信一个方向孤注一掷时都需要有止损位，或许消息是正确的，或许这次交易系统开单是正确的，但都因为打掉止损位而亏损使我们懊悔不已，但止损位还是必不可少的一部分...但在仓位期间造成的管理费的蚕食资金以及亏损浮动都是心理上的折磨。在大多数依靠技术分析的情况下止损位的快刀斩乱麻无异于是一个好的解决办法。交易80%正确却总是亏钱？...入场时机的出现基于此一个判断入场时机的方法是必不可少的，它可以让我们在高正确率时有盈利仓位，低正确率时没有仓位或极少仓位。这样既减少交易次数也减少了盈利回撤率不至于是回撤100%甚至200%。...出场时机的条件有入场就必须有出场，它可以保证在正确率低时没有仓位或极少仓位。不然在正确率高时进的盈利仓位一直拿到交易策略正确率低时，交易策略的回撤已经拉大甚至亏损了。...盈亏比总结通过以上举例大家应该可以理解盈亏比例的道理，因此在拥有止损位或小仓位投入时对于盈亏比需要有一定的了解。而盈亏比取决于我们的止损位以及我们交易策略的止盈位或预期到达的目标点。

3364 0

经验分享实时数仓实战命名规范和分层设计~~

命名规范通常的命名方式是：前缀为DIM_维表类别(用户，日期，地址，标签)，一般不超过30字。维表通常是一个大宽表，和事实数据配合方便上卷下钻进行分析。...DWA应用层优先调用数仓的DWS层数据，通常不允许DWA层跨过DWS层，从DWD层重复加工数据； ②. DWS应该积极了解应用层数据的建设需求，将公用的数据沉淀后，提供数据服务。...但仔细比较不难发现，两者有很多区别：与离线数仓相比，实时数仓的层次更少一些从目前建设离线数仓的经验来看，数仓的数据明细层内容会非常丰富，处理明细数据外一般还会包含轻度汇总层的概念，另外离线数仓中应用层数据在数仓内部...应用层少建设的好处：实时处理数据的时候，每建一个层次，数据必然会产生一定的延迟。汇总层少建的好处：在汇总统计的时候，往往为了容忍一部分数据的延迟，可能会人为的制造一些延迟来保证数据的准确。...* 与离线数仓相比，实时数仓的数据源存储不同在建设离线数仓的时候，目前滴滴内部整个离线数仓都是建立在 Hive 表之上。但是，在建设实时数仓的时候，同一份表，会使用不同的方式进行存储。

3.8K3 1

再谈：数据建模之设计与开发

数据仓库模型 1).数仓模型类别常用的模型设计，可遵循概念模型、逻辑模型、物理模型的类别进行设计概念模型通过分析和归纳，划分成主题，并确定主题之间的关系。...逻辑模型基于概念模型的基础，定义数仓实体，属性，关系，指导数据存储，组织和应用开发。物理模型就是通过数仓制定的一些命名，存储，压缩规范等实例化逻辑模型并落地执行。...2).数仓模型分层数据仓库模型设计，通常会划分为多个层次。其主要目的如下：清晰数据结构每一个数据分层都有它的作用域，这样我们在使用表的时候能更方便地定位和理解。...数仓建模方法 1).关系（范式）建模范式建模是数据仓库之父Inmon推崇的、从全企业的高度设计一个符合3NF模型，用实体加关系描述的数据模型描述企业业务架构。...在这种场景下，数据无法从stage层直接输出到dm层，必须先通过ETL将数据的格式清洗后放入dw层，再从dw层选择需要的数据组合输出到dm层。

5222 0

DAY2 | Wyckoff 1.0

如果分析正确，将会发展出一个破位（rupture）测试（突破后，价格快速重新回到交易区间，并快速回到之前突破的趋势方向上）。这个测试确认了专业交易员已经在那个方向上开仓，并支持这个运动方向。...重复的初次支撑，意味着专业的交易员开始消灭市场上的供应，当达到上一次的低点，只有非常少的人愿意卖出，这导致最后的下跌而没有巨大的成交量。...如果在恐慌事件中，鲁莽的做了交易，那么这个仓位应该在自动反弹的时候结束，得到Scalp剥头皮收益。测试二次测试是第四个事件，标志这phaseA的结束。...震仓之后的测试，spring测试或者upthrust测试，从phase C到突破结构之前，这个市场具有最好的风险收益比，如果测试时真的，那么我们就离结构的边缘非常近，距离阻力非常远！突破后的测试。...此时评估突破阻力是有效的还是新的一次震仓！这里的风险收益比并不如震仓之后的测试一样好。！！！我们将止损位设置在结构的中间位置，假设价格达到这个水平，比起一个有效的突破，更可能发生一次震仓。

1971 0

中央库存产品需要了解的仓储物流名词

（通常有线上/线下、自营/三方这些维度进行组合；另外，如果把所有店铺都归入了一个渠道，那就形成了总渠道的概念，所有店铺共享库存。）（2）渠道仓库存：根据实物仓的可用库存，分成多个渠道的渠道仓库存。...（2）售后仓：接收存放售后退回或运损拒收商品，进行检修等操作，最终可以将箱损的机器换包为合格品调拨回正品仓用于销售，或质量问题进行集中退厂，若无维修价值则进行报废。...仓配一体：仓库有安排配送的能力，可以安排快递/物流/车队进行配送。仓配分离：通常用于数量较大的2B业务，或自送比由仓库安排配送的成本价格更低的时候，甚至是仓库没有配送能力的时候。...上架：随后会将收到的货物安排上架到指定库位，完成这个动作后才算入库完结，货物可用于销售等业务。关闭订单：一个订单只有一次关闭的机会，不管是完全收货还是部分收货，关闭后就不可继续操作此单。...波次计划：通常多个订单都包含相同的产品时，会合并生成一个WAVE（波次计划）一起拣货，提高操作即寻货效率。拣货：分配完成后会进行拣货，把货品集中拣出到指定库位用于包装发货。

6172 0

DDIA 读书分享第三章（下）：TP AP 和列存

因此需要一种手段将数据从原库导入到专门的数仓。我们称之为 ETL：extract-transform-load。...比如品牌和产品类别可能有单独的表格。星状模型更简单，雪花模型更精细，具体应用中会做不同取舍。在典型的数仓中，事件表可能会非常宽，即有很多的列：一百到数百列。...列式存储的写入上述针对数仓的优化（列式存储、数据压缩和按列排序）都是为了解决数仓中常见的读写负载，读多写少，且读取都是超大规模的数据。我们针对读做了优化，就让写入变得相对困难。...将新写入的数据在内存中 Batch 好，按行按列，选什么数据结构可以看需求。然后达到一定阈值后，批量刷到外存，并与老数据合并。数仓 Vertica 就是这么做的。...物化视图本质上是对数据的一个摘要存储，如果原数据发生了变动，该视图要被重新生成。因此，如果写多读少，则维持物化视图的代价很大。但在数仓中往往反过来，因此物化视图才能较好的起作用。

2.1K3 0

深度强化学习选股-上证50指数增强

首先构建一个交互环境Account，在每时间步（交易日）接受调仓指令向量，根据调仓指令使用当日开盘价调仓，并在交易日结束之后使用交易日收盘价估计当日持仓的估值，返回reward。...调仓指令向量可以简单的分为两种： 1 、调仓向量为定量指令指令直接制定账户内个股持仓量/持仓权重，在交易日开盘时分，Agent发出指令，Account根据指令将账户股票持仓调整的与指令相同。...2017-11-17更新定量指令由Agent直接进行仓位管理、资金管理。也就是Agent的功能包括选股、仓位控制和资金管理。...例如做HS300指数增强的时候，向指令向量对应位添加现金、债券、货币基金等选项，直接指定各位置选项的百分比。定性指令Agent只进行走势方向预测，不进行仓位管理。...定量指令则是将所有的操作都交由Agent进行处理，也就是把投资组合的前置要求，如仓位控制资金控制等通过公式等手段直接嵌入Agent中进行处理。两种指令分别对应强化学习的离散和连续处理两种问题。

1.5K4 0

维度建模和指标体系构建

一个典型的维度建模一般需要经过如下几个步骤：业务调研：调研需要建模的业务形态，划分基本的业务线/数据域层次设计：定义数仓层级，保证各层级之间职责明确，划分清晰规范设计：定义数仓中表/字段的命名规范...join操作命名一致/可理解：同一个业务含义的字段命名必须相同，且直观可读。...因此在数仓建模的时候应该考虑将两者维护在同一个数据仓库之下，减少重复开发。...维度一致性处理保持维度一致性是数仓分析需求的前提和基石，数仓分析中的很多需求都是将不同业务领域的业务过程或者同一业务领域下的不同业务过程合并起来分析的，如果存在维度不一致的情况（例如针对同一个广告位，...不同业务线的维度属性差距过大，可以将这部分数据水平拆分出去某些维度属性产出时间较晚且没有高频的分析需求，可以将这部分属性字段拆分出去，保证核心维度产出SLA（常见） 07 事实表建设数仓中使用事实表来描述业务过程

3.5K4 1

50000字，数仓建设保姆级教程，离线和实时一网打尽(理论+实战) 上

文档大纲：一、数仓基本概念 1. 数据仓库架构我们在谈数仓之前，为了让大家有直观的认识，先来谈数仓架构，“架构”是什么？这个问题从来就没有一个准确的答案。...数仓分层数仓分层的原则：为便于数据分析，要屏蔽底层复杂业务，简单、完整、集成的将数据暴露给分析层。...维度建模法（Dimensional Modeling）维度模型是数据仓库领域另一位大师Ralph Kimall所倡导，他的《数据仓库工具箱》是数据仓库工程领域最流行的数仓建模经典。...即我们可以将任何一个业务过程划分成 3 个部分，实体，事件，说明，如下图所示：实体建模上图表述的是一个抽象的含义，如果我们描述一个简单的事实：“小明开车去学校上学”。...为什么Lambda架构要分成两条线计算？假如整个系统只有一个批处理层，会导致用户必须等待很久才能获取计算结果，一般有几个小时的延迟。

6.9K7 10

成本与效率：作业帮数据治理全方位解析

右边是活跃用户相关指标构建链路图，原始日志按小时粒度采集到数仓，数仓基于小时粒度数据表构建天级数仓表。...我们按照使用数据的 ROI，将每个表天级分区数据分成四部分：无用数据，冷数据，温数据，热数据，对不同部分的数据同样也是会应用不同的生命周期存储策略和数据组织策略。数据 ROI 的计算方法如图所示。...可以按照点位排序构建索引，将特定行为的数据快速过滤出来。...然后根据总 pv 数和 reducetask 数计算一个步长，用步长和点 pv 总量计算得到桶 id 的上下边界，可以看到 pv 量大的点位，分配到的桶个数就多，而 pv 小的点位可能会被分配到同一个桶内...如图，从数仓规划、建模到最终数据的生产和应用，这是一个完整的数据建设流程。

1181 0

关于数仓建设及数据治理的超全概括

在谈数仓之前，先来看下面几个问题：数仓为什么要分层？...那么我们在数据仓库的建模过程中完全可以引入这个抽象的方法，将整个业务也可以划分成一个个的实体，而每个实体之间的关系，以及针对这些关系的说明就是我们数据建模需要做的工作。...即我们可以将任何一个业务过程划分成 3 个部分，实体，事件，说明，如下图所示： ? 实体建模上图表述的是一个抽象的含义，如果我们描述一个简单的事实：“小明开车去学校上学”。...维度建模法维度模型是数据仓库领域另一位大师Ralph Kimall所倡导，他的《数据仓库工具箱》是数据仓库工程领域最流行的数仓建模经典。...2、声明粒度先举个例子：对于用户来说，一个用户有一个身份证号，一个户籍地址，多个手机号，多张银行卡，那么与用户粒度相同的粒度属性有身份证粒度，户籍地址粒度，比用户粒度更细的粒度有手机号粒度，银行卡粒度

1K1 1

R数据科学|5.5.1 内容介绍

5.5.1　分类变量与连续变量 我们经常需要探索连续变量的分布，按分类变量的分组显示连续变量分布的常用的两种方式是：改变 y 轴的显示内容，不再显示计数，而是显示密度。...箱线图是对变量值分布的一种简单可视化表示，每张箱线图都包括以下内容：一个长方形箱子，下面的边表示分布的第 25 个百分位数，上面的边表示分布的第 75 个百分位数，上下两边的距离称为四分位距。...箱子的中部有一条横线，表示分布的中位数，也就是分布的第 50 个百分位数。这三条线可以表示分布的分散情况，还可以帮助我们明确数据是关于中位数对称的，还是偏向某一侧。...圆点表示落在箱子上下两边 1.5 倍四分位距外的观测，这些离群点就是异常值，因此需要单独绘出。从箱子上下两边延伸出的直线（或称为须）可以到达分布中最远的非离群点处。...如果变量名很长，那么将图形旋转 90 度效果会更好一些。

5823 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭