腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Python
中
具有
特定条件
的
数据
集
的
A/
B
拆分
python
、
machine-learning
我
的
目标是将一个包含9列
的
数据
集
划分为两个不同
的
分层
数据
集
。七列必须分层,另外两列必须以特定
的
方式
拆分
。我检查了A/
B
拆分
库,但没有找到,所以我只使用了sklearn.model_selection.train_test_split,并设置了test_size=0.5,以便使两个
数据
集
具有
相同
的
长度。作为y,我通过了必
浏览 15
提问于2019-02-01
得票数 0
2
回答
Hadoop
中
映射函数
的
输入分割
python
、
hadoop
、
hadoop-streaming
、
hadoop2
、
hadoop-partitioning
这是我在Hadoop
中
的
第一个实现。在地图约简中,我试图实现概率
数据
集
的
算法。在我
的
数据
集中,上一列将有一些id( dataset
中
唯一id
的
数量等于集群
中
的
节点数)。我必须根据这个列值来划分
数据
集
,集群
中
的
每个节点都应该处理每一组记录。我只是想了解一下,在Hadoop
中
哪种方法是可能
的
。要么
浏览 1
提问于2014-09-08
得票数 1
回答已采纳
1
回答
通过基于
特定条件
比较所有行来查找
数据
框
中
的
匹配行
python-3.x
、
pandas
、
dataframe
我是
python
的
新手,如果有人能为我指引正确
的
方向,我将不胜感激。 我有一个
数据
集
,它
的
每一行都有唯一
的
交易。我需要找到符合
特定条件
的
所有行。基本上,找到符合
特定条件
的
任何补偿交易。例如: 找到
具有
相同REF_RATE
的
交易,收到
的
差值在5,MATURITY_DATE与彼此
的
差值为7天。我已经附上了
数据
<em
浏览 17
提问于2021-01-27
得票数 0
2
回答
数据
中
的
模式匹配,并创建满足
python
中
模式条件
的
csv
python
、
python-3.x
、
pandas
、
csv
、
data-cleaning
我正在处理一个
数据
集
,就像下面的附图所示。 我已经使用pandas在
Python
中导入了CSV格式
的
数据
集
。我正在寻找分离整个
数据
与所有列
中
的
值,如"a;
b
;c","lp;kl;jj“在列PATR (即,其中有分号
的
数据
)到一个csv和其他值,如";”和"250“到一个单独
的
CSV。我尝试过根据分号
拆分</
浏览 21
提问于2018-02-07
得票数 0
回答已采纳
1
回答
将
数据
随机混洗,然后将其分成训练
集
和测试
集
的
有效方法?
python-2.7
、
python-3.x
我正在编写一段关于机器学习
的
python
代码,其中我必须随机地将100000个样本和
拆分
的
数据
放入训练和测试
集
。我已经将
数据
存储到两个numpy数组
中
。如果我使用下面的命令,它太耗时了。c=zip(a,
b
)a,
b
= (*c) 其中a和
b
是两个numpy数组。有没有什么有效
的
方法可以随机地对
数据
进行混洗,然后将其分成训练
浏览 0
提问于2017-04-26
得票数 0
1
回答
pandas处理包含多个用分隔符分隔
的
值
的
列以进行
数据
分析
pandas
下面是一个
python
自学程序,它试图找到一种处理
具有
多个值
的
列
的
方法。
数据
集
是TMDb电影
数据
集
,并且有多个值列,如流派、演员等。 我设法
拆分
值并计算它们,这是可以
的
。但是,如果我想了解流派和流行程度之间
的
关系,该怎么办呢?如何在适当
的
拆分
过程后对所有流派进行分组? dataset looks like this:
浏览 44
提问于2020-04-15
得票数 0
回答已采纳
1
回答
在创建多个2D数组
的
一维列表时,第一个附加到列表
中
的
数组使其成为三维数组。为什么?
python
、
arrays
、
pandas
、
append
、
train-test-split
我有一个多个熊猫
数据
列表,我想用它来创建一个训练
集
和一个测试
集
。为此,我定义了一个train_test_split函数,该函数
拆分
数据
集
,现在正在尝试创建一个函数,该函数从这个
拆分
中
定义testX和testy
数据
集
。len(dataset)-n_test, len(dataset)): return trainset, testset 在此
浏览 4
提问于2022-10-17
得票数 0
1
回答
提高
Python
复制大型
数据
集
的
效率
python
、
performance
、
random-forest
我在用
Python
实现随机森林时遇到了一点麻烦。请记住,我很清楚
Python
不是用来高效处理数字
的
。这一选择更多
的
是基于对
Python
的
更深入
的
理解和更多
的
经验。说到这里,我很好奇这里是否有人能对我
的
实现提出一些性能改进
的
建议。通过分析器运行它,很明显大部分时间都花在执行list "append“命令和我
的
数据
集
拆分
操作上。本质上,我有
浏览 0
提问于2012-03-16
得票数 1
1
回答
Php,我需要删除数组
中
的
特定文本,稍后我需要预先添加它
php
、
arrays
、
codeigniter
、
object
我尝试了foreach循环和array_search
的
数据
,后来取消了它,但不起作用。
数据
在对象中有数组。函数,并使用一个模型来获取
数据
。design, 'url is $currentSizeArray = array(); }
数据
输出如下所示currentSizeData[$currentSizeArrayCount])
浏览 8
提问于2021-10-12
得票数 -1
1
回答
根据不同相关行
的
可靠限制选择分页联接行
sql
、
sql-server
、
join
、
distinct
、
sql-server-2017
假设Server 2017
数据
库有四个表:A、
B
、C和D。表D引用
具有
外键约束
的
C,将C引用到
B
,将
B
<code>E 217</code>引用到<code>E 118</code>A<code>E 219</code>。其目的是将每个表合并在一起,选择满足
特定条件
的
INNER JOIN D
中
的
所有行,但只选择表A<e
浏览 0
提问于2018-06-12
得票数 3
回答已采纳
1
回答
为什么这个正则表达式不能工作?
python
、
html
、
regex
我有一个解析HTML代码
的
函数,所以它很容易读和写。为了做到这一点,我必须使用多个分隔符
拆分
字符串,正如您所看到
的
,我使用了re.split(),无法找到更好
的
解决方案。这使我相信我
的
正则表达式写得不正确。取而代之
的
应该是什么?if re.search("
b
'", data): lines = re.split(r'\r|\n', data) # This c
浏览 3
提问于2014-02-20
得票数 0
回答已采纳
2
回答
训练/测试
拆分
保留每个
拆分
中
的
类别比例
python
、
machine-learning
、
train-test-split
假设我想
拆分
如下所示
的
NER
数据
集
:Label: ['
B
-Person', 'O', 'O', 'O', 'O', 'Country'] 是否有任何
python
库或算法可以确保训练和测试
数据
集
的
每个类分布是
浏览 1
提问于2020-10-14
得票数 1
1
回答
将
数据
集
(CONLL格式)
拆分
为开发、训练和测试
python
、
machine-learning
、
dataset
、
conll
我有一个遵循CONLL格式
的
数据
集
,带有令牌级注释。token label, Oactivities I-claimme I-claim空行将文件
中
的
句子隔开。在机器学习模型
中
,每个句子都被视为实例。我想将
数据
集
分为训练、测试和开发,但要确保
数据
集
之间没有句子
拆分
浏览 7
提问于2021-07-21
得票数 0
1
回答
在使用java
的
Spark 3.1
中
,将Spark
数据
集
拆分
为相等数量
的
数据
集
java
、
apache-spark
我有一个
具有
许多no行
的
数据
集
,并且我正在该
数据
集中执行collect_list操作。我得到了像Cannot grow BufferHolder; exceeds size limitation一样
的
错误。这是因为我
的
collect_list结果列大小超过了2 2GB。因此,我希望将此
数据
集
拆分
为多个
数据
集
,并尝试对其执行相同
的
collect_list操作(以减少
浏览 84
提问于2021-08-30
得票数 1
1
回答
如何分割json
数据
集
并保存它?
python
、
json
、
split
、
pytorch
我拿了一个json
数据
集
。Dataset名称为v2_OpenEnded_mscoco_train2014_questions.json,如何将
数据
集中
的
某些
数据
拆分
并保存到另一个json文件
中
?这是我
的
数据
集
的
示例: {"image_id":426004,“问题”:“盘子上有多少个小圆面包?”、"question_id":92846003}、{"i
浏览 3
提问于2021-02-28
得票数 2
回答已采纳
1
回答
是否有一种方法可以组合多个ML模型,其中每个模型使用
具有
不同功能
的
数据
集
?
machine-learning
、
dataset
、
ensemble-modeling
、
features
我有一个
数据
集
,其中某些特性(c,d)只适用于某一特性(a)是特定值时。例如T, 60, 0x018, 3252002711U, 67, ,因此,我计划
拆分
数据
集
,这样就不会丢失值。a,
b
, c, dT, 66, 0x018, 15556U, 167然后把它们放到单独
的
浏览 0
提问于2022-03-26
得票数 0
2
回答
根据OID按类
拆分
数据
帧
r
、
dataframe
、
split
、
dplyr
我尝试按类将
数据
帧
拆分
为50%。但是,我不想
拆分
具有
相同OID (对象标识符)
的
字段。我希望
具有
相同OID
的
字段位于同一
集
合
中
。#Data frame: 110 134 119 "tree"
浏览 12
提问于2019-12-14
得票数 2
回答已采纳
2
回答
矩阵上带百分比
的
Numpy分裂
python
、
python-3.x
我有一些问题需要理解以下代码,而且我对
python
还不熟悉: [int(0.7 * len(original_data)), int(0.9*len(original_data))]) 所以我
的
原始
数据
集
有一个完整
的
在这个
拆分
方法之后,data_a有26
浏览 2
提问于2018-12-15
得票数 3
回答已采纳
3
回答
scikit
中
的
StratifiedKFold vs KFold -学习
python
、
machine-learning
、
scikit-learn
X,y):print("KFold done") 我发现StratifiedKFold可以保持标签
的
比例
浏览 0
提问于2020-12-16
得票数 5
回答已采纳
1
回答
熊猫,科学工具包.分体训练和有条件
的
测试
python
、
pandas
、
scikit-learn
我有一个dataframe,data,
具有
以下结构(我
的
实际上要大得多,但这只是为了说明):A 3 2 4A 5 3 3
B
2 4 3
B
4 1 1C 1 3 4我正在使用scikit-learn来
拆分
数据
:但
浏览 3
提问于2020-01-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
划重点!12种高效Numpy&Pandas使用技巧!
Python数据分析中如何对符合条件的数据进行标注
python如何读取CSV文件中的特定行数据
使用机器学习,实现对房价的评估预测
这5个Python特性,后悔没早知道
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券