腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从特征中选择特定的单词

问如何从特征中选择特定的单词
EN

Stack Overflow用户

提问于 2019-07-28 10:55:00

回答 1查看 71关注 0票数 0

我正在使用value_counts实现特征提取，以显示最大数量的重复字符串，但我想提取一个特定的单词，并将值1赋给出现的单词，而其他NaN值必须填充为0。我现在正在做的是在字符串中手动搜索该单词，然后将字符串映射为1，并使用NaN (0)将填充值填充为0。

print(train.key_skills.value_counts(), '\n')

train['key_skills'] = train['key_skills'].map({
    'Linear Regression, Insurance Analytics, Business Analysis..':1,
    'Linear Regression, Insurance Analytics, Business Analysis...':1,
    'Analytics, SAS, banking, insurance, Analytics Head':1,
    'NoSQL, Spark, Mapreduce, SQL, Cassandra, Data Science, SCALA, Big Data...':1,
    'NoSQL, Spark, Mapreduce, SQL, Cassandra, Data Science, SCALA, Big Data...':1,
    'Excel, SQL, Data Analysis, Segmentation, SAS, Data Mining, SPSS...':1,
    'Linear Regression, Business Analysis, Model Development, Segmentation, Base...':1,
    'Data analysis, SQL, Consulting, Data management, SPSS, FMCG, Analytical...':1,
    'Data Analytics, Business Intelligence, Communication Protocols...':1,
    'r, advanced analytics, segmentation, sas, machine learning...':1,
    'Data Analytics, Data Science, Predictive Modeling, Project Management...':1,
    'NLP, Neural Networks, Machine Learning, Data Mining...':1,
    'Text Mining, Hive, NoSQL, Python, R, SQL, Data Analysis, Machine Learning...':1,
    'Data Science, R, Machine Learning, Linear Regression, Cluster Analysis...':1,
    'Retail Analytics, Analytics, clustering, segmentation, ranking, correlation...':1,
    'Linear Regression, SAS, Data Analytics, Correlation, Statistics, analytic...':1,
    'Analytics, Machine Learning, TensorFlow, Pytorch, python libraries...':1,
    'Data Analytics, SQL, Statistics, R, Econometrics, Data Mining...':1,
    'Quant Analytics, Analytics, Data Analysis, Sentiment Analysis...':1,
    'machine learning, text mining, r, python, neural networks, sql, sas...':1,
    'Predictive Modeling, Logistic Regression, R, SAS, Predictive Analytics...':1,
    'Business Analyst, Data Analytics, R, Python, MATLAB, SQL, Machine Learning,...':1,
    'Business Analyst, Data Analytics, R, Python, MATLAB, SQL, Machine Learning,...':1,
    'Retail Analytics, Business Analysis, Excel, SAS, Data Analytics, VBA...':1,
    'Deep Learning, R, Machine Learning, Python, Stakeholder Management...':1,
    'Hadoop, Java, Data Science, Cloudera, Spark, Hive, Impala, Presales...':1,
    'SQL, Javascript, Automation, Python, Ruby, Analytics, Machine learning...':1,
    'machine learning, team leading, Analytics, Natural Language Processing...':1,
    'Analytics, Data Science, Program Delivery, Solutioning, Presales, Proposals...':1,
    'NLP, SAS, User Stories, Agile Development, Machine Learning, Test Scenarios...':1,
    'Analytics, Head - Analytics, data analytics, Data Science, business process...':1,
    'Java, SCALA, Spring, Python, Solr, Redis, Machine Learning, Algorithms, Web...':1,
    'Deep Learning, NLP, Spark, Information Retrieval, Java, Python...':1,
    'SCALA, Machine Learning, Java, Python, SQL, R, Pig, Data Mining, Perl...':1
})

在这里，我想要一个代码，它应该映射数据科学家一词，在字符串中的任何位置，通过1，在它没有出现的地方，它应该放在0。

python

string

pandas

云点播特惠1元起

提供制作上传、存储、转码、媒体处理、媒体 AI、加速分发播放、版权保护等一体化的高品质媒体服务

回答 1

Stack Overflow用户

发布于 2019-07-28 11:51:47

您无需手动绘制地图，只需结合使用str.contains和np.where即可

import pandas as pd
import numpy as np

df = pd.DataFrame()

df['train_skills'] = [
        'Linear Regression, Insurance Analytics, Business Analysis..',
        'Linear Regression, Insurance Analytics, Business Analysis...',
        'Analytics, SAS, banking, insurance, Analytics Head',
        'NoSQL, Spark, Mapreduce, SQL, Cassandra, Data Science, SCALA, Big Data...',
        'NoSQL, Spark, Mapreduce, SQL, Cassandra, Data Science, SCALA, Big Data...',
        np.nan]

###### THE LINE OF CODE YOU NEED ######
df['train_skills'] = np.where(df.train_skills.str.contains('Data Science'), 1, 0)

输出：

   train_skills
0             0
1             0
2             0
3             1
4             1
5             1

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57240171

复制

GitHub 如何从特定的版本中创建分支

git

在 Git 的操作中，我们可能需要从特定的版本中创建分支。首先需要的第一步是活的当前项目的提交历史列表。然后在特定的版本后，选择 <> 标记，进入这个版本的提交历史。在左上角上，选择提交历史。在弹出的对话框中输入分支名称。在你输入名称后，将会提示你创建分支。这个的意思是从当前的提交版本中创建一个分支。然后可以从上面的提交中创建一个分支。在创建完成后，可以从分支列表中查看创建的分支列表。 https://www.ossez.com/t/github/13414

HoneyMoose

2021/04/02

6.8K0

adb shell 如何选择特定的设备？

其他

其实这个一查，stackoverflow或者百度谷歌一大把，比如这个“http://stackoverflow.com/questions/14654718/how-to-use-adb-shell-when-multiple-devices-are-connected-fails-with-error-mor”，不过呢，当然要配图才能更加清晰明了了。下面就看下配图版解答。

望天

2018/08/02

4.8K0

机器学习中的特征选择

机器学习 python

总第98篇本篇讲解一些特征工程部分的特征选择(feature_selection),主要包括以下几方面：特征选择是什么为什么要做特征选择特征选择的基本原则特征选择的方法及实现特征选择是什么特征选择也称特征子集选择，是从现有的m个特征中选出对机器学习有用的n个特征(n<=m)，以此降低特征维度减少计算量，同时也使模型效果达到最优。为什么要做特征选择在实际业务中，用于模型中的特征维度往往很高，几万维，有的一些CTR预估中维度高达上亿维，维度过高会增大模型计算复杂度，但是在这么多维数据中，并

张俊红

2018/04/11

2.2K0

如何做特征选择

数据挖掘数据库编程算法

1.数据挖掘与聚类分析概述数据挖掘一般由以下几个步骤： (l)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果，也就选择了这项工作的最优算法。 (2)提取、清洗和校验数据:提取的数据放在一个结构上与数据模型兼容的数据库中。以统一的格式清洗那些不一致、不兼容的数据。一旦提取和清理数据后，浏览所创建的模型，以确保所有的数据都已经存在并且完整。 (3)创建和调试模型:将算法应用于模型后产生一个结构。浏览所产生的结构中数据，确认它对于源数据中“事实”的准确代表性，这是很重要的一点。虽然

机器学习AI算法工程

2018/03/14

1.7K0

Python机器学习中的特征选择

python 机器学习

原文地址：https://machinelearningmastery.com/feature-selection-machine-learning-python/

Steve Wang

2018/02/02

4.5K0

python入门（八）单词堆中查找特定单词（正则表达式）

正则表达式

#用正则表达式找到文本中所有的s开头，e结尾的单词 import re text = "site sea sue sweet see case sse ssee loses" m = re.findall(r"\bs\S*e\b", text) if m: print(m) else: print('not match') 以上程序中所用到的知识点如下： re.findall(r"正则表达式", text) #re是python里的正则表达式模块 findall() #用来按照

星辉

2019/01/15

3.7K0

数学建模过程中的特征选择：scikit-learn--Feature selection(特征选择)

编程算法 http scikit-learn html 决策树

sklearn.feature_selection模块的作用是feature selection，而不是feature extraction。

学到老

2019/01/25

2.5K0

机器学习中的特征——特征选择的方法以及注意点

机器学习编程算法

关于机器学习中的特征我有话要说在这次校园招聘的过程中，我学到了很多的东西，也纠正了我之前的算法至上的思想，尤其是面试百度的过程中，让我渐渐意识到机器学习不是唯有算法，机器学习是一个过程，这样的过程包括数据处理+模型训练，而数据处理又包括了特征提取，特征表示。模型训练中有训练的策略，训练的模型，算法相关等等的一套流程，一个好的预测模型与特征提取，特征表示的方法息息相关，而算法这是作用于特征数据集上的一种策略。以上是我个人的一些观点，如有不同见解的人，也希望你们留言，大家一起探讨，一起进步。

felixzhao

2018/03/19

7290

机器学习中的特征——特征选择的方法以及注意点

编程算法机器学习神经网络深度学习人工智能

在这次校园招聘的过程中，我学到了很多的东西，也纠正了我之前的算法至上的思想，尤其是面试百度的过程中，让我渐渐意识到机器学习不是唯有算法，机器学习是一个过程，这样的过程包括数据处理+模型训练，而数据处理又包括了特征提取，特征表示。模型训练中有训练的策略，训练的模型，算法相关等等的一套流程，一个好的预测模型与特征提取，特征表示的方法息息相关，而算法这是作用于特征数据集上的一种策略。

felixzhao

2019/02/13

1.4K1

教你如何做特征选择

编程算法线性回归机器学习决策树神经网络

1、为什么要做特征选择在有限的样本数目下，用大量的特征来设计分类器计算开销太大而且分类性能差。

机器学习AI算法工程

2019/10/28

1.4K0

WordPress 技巧：如何从 WordPress 页面菜单中移除特定页面

php wordpress list 技巧数组

从 wp_list_pages() 中生成的页面菜单中移除特定的页面是非常简单的，只需要把下面代码加入到主题的 functions.php 文件中：

Denis

2023/04/15

1.9K0

机器学习中特征选择的通俗讲解！

机器学习神经网络深度学习人工智能编程算法

据《福布斯》报道，每天大约会有 250 万字节的数据被产生。然后，可以使用数据科学和机器学习技术对这些数据进行分析，以便提供分析和作出预测。尽管在大多数情况下，在开始任何统计分析之前，需要先对最初收集的数据进行预处理。有许多不同的原因导致需要进行预处理分析，例如：

郭好奇同学

2021/11/29

8090

文本分类中的特征选择方法

编程算法

在文本分类中，特征选择是选择训练集的特定子集的过程并且只在分类算法中使用它们。特征选择过程发生在分类器的训练之前。

数据分析

2018/01/29

1.7K0

Git 如何从特定的提交中创建一个新的分支

ide git

通过在提交历史中单击右键，然后选择分支，你就可在当前指定的提交历史中来创建一个新的分支了。

HoneyMoose

2022/06/04

6.7K0

Calibre 选择特定的 DRC rule

edit file

我们拿到的drc rule中通常会提供一些开关，方便我们按照类型对需要检查的rule进行选择。

白山头

2020/06/29

1.7K0

特征选择

编程算法

特征选择特征选择概述Filter 过滤法方差选择法相关系数法卡方检验互信息法Wrapper 包装法稳定性选择(Stability Selection)递归特征消除特征值排序选择Embedded 嵌入法线性模型正则化树模型类别标签不平衡处理欠采样过采样加权处理

用户3577892

2020/06/11

1.3K0

7，特征的选择

特征工程机器学习神经网络深度学习人工智能

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。根据特征使用方案，有计划地获取、处理和监控数据和特征的工作称之为特征工程,目的是最大限度地从原始数据中提取特征以供算法和模型使用。

lyhue1991

2020/07/17

9310

特征选择

embedding filter svm wrapper

过滤式是过滤式的方法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关，也就是说我们先用特征选择过程对初始特征进行“过滤”，再用过滤后的特征来训练模型。

数据山谷

2020/07/21

5680

【面试现场】如何在500w个单词中统计特定前缀的单词有多少个？

数据结构存储编程算法其他

题目：我有500w个单词，你帮忙设计一个数据结构来进行存储，存好之后，我有两个需求。

帅地

2018/12/05

8610

特征选择

编程算法机器学习神经网络深度学习人工智能

特征选择是特征工程里的一个重要问题，其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化模型，协助理解数据产生的过程。并且常能听到“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”，由此可见其重要性。但是它几乎很少出现于机器学习书本里面的某一章。然而在机器学习方面的成功很大程度上在于如果使用特征工程。

Coggle数据科学

2019/09/12

1K0

相似问题

如何从输出中选择特定的单词？

从变量中选择特定的单词

如何只选择特定的单词？

如何从字符串中选择特定的单词

如何使用最热门的单词创建特征向量(scikit-learn中的特征选择)

活动推荐

提供大模型在企业的应用构建、高效便捷

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问如何从特征中选择特定的单词
EN

云点播特惠1元起

回答 1

Stack Overflow用户

如何从输出中选择特定的单词？

从变量中选择特定的单词

如何只选择特定的单词？

如何从字符串中选择特定的单词

如何使用最热门的单词创建特征向量(scikit-learn中的特征选择)

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从特征中选择特定的单词EN

云点播特惠1元起

回答 1

Stack Overflow用户

如何从输出中选择特定的单词？

从变量中选择特定的单词

如何只选择特定的单词？

如何从字符串中选择特定的单词

如何使用最热门的单词创建特征向量(scikit-learn中的特征选择)

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从特征中选择特定的单词
EN