df:
first last email
0 Corey Schafer CoreMSchafer@gmail.com
1 Jane Doe JaneDoe@gmail.com
2 John Doe JohnDoe@gmail.com
从一个大的CSV文件中,我怎样才能找到像John这样的特定单词,而不知道他是哪一列或哪一行呢?如果约翰有几个名字,我能在名字所在的行或列中得到所有的信息吗?
我对熊猫使用jupyter笔记本,我想在一个大文件中找到我选择的一个重复单词,然后选择行并将其粘贴或附加到另一个文本文件中,例如用“test”这个词。
this is a test sample line
this is a second example line
this is a third example line
this is a test fourth sample line
this is a final example line
并获得一个新的文本文件,只显示单词"test“所在的行:
this is a test sample line
this is a test
这件事肯定是在别的地方找到的,但我找不到链接。我有一个带有任意文本和单词列表( df )的W。我想给df分配一个新列,以便它在W中包含它匹配的单词。例如,给定df
T
dog
dog and meerkat
cat
如果W=“狗”,那么我想要
T
dog dog
dog and meerkat dog
cat
我到目前为止
df[df.T.str.contains('|'.join(W), case=False)]
但这只给了我匹配的行,即:
T
dog
dog and mee
我想知道如何从特定的数据框架中计算出列表中的唯一单词的数量。例如,假设我接下来有一个list = ['John','Bob,'Hannah'],我有一个数据框架,其中有一个名为句子的列
df =
['sentences']
0 Bob went to the shop
1 John visited Hannah
2 Hannah ate a burger
我想要的输出是:
John 1
Bob 1
Hannah 2
如何计算数据集中任意行中任何给定句子中的唯一名称?
我正在使用pandas (Python)从excel表格中提取一些数据。目前,我已经编写了一个代码,它遍历每一列,如果它找到一个文本,它会返回整个列:
def getTextData(self, dataframe, getText):
for col in dataframe:
for cellvalue in dataframe[col]:
if getText == cellvalue:
#print dataframe[col]
re
我正在尝试用BlueJ创建一个程序,它允许读者输入任何单词,然后打印出来:单词、单词的长度以及单词是否包含"ing“。我已经知道如何打印单词及其长度,但我不知道如何在单词中包含"ing“。
下面是我的代码:
import java.util.*;
public class One
{
public static void main(String[] args)
{
Scanner sc = new Scanner(System.in);
String str = "";
System.out.println("Type in
我想在更多的列中搜索一些由输入选择的单词。它可能只是一个词或多个单词(所以一个单词列表)。我的数据集是这样的:
Text1 Text2
Include details about your goal... Include any error messages...
Describe expected and actual results Help you with specific coding, algorithm, or language problems: 4.5 points
例如,让我们说,我只想选择包含目标或错
我有一个关于熊猫的数据
Date Title
58 March 2015 Data Visualization with JavaScript
63 December 2014 Eloquent JavaScript, 2nd Edition
90 October 2014 If Hemingway Wrote JavaScript
96 December 2014 JavaScript for
我想知道是否有一种方法可以使用Pandas遍历CSV文件中的每一行,以确定是否在该行中找到了一个单词(类似于在Linux系统中使用grep )。找到该单词的列并不重要,只要找到该单词,就会解析整行。我发现了iterrows()函数,但是我读到,如果文件要包含超过1000行,而我的程序可能读取超过100,000行,那么使用这种方法的效率非常低。任何建议都是非常感谢的! #Code was tested using Python v3.9.5
import os
import pandas as pd
def parse_row(grep_value):
global import_
我有data frame(location),如下所示。我还在下面粘贴了我的当前代码,但是它过滤掉了所有包含数字和特殊字符的记录。
我的问题是,当单词之间有一个空格字符,例如纽约,纽约。我不会过滤掉单词之间的空格字符。
输入
location.head(8)
CITY COUNTRY
AGNIN34 FR
(REYDON) GB
MARSCIANO IT
SANXIANG TOWN CN
SIZIANO IT
APELDOORN NL
REYD
我的DataFrame有两列:
Name Status
a I am Good
b Goodness!!!
c Good is what i feel
d Not Good-at-all
我想过滤行,其中的状态有一个字符串'Good‘作为它的确切单词,而不是与任何其他单词或字符组合。
因此,输出将是:
Name Status
a i am Good
c Good is what i feel
另外两行中有一个“好”字符串,但与其他字符混合,因此不应该被选中。
我试着做:
d = df[df['Status'].str.co
我想删除基于列id的重复项,如果它不包含国家1或国家2中的单词us,我该如何实现这一点。
ID country1 country2 status
1. us,yt au,in,sg monetize
1. tr,hk ds,gh block
2. ju te,yu,us block
2. ju te,yu block
Expected output
ID country1. country2. status
1. us,yt au,in,s
我有这个数据集:
Date ID Tweet Note
01/20/2020 4141 The cat is on the table I bought a table
01/20/2020 4142 The sky is blue Once upon a time
01/20/2020 53 What a wonderful day
我正在尝试对数据帧进行分段,其中只有一个数据帧在它的一列中包含某些单词,而不包含其他单词。 例如 d = {'resolution' : ['replaced scanner', 'replaced the scanner for the user with a properly working one from the cage replaced the wire on the damaged one and stored it for later use','the scanner has been replaced and the
当单词Sony出现在csv行中时,我将使用此代码提取一些评论。现在我想知道如何按照id列的顺序对搜索进行排序。
这是csv的结构
id review
#1 Some text ...
#2 Some text ...
df = pd.read_csv('./file.csv', delimiter= '\t', lineterminator="\n")
print df[df['review\r'].str.contains("Sony")]
我有一个dataframe,我想在其中将函数传递给特定的列:
希望根据某些要求更改“Channel”列值:
if 'Facebook' or 'FacebookPaid' or 'FacebookFree' in df['utm_Campaign']:
df['Channel'] = 'FB'
elif 'Newsletter' in df['utm_Campaign']:
df['Channel'] = 'Email
我有一个字符串列表,需要对数据框架中的某一列进行搜索:
search_strings = ['foo bar', 'bar such foo', 'very wow foo']
我试图在dataframe中检索与列表中每个字符串中的单词按任何顺序匹配的行。dataframe可能如下所示:
ID string_col
1 foo bar
2 bar foo
3 foo very bar
4 bar such foo
5 foo wow very
我很高兴地发现,我可以在str.contains中使用一个‘AC.26’操作符(检索所有5行)
我有一个单词列表,如下所示 list_example['one', 'two', 'three', 'four'] 以及与其他词一致的数据帧,例如: col1, col2, col3
0 two nine ten
1 two three ten
2 five NaN NaN
2 five three NaN
2 two NaN NaN
2 five NaN NaN
2 two NaN NaN
2 five NaN
我对如何标记为包含一些单词的真/假行有一些疑问。
我有一个单词列表
my_list=['cat','dog','mouse']
和数据文件中的4列:
Col1 Col2 Col3 Col4
... This is the story of a cat My dad is going to UK False
... My dog's name is Bert The sky is so blue today False
... There is
如何才能按几个列进行分组,只针对列值中任意位置包含字符串的值?
例如,如果我想查看州和剧院名称,但只查看标题的计数或次数,因为其中的任何地方都有狗这个词,我如何才能对其进行筛选?
State | Theatre | Title | TicketPrice
NY B Dog in heaven 5.50
NJ C Basketball 3.33
NY B Cats 9.00
NY B Hair of Dog
我想重构下面的代码,以利用Stream()方法,但不知道如何做到这一点。
给定的可变句子是一个字符串列表,并且预先填充了:"Jack去公园了“,"Mary呆在家里”,"Chris去工作了“
如何使用Stream()返回包含单词"home“的整行?
List<String> sentences = new ArrayList<>();
sentences.add("Jack went to the park");
sentences.add("Mary stayed home");
sentences.add
我有一个标准的熊猫DataFrame由字符串组成的句子(如下图所示),我想显示在‘身体’的任何地方都有单词“世界”的行。df.isin(['world'])不能工作,因为它只匹配精确的标签。如果"world“一词出现在'body‘文本中的任何地方,我想返回True。
body
0 'Hello world hi hi'
1 'My name is David, hello'
2 ...
我尝试过的代码是:
df.isin(['world'])
它产生:
body
0 False
1 False
2 ...
我在Pandas中有DataFrame,如下所示:
col1 | description
---------- |-----------
John Simon |John Simon red
Terry Juk |green Terry Juk
John Bravo |John Bravo brown
Ann Still |orange Ann Still
bad_list = ["red", "green"]
而且,我只需要从"col1“中选择这些人,这些人在列"description”和其他东西(不管前后)中有价值,但是其他