我有一只有两个栏的熊猫df。其中一个列包含单词字符串,一个列包含单个单词。我需要比较这两列,看看“Col_1”中的字符串是否包含“Col_2”中的单词,然后创建另一列,其中包含该元素的索引。
这就是我所拥有的:
data = {'Col_1': ['A B C D', 'A B C', 'A B C'], 'Col_2': ['D', 'B', 'Z']}
df = pd.DataFrame(data)
print (df)
这就是我需要的:
data =
我有一个dataframe,它由一个包含多个单词的变量组成,如:
variable
"hello my name is this"
"greetings friend"
另一个由两列组成的dataframe,其中一列是单词,另一列是这些单词的替代,例如:
word
"hello"
"greetings"
替换:
replacement
"hi"
"hi"
我试图找到一种简单的方法,用替换词替换“变量”中的单词,遍历所有的观察结果,以及每个观察中的所有单词。预期的结果是:
variable
我有一个非常大的DataFrame,我想知道是否有短的(一个或两个)方法来获得DataFrame中非NaN条目的计数。我不想一次写一列,因为我有将近1000列。
df1 = pd.DataFrame([(1,2,None),(None,4,None),(5,None,7),(5,None,None)],
columns=['a','b','d'], index = ['A', 'B','C','D'])
a b d
A
我有一个包含一列字符串列的dataframe,我希望将其进一步标记为以下类别:城市、国家和大陆。我使用gsub将所有城市替换为"City“,将所有国家替换为"Country”,将所有大陆替换为“Continent”。 #This is what I have
dataframe
Color Letter Words
red A Paris,Asia,parrot,Antarctica,North America,cat,lizard
blue A Panama,New York,Africa,dog,T
我试着在我的网站上做一个复活节彩蛋,我想检测用户是否在30秒内按顺序输入了一些单词。这些单词不会在任何文本区域或输入中输入,就像你在页面上键入‘hello im Darius’一样,或者你在页面上四处张望,然后开始打字,计时器就开始了。我想这将类似于$(document).keyup(){...,但我不知道如何在给定的时间内按顺序追踪所有的单词。JQuery或vanilla,但如果可能的话,我更喜欢jquery。谢谢各位。编辑:这是我到目前为止所拥有的:
$(document).keypress(function(event){
if (hotwords && timer)
我有一个Pandas DataFrame,它是通过读取带有表格的PDF表格创建的。PDF的解析并不完美,因此我最后在结果的DataFrame中将几个表列擦成了一个列。问题是PDF中的表列之一是文本,因此有时有一个词,有时有两个单词组成该列。示例:
Col_1 Col_2
0 Hello X Y A
1 Hello world Q R B
2 Hi S T C
我想将Col_1分成3列。我不知道如何做到这一点,因为第一列有时由一个单词组成,如行0& 2,有时由两个单词组成,如第1行。
我尝试过用Col_
作为一名语言学家和python初学者,我希望在我自己的(德语)tweet语料库中找到单词搭配。如何将pandas dataframe (只有一列= tweet)中的tweet转换为单词列表,以便能够使用nltk-collocation-finder?我的版本(如下)创建了一个字母列表,而不是单词列表,只给出了字母搭配。任何建议都是很棒的!
这就是我到目前为止所知道的:
import pandas as pd
data = pd.read_csv("tweets.csv")
import regex as re
def cleaningTweets(twt):
twt
我怎样才能把一个包含标点符号的单词分成两个不带标点符号的单词呢?例如,如果我有一个字符串"half-attained",我如何使它可以去掉"-“,以及将单词拆分成"half”和"attained“。
这就是我到目前为止所做的,它只删除了标点符号,并将单词放在一起。
for n in range(0,len(test_list)):
no_punct = ""
for char in test_list[n]:
if char not in punctuations:
no_punct = no_punct
比方说,我想要找到数据帧每行中的字数。因此,在下面的示例中,我想找出第一列中的第一个值有3个单词,第二个值有4个单词,依此类推。我假设这是一个应用函数的任务,但是我没什么运气能弄清楚这个问题。
dat = data.frame(one=c("That is Cool",
"I like my bank", "He likes pizza", "What"))
我是否需要使用strsplit(),还是在创建函数时使用apply()函数更好:apply(dat, 1, function(x)...
我有一个有两列的数据文件。一列包含句子列表,另一列包含单词。例如:
words sentences
loose Loose connection several times a day on my tablet.
loud People don't speak loud or clear enough to hear voicemails
vice I strongly advice you to fix this issue
advice I strongly advice you to fix this issue
现在,我希望过滤这个数据框架,这样我只能
我最近问了这个问题:Add new columns to a dataframe in for loop,但是问错了。 我能够编写一个for循环,该循环每次向dataframe中添加一行,如下面的示例所示: from random import randint
import numpy as np
dataframe = []
for i in range(2):
value = randint(0,10)
for j in range(2):
mean = np.mean(value)
dataframe.append(mean)
cols=['mean
我想写一个.csv文件。其中一列是“单词”。每个类别的单词都排在一起,单元格“word”有一个单词列表,我将其读为:
words = []
for i in range(len(category)):
r = requests.post(base_url+'/'+url[i])
if r.ok:
data = r.content.decode('utf8')
words.append(pd.Series.tolist((pd.read_csv(io.StringIO(data), squeeze=True))
我有一个大约2M字符串的列表和一个大约800个单词的列表。我已经创建了一个数据帧,其中字符串作为行,单词作为列。除了字符串变量之外,所有其他变量都是true或false值,与单词是否在字符串中相对应。不存在缺失值。 即 import pandas as pd
df = pd.DataFrame({'strings':['a string with california',
'a string with lobster',
我在Pandas dataframe中的一列中有文本评论,我想要计算N个最频繁的单词及其频率计数(在整个列中-而不是在单个单元格中)。一种方法是使用计数器通过迭代每一行来计算单词数。有没有更好的选择?
代表性数据。
0 a heartening tale of small victories and endu
1 no sophomore slump for director sam mendes w
2 if you are an actor who can relate to the sea
3 it's this memory-as-identity o
我有一列数据帧和一个字典,其中包含不同的类别及其对应的单词列表。我必须计算属于每个类别的单词在Pandas dataframe列中出现的次数。
下面的代码对我有效,但我的真实数据集超过100k行,我的真实类别超过40个,每个类别中的单词超过500个。我花了1个多小时来运行代码。我正在尝试优化以下代码的速度。
dummy_dict={
'psych_prob':
['he would be happy about it, but i am sad it does not make sense to her',
我有两个列的dataframe和一个单词列表。我希望通过这个列表过滤数据的一个列,并将该列的匹配行保存到一个新列表中,同时从另一个列中获取相同索引的值,以便将该值保存在第二个列表中。
所以我基本上想用一列过滤我的数据,除了我有字符串,我想要和单词进行比较,所以我必须遍历它们。
我的代码:
dataframe:
letter | sentence
----------------------------------------
L | "Lorem ipsum dolor sit amet"
C | "consectetur adipiscing el
我正在尝试在我的dataframe (Title)的某一列中查找部分字符串匹配。理想情况下,如果部分字符串匹配为true,我希望pandas创建一个true false列,如果字符串匹配为false,则创建false列。我想给你一个def函数,以便创建一个if/else语句,因为我的数据集非常大。
如果“Title”列中有单词“dog”,那么在我的新列“Match”中的该行中放一个true。
Old Dataframe example:
Title Author Name
Dogs R Us John Smith
Pigs can Fly Henry Wh