从dataframe中提取并返回大写单词_比较单词并返回Pandas DataFrame条目_解压dataframe列，并根据特定单词返回行 - 腾讯云开发者社区

python、python-3.x、text、nlp、nltk

我写了一个python脚本，从熊猫的dataframe栏中提取单词。我注意到，在提取单词时，如果单词的最后一个字母是's'，那么最后的's‘就会被截断。下面是实际的代码和输出我的代码 import re import unicodedata import nltk # Create dataframe data = ['gautam das', 'vas', 'kansas usa', 'maryam lass'] # Create the data

浏览 5提问于2022-10-19得票数 3

回答已采纳

3回答

如何使用非单词标记识别文本中的单词？

algorithm、nlp、lexical-analysis

我目前正在解析一堆邮件，希望从邮件中提取单词和其他有趣的标记(即使有拼写错误或字符和字母的组合，如"zebra21“或"customer242")。但是我怎么知道"0013lCnUieIquYjSuIA“和"anr5Brru2lLngOiEAVk1BTjN”是不相关的单词呢？如何提取单词并丢弃编码错误或部分pgp签名或任何我们在邮件中获得的令牌，并且知道我们永远不会对这些感兴趣？

浏览 5提问于2010-01-03得票数 7

回答已采纳

1回答

当我读取文本文件时，如何只获得没有所有标点符号的单词？

matlab、text、textscan

文本文件abc.txt是从web上刮走的任意一篇文章。例如，它如下：他的名字叫“唐纳德”，他喜欢汉堡。12月11日，他结婚了。除了以上文章中的各种句号和引号外，我只想提取小写和数字中的单词。就上述例子而言： {他的名字是，唐纳德，他喜欢汉堡，12月11日，他结婚了) 我的代码如下： filename = 'abc.txt'; fileID = fopen(filename,'r'); C = textscan(fileID,'%s','delimiter',{',','.',&#

浏览 1提问于2018-08-25得票数 1

回答已采纳

1回答

RegEx为字符串中的每个单独单词获取查找头

javascript、regex、regex-lookarounds、regex-group

我正在尝试创建一个正则表达式，从包含多个单词的字符串中提取一个单个引用号。引用数字是任何大写字母-数字字，有6个或更多字符.即GAF7887979、897979等。到目前为止，我使用以下方法捕获这些引用：[A-Z\d-]{6,}与积极的前瞻性相结合，以确保匹配中至少有一个数字：(?=.*\d)。但是，我需要筛选出一个特定的格式化日期，它看起来如下所示：19MAR19，为了做到这一点，我使用了一个负面的前瞻性：(?!\d{2}[A-Z]{3}1\d)，它似乎工作得很好。最后的正则表达式是：(?!\d{2}[A-Z]{3}1\d)(?=.*\d)[A-Z\d-]{6,} 因此，对于一个单词

浏览 6提问于2017-09-05得票数 2

回答已采纳

1回答

如何在熊猫中使用regex？

python-3.x、regex、pandas

我已经从.csv文件中提取了列名，现在我想使用regex表达式来大写单词的第一个字母和_字符之后的第一个字母。例子: loan_status -> Loan_Status Loan_ID loan_status Principal terms effective_date due_date paid_off_time past_due_days age education Gender 这就是我到目前为止想出的(^[a-z])+\w+ 更新多亏了Wiktorż，这就是我想出来的。我想知道是否有一种更紧凑的方式来做下面的事情。 import csv import pandas as pd

浏览 1提问于2020-05-30得票数 1

回答已采纳

1回答

输入警报自动大写字？

ios、xcode、swift、capitalization

我发现对于UITextFields我可以用 UITextField.autocapitalizationType = UITextAutocapitalizationType.Words 使内容自动大写为单词。是否有方法从输入警报中提取文本，并将每个单词的第一个字母设置为大写字母，也可以这样做？

浏览 3提问于2015-09-02得票数 1

回答已采纳

2回答

从字符串中提取前3个单词的Regex

regex

我试图替换所有的单词，除了前三个字从字符串(使用textpad)。 Ex值：This is the string for testing. 我只想从上面的字符串中提取3个单词：This is the，然后删除所有其他单词。我想出了匹配3个单词的正则表达式(\w+\s+){3}，但我需要匹配除前3个单词之外的所有其他单词，并删除其他单词。有人能帮我吗？

浏览 3提问于2014-01-25得票数 7

回答已采纳

1回答

使用Gsub获取R-正则表达式中的匹配字符串

regex、gsub

我正在尝试在第一个空格之后提取单词种<-gsub(“.*(A+)”，"\1"，x=genus) 这对于有两个单词的其他行很好，但是第9行“”有3个单词，我的代码只返回字符串"marnieae“中的最后一个单词。如何在第一个空格之后提取单词，这样我就可以检索"marnieae“而不是”marnieae“，但答案却存储在一个名为”物种“的变量中。水母属 9“鼓室大耳”

浏览 6提问于2017-12-04得票数 0

回答已采纳

1回答

如果单词是大写字母，如何从单词中提取最后三个字符？

python、regex

如果单词是大写字母，如何从单词中提取最后三个字符？ a = "aaaAAA" b = "bbbbBBB" c = "ccc CCC" d = "dddddDDD" e = "eeeEEEE" 我的职能： def get_three(value): search = re.search("[A-Z]{3}$", value) if search: return search.group(0) return "NONE" 它返回：

浏览 7提问于2022-11-10得票数 0

回答已采纳

2回答

String#include？只检查第一个位置

ruby

我有一种检查一个单词是否包含某个字母的方法。string#include？如果字符串对象包含任意位置的字母，则应返回true。但是，只有当字母(char_clicked)和字母在单词(final_word)的第一个位置匹配时，我的方法才返回true。例如，如果final_word参数是西班牙，则只有当"S“是char_clicked时，方法才返回true，如果char_clicked是"_pain”之一，则返回false 你能不能减轻我的痛苦告诉我我做错了什么..。 def correct_guess?(char_clicked, final_word) puts

浏览 4提问于2013-01-13得票数 0

回答已采纳

2回答

如何使用perl提取长字符串中的大写单词

string、perl、case-sensitive

我试图找到一种方法，使用perl从相当长的字符串中只提取大写单词(至少三个连续的大写字符，加上数字)。示例： "Hello world, thank GOD it's Friday, I can watch EPISODE4" 输出： "GOD EPISODE4" 出于某种原因，我想不出一个明智的方法来做这件事，有什么想法吗？谢谢!

浏览 1提问于2014-05-01得票数 0

回答已采纳

1回答

熊猫-根据特定关键词提取所有内容

pandas、string

我正在尝试从Dataframe中提取所有内容，直到某个特定的单词出现为止。我正在努力提取整个内容，直到以下单词出现：高、中、低 Dataframe中文本的示例视图： text Ticket creation dropped in last 24 hours medium range for cust_a Calls dropped in last 3 months high range for cust_x 预期输出： text, new_text Ticket creation dropped in last 24 hours medium range for cust_a, Ticket

浏览 1提问于2020-09-17得票数 1

回答已采纳

1回答

在Python语言中查找DataFrame的description列中的精确单词

python、regex、pandas、findall、exact-match

我的列表包含一些单词，比如：‘’橙色‘’，‘酷’，‘应用程序’....`，我想从DataFrame的description列中输出所有这些完整的单词(如果可用)。我还附上了一个示例图片与代码。我使用了str.findall()，它从additional中提取add，从apple中提取app。然而，我不希望那样。只有当它匹配整个单词时，它才应该输出。 ?

浏览 23提问于2020-10-10得票数 1

3回答

R正则表达式以标识字符串中的2或3个连续的大写单词[R]

r、regex

我正在尝试使用R正则表达式复制这个答案，并将其限制为仅2/3连续大写，并考虑完全大写的单词：这个想法是从其他杂乱无章的单词垃圾中提取名称： test_string <- "we need a test for Andrew Smith or other names like Samuel L Jackson, but we Don't Want Weird Instances Where more stuff is capitalized, but we do want where the entire name is capitalized, like DER

浏览 1提问于2019-06-22得票数 0

2回答

用列表中的单词替换句子中的单词，并将新句子复制到一列中

python、pandas、list、replace

我有一个dataframe，它在一列中包含句子、我从该列中提取的特定单词，第三列包含第二列中单词的同义词列表： data= {"sentences":["I am a student", "she is my friend", "that is the new window"], "words": ["student","friend", "window"], "synonyms":[["pupil"],[&

浏览 21提问于2020-02-07得票数 0

回答已采纳

2回答

python负前瞻性方法

python、regex

我现在正在从文本数据(10k语句数据)中提取公司名称。我首先尝试使用nltk StanfordTagger并提取所有标记为组织的单词。然而，沉默常常无法回忆起所有公司的名字，当我在每一个相关句子中使用标签时，花费了这么长的时间。因此，我试图提取以大写字母开头的所有单词(或字符都由大写字母组成)。所以我发现下面的正则表达式很有用。 (?:[A-Z]+[a-zA-Z\-0-9]*\.?\s?)+ 然而，它不能区分部门名称和公司名称。例如, 句子:该公司的客户包括Conner外围公司(“Conner”)、Maxtor公司("Maxtor")等。Applied公司合并净销售额

浏览 0提问于2017-11-03得票数 0

2回答

使用Perl提取单词

perl

我喜欢从课文中提取单词。我已经编写了简单的正则表达式。 my $regex = qr[\W]; while(<DATA>){ push @words, split $regex; } 我喜欢修改它以包含适当的名称。专有名称可以组合多个“单词”。例如.. @names = ('John Smith', 'Joe Smith');

浏览 2提问于2011-11-29得票数 1

回答已采纳

1回答

CountVectorizer给出的计数与手工计数不同

python、pandas、scikit-learn、countvectorizer

我有一个包含单词(没有标点符号)的单列(“字符串”)的数据。我需要计算某个单词的行数(在下面的示例中，单词："problem")出现在这个dataframe中。首先，我为每个单词创建了一个列，计算了每个单词在每一行中出现的次数，并为"problem“计数了具有正值的行数。那是method1_outcome。然后，我使用sklearn的内置CountVectorizer对象将相同的数据行转换为稀疏矩阵，并计算对应于"problem“(method2_outcome)的列的正值。问题是这些值不匹配。两者之间的差别也不小。method2_outcome大于11%

浏览 4提问于2020-08-11得票数 0

回答已采纳

1回答

使用regex提取大熊猫数据中单词列表前的数字

python、pandas、regex

我只想提取特定单词列表之前的数字。然后将提取的数字放入新的列中。单词列表是：l = ["car", "truck", "van"]。我只把单数形式放在这里，但它也应该适用于复数。 df = pd.DataFrame(columns=["description"], data=[["have 3 cars"], ["a 1-car situation"], ["may be 2 trucks"]]) 我们可以为提取的数字df["extracted_num"]调用新列

浏览 1提问于2022-08-09得票数 0

回答已采纳

1回答

如何提取大熊猫数据栏中所有列中字符串中的大写单词？

python-3.x、pandas、dataframe、data-processing

数据集附呈。在名为“转录”的列中，我希望从列中的每一行中提取大写单词，并将其作为dataframe的特性，并将大写单词后面的字符串作为该特性下的数据点的值。预期的输出将是dataframe中的另一列，名称为字符串中的大写单词，而特定的数据点将在该特性下具有一个值。尽我最大的努力解释。示例输出的链接(前2个数据点显示)

浏览 2提问于2020-02-28得票数 0

回答已采纳

1回答

根据CSV记录过滤Spark数据帧中的部分数据

scala、apache-spark、apache-spark-sql、user-defined-functions

我有一个包含一些单词的CSV文件。总共没有。csv文件中的字数不会超过50k条记录。我有一个从具有keywords列的JSON文件创建的Spark Dataframe。我需要做的是从dataframe中过滤出其keywords列值与CSV文件中的值匹配的记录。这里，匹配表示csv文件中的单词是否出现在dataframe列中。举个例子，假设csv文件中有一个单词"baby toys"，spark dataframe看起来像这样 ***Keywords*** new baby toys baby toys for all costly baby toys price baby

浏览 2提问于2019-05-31得票数 0

1回答

Regex搜索熊猫数据栏中的整列

python、regex、pandas、dataframe

我希望从dataframe列中的urls中提取 B0153R2A9I。例如“” 我在一个编辑组里找到了这个代码- import re search = re.search(r'B[A-Z0-9]{9}', url) print(search.group(0)) 虽然这似乎适用于一个链接，但当我试图将它应用于这样的列时- import re df['code'] = re.search(r'B[A-Z0-9]{9}', "", df['pro_link']) df‘’pro_link‘列拥有所有链接。df‘’code

浏览 1提问于2021-07-18得票数 2

回答已采纳

1回答

Excel中如何从字符串中提取大写词或大写字母

excel、excel-formula、excel-365、filterxml

如何从excel中的字符串中提取capitalized full words？参考第一个图像，我使用了以下公式从单元格中的字符串中提取大写/大写字母，它工作得很好， ·细胞生长因子( B2 )中的公式 =TEXTJOIN(" ",, FILTERXML("<a><b>"&SUBSTITUTE(A2," ","</b><b>") &"</b></a>","//b[translate(.,'abcdefghijklm

浏览 4提问于2022-03-13得票数 3

回答已采纳

1回答

下面的语句如何产生空格？

c、string、file

我的程序“上层”试图做的是使字母大写。它以argv的形式从逗号行中获取一个文件；然后读取它，使其大写。例如: example.txt文件中的“我想知道它是否有效”。在命令行中： C:\Users\...>upper example.txt I WONDER IF IT WORKS 这是我第一次使用的代码： int main (int argc, char *argv[]){ FILE * fp; int ch; if ((fp = fopen (argv[1] , "r+")) == NULL) { fprintf (stde

浏览 1提问于2020-03-23得票数 0

回答已采纳

1回答

基于Dataframe的Python模糊字符串搜索

python、regex、pandas、findall、fuzzy

我有500条短信，我用pytesseract来提取所有文本。然后，我从pytesseract (熊猫中的dataframe)中搜索返回字符串(df‘string )中的单词'list’(search_list)。使用下面的公式效果很好， df['Found'] = df3['String'].str.findall('(' + '|'.join(search_list) + ')') 我想加入模糊搜索(regex?)因此，它也将寻找替代品。'g‘而不是'c’等，在OCR不太好的地方。我在下

浏览 4提问于2021-09-23得票数 0

3回答

将值赋值给熊猫数据中无法保存的列表

python、pandas、series

我在dataframe中有一个列，其中包含列表。从下面的图片中可以看到。我想知道如何在没有重复单词的情况下从本专栏中提取所有单词，并且需要迭代从0到len(uniquewordlist)的唯一单词列表，并为我所处的迭代所依据的每个单词指定一个值。谢谢你的帮助。

浏览 1提问于2018-06-29得票数 1

回答已采纳

3回答

在php中使用空格的所有大写字符串

php、regex、preg-match-all

我必须从字符串中提取字符串，如"THE NEED OF FOLLOWING A RELIGION "。我提取了THE，NEED，OF这样的单词.但我需要一串完整的大写字母，如"THE NEED OF FOLLOWING A RELIGION"，但不能这样做，请帮助。 preg_match_all("/[A-Z]*/", $html, $out); 谢谢

浏览 8提问于2016-09-25得票数 0

回答已采纳

2回答

从Python字符串列中提取连续的大写单词

python、regex、pandas

我有一列字符串，我希望从中提取不同情况下出现的所有连续大写单词。下面是我拥有的字符串类型的一个示例： data = pd.DataFrame({ 'strings': ['ubicado en QUINTA CALLE, LADO NORTE detras', 'encuentra por AVENIDA NORTE, ARRIBA DE IGLESIA frente a', 'direccion en CENTRO COMERCIAL, SEGUNDO NIVEL

浏览 4提问于2022-05-16得票数 2

回答已采纳

1回答

Excel第一个字(带错误检查)

excel、excel-formula

而我可以从包含多个文本值的单元格中提取第一个单词，如果不存在多个值，则使用错误检查来返回唯一的单词。对于某些源单元格在多个单词之间包含逗号的情况，我似乎无法考虑添加更多检查(或者是否可以在相同的嵌套公式中进行检查)。例如，下面的公式将从"James Marriott“返回"James”。但是，它返回"James，Marriott“中的”James“。如果范围内的所有单元格都是一致的，那就很容易了，但事实并非如此，尝试嵌套多个find语句会导致失败。有什么建议吗？ =IFERROR(LEFT(A1,FIND(" ",A2)-1),A2) 对于复合问题，也有

浏览 0提问于2016-02-20得票数 1

1回答

如何通过设置操作从一个列中提取多个子字符串？

python、string、pandas、dataframe、set

我创建了一个Dataframe，具有以下名称。我尝试使用set操作从列中提取子字符串。但我是，不能提取多个单词(多个字符串)。我只能提取一个单词。请检查我的获得的输出和预期的输出，并为此提供一个有效的解决方案。 import pandas as pd import numpy as np df=pd.DataFrame({"Names":["This is Santhosh","This is Sneha Alphonse Shaji","This is Vikram Karthi"]}) df Name_set={

浏览 3提问于2019-09-21得票数 1

回答已采纳

1回答

如何计算具有已知分布的任意密码规则的熵？

passwords、password-cracking、entropy

许多在线熵计算器都会做出某些假设(比如假设密码和生成密码的随机字符集一样罕见)，或者用手挥手计算。我想知道如何计算密码分布的熵，它由一个或多个子规则组成，这些子规则是从已知分布中提取的。下面是一些需要计算的例子。 1.简单8字符密码 A-z0-9，随机序列 2.从流行文化假设语料库中选择密码从10,000,000词组语料库中选出5个词组第一个字母可以大写 3.带有附加“强度”规则的Diceware风格从7776个单词列表中随机抽取4个单词(6^5，6-侧模，5卷) 这些单词与空格、-或根本没有空格字符(例如)连接。)-每个单词都使用相同的间隔序列以美国键盘数字行中的10个符号中的

浏览 0提问于2023-01-19得票数 -1

1回答

使用Displacy的自定义实体的自定义颜色

python、spacy

我有一个单词清单，名词-动词短语，我想： paragraphhighlight 搜索依赖模式，单词，在文本的语料库中识别匹配的段落，在中提取匹配的单词，在中提取段落中的匹配词，与匹配的单词在excel中提取图像。下面的MWE涉及到高亮显示匹配的单词并使用位移显示它们。我提到了我任务的其余部分，只是为了提供背景。输出没有用自定义颜色给自定义实体着色。 import spacy from spacy.matcher import PhraseMatcher from spacy.tokens import Span good = ['bacon', 'chicken&#

浏览 3提问于2021-08-12得票数 3

回答已采纳

2回答

根据文本列添加列出关键字(字符串)的列

r、string、dataframe

如果我有以下列的dataframe： df$text <- c("This string is not that long", "This string is a bit longer but still not that long", "This one just helps with the example") 像这样的字符串： keywords <- c("not that long", "This string", "example", "helps") 我正在尝

浏览 2提问于2018-01-29得票数 4

回答已采纳

1回答

在行尾前只取大写一组单词需要RE。

regex

我想要创建正则表达式，它将在一行上提取一组大写单词(由空格分隔)。对于Eg.in，本文 TOPIC ONE Description of this topic, one CAPITAL word TOPIC NUMBER TWO Description of this topic two CAPITAL word 我只需要选择主题一和主题二，而不是资本这个词。我尝试了下面的RE \b[A-Z]+\b 它能够单独提取大写单词。我也试过 \b[A-Z]+\ \b 但是除了最后一个大写词之外，它选择了所有的词。我想确保RE总是只选一个以上的单词

浏览 0提问于2019-10-25得票数 2

回答已采纳

2回答

如何找到匹配的单词，没有子字符串使用熊猫str.extractall？

python、pandas、dataframe、join、text

我正在使用dataframe中的一列字符串，并试图提取与给定单词列表中的任何单词匹配的所有单词。它提取了所有匹配的单词和子字符串，我怎么能只得到单词？非常感谢！我的代码： import pandas as pd cl =['dust', 'yes inr', 'inner'] data = [[1, 'dust industr yes inr'], [2, 'state inner'],[3, 'dustry']] df = pd.DataFrame(data, columns = ['

浏览 3提问于2022-02-17得票数 1

回答已采纳

3回答

词义字符串排序查询

java、sorting

因此，我是Java的初学者，在一本书中解决了这个问题：编写一个程序，设置一个字符串变量，其中包含您选择的一段文本。从文本中提取单词并按字母顺序排序。显示已排序的单词列表。您可以使用一种简单的排序方法，称为气泡排序。要将数组按升序排序，过程如下: a.从数组中的第一个元素开始，比较连续元素(0和1，1和2，2和3，等等)。b.如果任何对的第一个元素大于第二个元素，则交换这两个元素。对整个数组重复此过程，直到不需要交换为止。数组元素现在按升序排列。我的解决办法是： public class bubbleSort { public static void main(String

浏览 3提问于2013-06-26得票数 0

回答已采纳

3回答

只提取带有正则表达式的ALLCAPS单词

regex、google-sheets、re2

寻找一种只从文本字符串中提取所有大写单词的方法。问题是，它不应该提取文本字符串中混合大小写的其他单词。例如，如何使用regex从以下句子中提取肯塔基州：肯塔基州有很多选择我试图在Google中使用regexextract()来实现这一点，它使用的是RE2。期待听到你的想法。

浏览 2提问于2016-01-26得票数 2

回答已采纳

3回答

如何提取大写第一字母，每个单元格多个单词，理想情况下，忽略第一句与谷歌表，REGEXEXTRACT公式？

regex、google-sheets、google-sheets-formula

我试图从文本中提取带有大写字母的所有单词，并在google中使用REGEXEXTRACT公式。理想情况下，句子的第一个单词应该被忽略，只有所有后面带有大写字母的单词都应该被提取出来。其他密切的问题和公式：我找到了另外两个问题和答案： =ARRAYFORMULA(TRIM(IFERROR(REGEXREPLACE(IFERROR(REGEXEXTRACT(IFERROR(SPLIT(A2:A, CHAR(10))), "(.*) .*@")), "Mr. |Mrs. ", "")))) =REGEXEXTRACT(A2, REPT(&#

浏览 15提问于2022-01-05得票数 1

回答已采纳

1回答

大熊猫的提取功能与regex的行为不同，与“正常”regex提取不同？

python、regex、pandas

我尝试通过str.extract方法从熊猫数据中提取1-n行，从熊猫数据中提取1-n行(示例中为SOMEWORD)，它们之间是“开始”(示例中的SOMEWORD)，但结果只是NaN。下文列举了一些例子。我尝试在regex101.com的帮助下构建regex，它在那里工作，甚至当我在jupyter笔记本中复制regex101.com自动生成的示例代码时，它也会按我的预期提取行。带有熊猫str.extract函数的示例代码： testInput = pd.DataFrame({'text': ['\nSOMEWORD\n---------- \nFirstline wi

浏览 0提问于2018-12-28得票数 1

回答已采纳

1回答

大熊猫两栏间词性索引的获取

pandas、dataframe、nlp、multiple-columns、spacy-3

我正在检查SpaCy西班牙语狐猴在使用.has_vector方法时使用的单词。在datafame的两列中，我有一个函数的输出，它指示哪些单词可以被引申，而在另一列中，有相应的短语。我想知道怎样才能提取出所有有错误输出的单词来纠正它们，这样我就可以把它们混淆起来。所以我创建了这个函数： def lemmatizer(text): doc = nlp(text) return ' '.join([str(word.has_vector) for word in doc]) 并将其应用于DataFrame中的列语句中。 df["Vectors"] = df.rev

浏览 11提问于2022-04-05得票数 0

回答已采纳

1回答

如何检查字符串中的任何单词在Pandas中是否有特殊的字符和条件

python、pandas

我有一个dataframe，其中一个列包含一个tweet。我想要得到这个dataframe的行，其中这个"tweet“列包含任何以"#”开头并且有2个或更多大写字母的单词。因此，例如，我想撤回这样的行：我喜欢用python编写代码。CodingSession 我不再害怕#COVID19 19了。然而，在我的条件下，这些分类是不可能的：我喜欢用python编写代码。#编码#会话我喜欢用python编写代码。#编码会议我不再害怕#Covid19 19了。

浏览 4提问于2022-02-11得票数 1

回答已采纳

1回答

熊猫df.equals返回False，即使字符串为True

python、pandas

我试图在一个名为“Match？”的新列中，在同一Dataframe的两列中返回字符串的真假。问题是，.equals总是返回False，即使它应该是True。我尝试过的Things运行将两列都显示为数据对象。将两列都转换为字符串。将两个数据转换为字符串。代码试图实现的目标和可能的线索 column).Removes 提取网页标题中的第一个关键字(通过从keyword.Converts提取关键字的列表中提取第一个单词，例如，从matched.Extracted提取的关键字的末尾的任意空格到标题大小写，以便它可以是matched.Extracted关键字与关键字列表匹配，并在新列中返回真假。)

浏览 1提问于2020-10-27得票数 0

回答已采纳

8回答

仅将从MySQL输出的第一个单词大写

php、mysql、string、capitalize

我正在寻找大写的第一个单词，这是由MySQL和PHP，并保持其余的单词小写。如何做到这一点呢？它存储在数据库中，只有第一个字母大写，所以真正的诀窍是保持其余单词的小写。以下是从今天起从数据库中提取单词的代码： <?php $query0 = "SELECT LCASE(ord) FROM `keywords` ORDER BY RAND()"; $result0 = mysql_query($query0); while($row0 = mysql_fetch_array($result0, MYSQL_ASSOC)) { $keyword = $row0[&#

浏览 2提问于2012-03-21得票数 1

回答已采纳

2回答

提取带有可选数字和下划线字符的大写单词

regex、perl

我是一个Perl新手，需要一些Perl正则表达式的帮助。我希望从只能包含大写字符和/或数字数字和下划线字符(在单词的开头、结尾或中间)的文件中提取单词。单词的分隔符可以是空白或任何其他非大写、非数字、非下划线。 3例： abcd _PARAM123="dfd"; (I want to extract _PARAM123) abcd PARAM2_:12; (I want to extract PARAM2_) abcd PARA_M-1; (I want to extract PARA_M)

浏览 3提问于2013-10-05得票数 0

1回答

从“河马”中抓取单词和短语

python、web-scraping、beautifulsoup

我有一些代码，可以根据单词10的长度从单词hippo中提取单词列表。在本例中，我试图获取所有“概述”的同义词(长度为10)，但发现任何包含空格的同义词都不会通过，例如，即使我指定的字母长度为10，“脑波”也不会通过。我的这段代码列出了不包含空格的单词。我如何修改它以获得“脑波”这类有空格的同义词？ “”“ import requests from bs4 import BeautifulSoup import pandas as pd page = requests.get("https://www.wordhippo.com/what-is/another-word-for/ove

浏览 4提问于2022-02-21得票数 -1

1回答

Pandas dataframe中的标记文本

python、python-3.x、pandas

我有一个Pandas DataFrame，它的脚本是从外部来源收集的。列text_content包含脚本内容。最长的脚本由85.617个字符组成。给你一个想法的样本：这些脚本包含表名和其他有用的信息。目前，数据被写入到SQLite数据库表中，然后可以使用ad SQL语句搜索该表(并分发给更多的用户)。一个常见的用例是，我们将有一个表名列表，并且希望知道它们出现在其中的脚本。如果我们需要在SQL中这样做，它将要求我们使用LIKE操作符执行通配符搜索，这在性能上是很糟糕的。因此，我希望在脚本仍在DataFrame中时从它中提取单词，从而生成一个两列表，每一行由以下内容组成：

浏览 1提问于2016-01-22得票数 0

回答已采纳

2回答

grep命令始终包含具有匹配输出的html标记。

regex、bash、grep

这是一个奇怪的问题..。我在html标记之间有一个单词列表，每个标签由一行分隔，左边有一些空格，如下所示： <td>word</td> <td>anotherWord</td> ... 我想从列表中提取单词，而不是从标签中提取单词，所以我使用： temp=$(printf "%s" "$temp" | egrep '[....]') 为了澄清，"temp“是要搜索的输入。(我在bash脚本中这样做，并将输入存储在变量temp中)。“.”是一个字符列表，因为我试图提取

浏览 6提问于2015-04-11得票数 0

回答已采纳

2回答

如何将专门找到的(OCR)文本添加到列表中并将其写入excel文件？[pytesseract]

python、machine-learning、ocr

我想通过pytesseract从许多PNG/JPEG文件中提取某些信息，如果可能的话，将它们写入excel文件。我已经知道了如何从图片中提取文本，但我还没有弄清楚的是： 1)如何提取特定信息而不是整个单词？例如，我想要每张照片的账号和参考号码，其他什么都不要。 2)如何将这些账号和参考号写入excel等外部文件？我将把我目前掌握的内容附加到下面：我听说使用pandas dataframe是将数据追加到Excel列中的好方法，但我不确定对于这样的任务是否可以做到这一点。 from PIL import Image import pytesseract import pandas as p

浏览 47提问于2019-02-11得票数 0

4回答

正则表达式除以大写字母

python、regex、string、split、uppercase

我想用正则表达式替换像'HDMWhoSomeThing' to 'HDM Who Some Thing'这样的字符串。因此，我想提取以大写字母开头或仅由大写字母组成的单词。请注意，在字符串'HDMWho'中，最后一个大写字母实际上是单词Who的第一个字母，并且不应该包含在单词HDM中。要实现此目标，正确的正则表达式是什么？我已经尝试了许多类似于[A-Z][a-z]+的正则表达式，但都没有成功。[A-Z][a-z]+为我提供了'Who Some Thing' --当然没有'HDM'。有什么想法吗？谢谢，鲁基

浏览 0提问于2010-02-16得票数 4

回答已采纳

5回答