是否有将文本改为小写的R函数,但对于每个单词的第一个字母,即“更改”?
"You live NEAR Chicago"
至
"You live Near Chicago"
如果可能的话,关键是要从相当有效的实现中获益。
这是否可以集成到 R包(或者已经可以使用),从而可以直接应用于一个语料库?
(目标是在文本中建立一个简单的位置检测器,并与地理名称交叉)。
我正在做代码转换的研究。我收集了一些带有英语代码开关的双语波兰语文本消息(例如,语料库A)以及一本英语词典(也是一个列表,语料库B)。我想从语料库A中提取语料库B中的所有单词实例-这样我就可以看到哪些英语单词出现在双语语料库中。这是我用来创建这些常用单词列表的代码(它远不优雅,但我是一个新手,所以不要对我太苛刻了,哈哈): intersection=common.intersection(corpusB)
commonlist=list(intersection)
with open("commonlist.txt","w") as z:
pri
假设我有一组文档,如:
text = c("is it possible to highlight text for some words" ,
"suppose i want words like words to be red and words like text to be blue")
我想知道是否可以用R为预先定义的单词列表突出显示文档(特别是大型语料库)的颜色。列表中的每个单词都会得到特定的颜色。例如,高亮显示“单词”为红色,“文本”为蓝色,如下所示。
所以,我有一个文档语料库,我需要在R中的所有文档中找到所有都是大写的单词(即,单词中的每个字符都是大写的)。我不确定如何找到它。我看过R中的文本挖掘'tm‘包,没有这样的函数可以找到它。
输入字符串:"Russia Is THE BiggEST cOUNTRY"
所需输出:"THE"
如何使用"tm“包做到这一点?
我有两个文本文件,我想在第一个文件中的第二个字段的基础上,以某种方式合并,但可以替代。下面是第一个文件的格式。这是从语料库中计算出来的单词。
file_1.txt
1000 the
999 been
950 phone
850 ball
800 watch
799 porch
文件2是在第一个文件中可以找到的一些单词,但是从第二个字段开始对该单词进行细分。
file_2.txt
the th e
been be en
shirt sh ir t
phone pho ne
desk d esk
chair cha i r
watch wa t c h
floor f loo r
我想得到的是下面
我将单词转换为词根,并建立了一个包含10万个文本的语料库,但每个文本的格式都不适合删除停用的单词 我尝试了.join函数,但它为每个字母添加了'‘和'’ corr=[]
pattern = r'\w*'
for a in range (0,113340):
rew = re.sub(pattern, lambda m: str(my_dictionary.get(m.group(0),
m.group(0))), te.CUST_TXT[a])
corr.append(rew) 上面我将单词转换为root,结果如下: prin