我正在使用TreeTagger ()从文本中提取名词。我的问题是输出的格式如下:
word pos lemma
The DT the
TreeTagger NP TreeTagger
is VBZ be
easy JJ easy
to TO to
use VB use
显然没有选择只获取名词("NP“和"NN")。使用bash,我如何获得第一列中在第二列中包含"NP“或"NN”的单元格?
我想知道是否有一种通用的方法来提取特定的字符串,根据设计,它是一个使用awk方法的11个字符字母数字字符串?对前-
cat ext.txt
This is a sample field where the code is MGTCBEBEECL for NR
This is a sample field where the code is MGTCBEBEE01 for NR
This field must be 030 when Rule_1 = 'FR' and Rule_2 is 'EUROFRANSBI' or 'EURO_NEAR'
我有一个字符串:
The disk 'virtual memory' also known as 'Virtual Memory' has exceeded the maximum utilization threshold of 95 Percent.
我每次都需要在这个字符串中搜索单词The disk,如果找到了,我只需要提取'*' also known as '*'中的短语,并将其放入变量MONITOR中
换句话说,我想要搜索并将值放入
MONITOR="'virtual memory' also k
我在Unix字段中非常新,我目前正在尝试从文本文件中提取数据集。我试过sed,grep,awk,但是它似乎只适用于提取行,但是我想提取一个完整的数据集.这里是一个文件示例,我想从其中提取两个数据集(在"R.Time强度“之后的数字)。
[Header]
Application Name LabSolutions
Version 5.87
Data File Name C:\LabSolutions\Data\Antoine\170921_AC_FluoSpectra\069_WT3a derivatized lignin LiCl 430_GPC_FOREVER_430_049
我有一个程序,它返回如下内容:
status: playing
artURL: http://beta.grooveshark.com/static/amazonart/m3510922.jpg
estimateDuration: 29400
calculatedDuration: 293000
albumName: This Is It
position: 7291.065759637188
artistName: Michael Jackson
trackNum: 13
vote: 0
albumID: 3510922
songName: Billie Jean
artistID: 39