首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何挖掘特定数据

如何挖掘特定数据
EN

Stack Overflow用户
提问于 2014-11-24 16:48:59
回答 1查看 553关注 0票数 0

我有一个ID列表,上面有用分号分隔的冗长的描述。下面是一个ID及其描述的示例。

代码语言:javascript
运行
复制
  ID      Description 
O95831    activation of cysteine-type endopeptidase activity involved in apoptotic process; apoptotic DNA fragmentation; apoptotic process; cell redox homeostasis; chromosome condensation; DNA catabolic process; intrinsic apoptotic signaling pathway in response to endoplasmic reticulum stress; mitochondrial respiratory chain complex I assembly; NAD(P)H oxidase activity; neuron apoptotic process; neuron differentiation; oxidoreductase activity, acting on NAD(P)H; positive regulation of apoptotic process; regulation of apoptotic DNA fragmentation

问题:想出了一种文本挖掘方法,在描述中提到了“线粒体”或“线粒体”或“线粒体”。regex对解决这个问题有用吗?或者哪些其他的方法可能有用呢?

预期结果:“线粒体”一词描述的提取

代码语言:javascript
运行
复制
O95831    ;mitochondrial respiratory chain complex I assembly;

感谢你的帮助,

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-11-24 16:54:42

您可以使用正则表达式,例如

代码语言:javascript
运行
复制
(\d+).*(.\s(?:mitochondria|mitochondrial|mitochondrion)[^;]+;)

捕获组1和2将包含

代码语言:javascript
运行
复制
O95831    ;mitochondrial respiratory chain complex I assembly;

示例:http://regex101.com/r/mR8xA7/1

Python代码就像

代码语言:javascript
运行
复制
>>> re.findall(r"""(\d+).*(.\s(?:mitochondria|mitochondrial|mitochondrion)[^;]+;)""", str)
[('095831', '; mitochondrial respiratory chain complex I assembly;')]
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27109864

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档