Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >在C#/.NET中删除字符串数组中重复的短语

问在C#/.NET中删除字符串数组中重复的短语
EN

Stack Overflow用户

提问于 2013-12-06 23:18:11

回答 2查看 134关注 0票数 1

我正在使用Lucene来搜索和索引页面，不幸的是，它爬行页面并吸收了许多常见的文本，例如语言选择器“美国，巴西等”。显示并稀释我的搜索结果。

我想计算常见的单词和短语，如果很多文档包含“如何帮助”，我想从索引中删除它。这似乎是一个已经解决的NLP，有没有一种方法可以分析本质上是一个字符串数组，并删除不断出现的短语？

EN

回答 2

Stack Overflow用户

发布于 2013-12-07 00:18:01

创建您想要过滤掉的常用词的“HashSet”。然后，将数组复制到新数组中，一次复制一项，在复制之前检查散列集中的成员关系。哈希集是.NET框架中最快的可搜索结构。它只检查成员资格。

private HashSet<string> commonWords = new HashSet<string>() { 
    "How to help", "Click Here", "Home", "Facebook", "Like Me", "Buy Viagra"
};

List<string> newList = new List<string>();

foreach(string s in luceneArray)
    if(!commonWords.Contains(s))
        newList.Add(s);

至少这是一个起点。如果你的原始列表很大，可以使用字典或二叉树。

票数 1

EN

Stack Overflow用户

发布于 2013-12-06 23:44:03

不确定我是否真的理解正确，可能比我想象的更复杂。但如果它是包含您的项的字符串列表，则可以使用

MyList.Distinct();

要做到这一点。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/20435312

复制

相关文章

深度优先遍历和广度优先遍历如何实现

编程算法其他

概念图的遍历是指从图的某个节点出发，按既定的方式访问图中各个可访问的节点，使每个可访问的节点恰巧被访问一次方式深度优先（DFS---Depth First Search）和广度优先(BFS---Breadth First Search)

刘嘿哈

2022/10/25

5920

各种树的区别

二叉树编程算法

二叉查找树就是左结点小于根节点，右结点大于根节点的一种排序树，也叫二叉搜索树。也叫BST，英文Binary Sort Tree。

earthchen

2020/09/24

1K0

【说站】js广度优先遍历如何实现

2、新建队列，根节点入队，出队并访问队头，重复队头未访问的相邻节点2、3步，直至队列为空。

很酷的站长

2022/11/24

1.2K0

【说站】js广度优先遍历如何实现

基本算法|图解各种树（二）

编程算法二叉树

01 — 二叉搜索树基本算法|图解各种树（一）二叉搜索树，又称为二叉排序树，简写为 BST，它与线性表，链表，二叉树间的关系，二维链表近似是二叉树，BST继承了二叉树，同时个性化的东西是实现了有序

double

2018/04/02

6900

种树差分约束｜贪心

sum 遍历排序统计

每次种的树在重叠区间越多，种的树越少。只有结束位置才会重合，就对区间结束的位置从小到大排序。

用户2965768

2019/04/18

3350

各种树的简单总结

二叉树 node.js

其中B树部分参考的是这篇文章：从B树、B+树、B*树谈到R 树里面讲得特别详细！

梦飞

2022/06/23

2740

如何结合IbatisNet的LIST遍历实现模糊查询

java spring asp.net sql

我仿照Java的Spring+Ibatis+Struct用Castle+IBatisNet+Asp.net的开发框架的DAO的基类：BaseSqlMapDao内定义了一个内部类来辅助模糊查询。内部类代码如下： protected internal class KeyWordSearch { private IList keywordList = new ArrayList(); public KeyWordSearch(String keywords) { StringT

张善友

2018/01/19

8960

如何遍历DOM

node.js html https 编程算法网络安全

最近开源了一个 Vue 组件，还不够完善，欢迎大家来一起完善它，也希望大家能给个 star 支持一下，谢谢各位了。

前端小智@大迁世界

2021/01/14

9K0

基本算法|图解各种树（三）

编程算法二叉树

01 AVL树二叉树，可以退化到单链，也可以满二叉树，用到二叉树时编码的方便，常常虚拟出一种真二叉树，还说到了一种特列（二叉树）来描述多叉树的方法。基本算法|图解各种树（一）二叉树是二维的链表，当二叉树实现了sorted vector的接口后，它变为了有序二叉树，或二叉搜索树，BST，它的任一节点不小于/不大于其左/右后代。基本算法|图解各种树（二） BST也会退化为单链，也就是会失去平衡性，为了解决这个问题，提出了一种保证平衡的策略：某个节点的左右子树的高度差不大于1，这是一种适度平衡的策略，

double

2018/04/02

7350

基本算法|图解各种树（四）

基本算法|图解各种树（一）基本算法|图解各种树（二）基本算法|图解各种树（三） 01 局部性刚被访问过的数据，极有可能很快地再次被访问，这一现象在信息处理过程中屡见不鲜。例如，推荐系统to

double

2018/04/02

6400

基本算法|图解各种树（一）

01 — 二叉树节点的度数不超过2的树，称为二叉树，如下图所示： 02 — 单链和满二叉树含n个节点，高度为h的二叉树中，满足如下关系： h < n < 2^(h+1) 当 n = h+1 时

double

2018/04/02

1K0

树的遍历--树的广度遍历（层次遍历），深度遍历（前序遍历，中序遍历，后序遍历的递归和非递归实现）

由于本人的码云太多太乱了，于是决定一个一个的整合到一个springboot项目里面。

ydymz

2018/12/24

4.7K0

遍历map的几种方法?_hashmap如何遍历

编程算法 https 网络安全 java

其实主要就两种方法，第一种是通过keySet（）方法，获得key，然后再通过map.get(key)方法，把参数key放入即可得到值；第二种是先转为为Set类型，用entrySet()方法，其中set中的每一个元素值就是map的一个键值对，也就是Map.Entry<K,V>,然后就可以遍历了。如果只需要得到map的值，那直接调用map.getValue()方法就可以了。

全栈程序员站长

2022/11/08

1.2K0

遍历map的几种方法?_hashmap如何遍历

MySQL实现树的遍历

云数据库 SQL Server 数据处理

用户1148526

2018/01/03

1.7K0

js 实现层序遍历

https 网络安全编程算法

层序遍历使用的时广度优先遍历，使用队列存取，先进先出，与广度优先遍历不同的是，广度优先遍历返回一个一维数组，不分层级，层序遍历分层级，返回多维数组，在每次遍历的过程中，把整层节点都处理完之后，再处理下一层

蓓蕾心晴

2022/09/24

3.1K0

TypeScript实现图的遍历

有一个图，我们想访问它的所有顶点，就称为图的遍历。遍历图有两种方法：广度优先搜索和深度优先搜索。图遍历可以用来寻找特定的顶点或寻找两个顶点之间的路径，检查图是否连通。本文将详解图的两种遍历并用TypeScript将其实现，欢迎各位感兴趣的开发者阅读本文。

神奇的程序员

2022/04/10

4590

TypeScript实现图的遍历

图的存储及遍历深度遍历和广度遍历 C++代码实现

https java 网络安全编程算法

写这个程序给我的感觉就是乱，思路不是很清晰，遍历的逻辑关系还掌握的不是很熟，只是大概知道是这么回事，但是让自己去写的话，可能就写不出来了！还是要加大对遍历的熟悉程度才行啊！

全栈程序员站长

2022/07/15

3970

我通过“种树”，拿下鹅厂实习offer

腾讯极客挑战赛安全

最近，随着春季校园招聘和实习生招聘的启动，一大批朝气蓬勃的新鹅即将加入鹅厂。在大浪淘沙的招聘中，同学们八仙过海各显神通。其中，有的同学则另辟蹊径，凭借“种树”完成了招聘季的极速通关，成功拿到鹅厂的实习生offer。 “万万没想到，种树种到最后竟能收获来鹅厂实习这个超级Buff。” SJoshua所说的“种树”，是指腾讯极客挑战赛第三期的赛题——“码上种树”。比赛中，选手需要做的就是在有限时间内用代码比拼种树，以种树数量一决高下。最终，在校大三学生SJoshua在四天内“种”下两百多万棵树，一举夺得赛事亚

腾讯技术工程官方号

2021/03/30

4730

如何遍历redis集合顶

云数据库 Redis®

当redis集合有大量的键值对的时候，如果使用smembers来获取就如同keys *在redis有大量键的时候一样，会产生性能问题，发生阻塞。所以建议使用sscan来遍历集合，具体jedis代码如下

算法之名

2019/08/20

1.5K0

Python中如何遍历字典

今天在写一个判断列表中的元素是否与字典中的key值相等的时候，需要用到字典的遍历，经过查阅资料，知道怎么遍历字典的key值；

bear_fish

2018/09/20

1.6K0

相似问题

如何决定应该使用哪种树遍历？

12

为什么只有四种树遍历算法？

25

果树杂种树的构建

14

子-父集合(某种树)

11

这应该如何实现呢？委派

14

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例