所有 DNA 都由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。 编写一个函数来查找目标子串,目标子串的长度为 10,且在 DNA 字符串
s
中出现次数超过一次。
示例:
输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出:["AAAAACCCCC", "CCCCCAAAAA"]
解法相当简单: 1 开两个set集合 然后存储字符串 2 字符串每一个都截10是个长度 3 判断存储的里面是否已经含有 ,已经含有 放到输出的集合里面(判断好条件 s.length()-Max+1 ) 4 注意: set可以自动转换为List ,因为set不含重复的 ,list里面含有重复的 ,所以可以new ArrayList( set);
class Solution {
public List<String> findRepeatedDnaSequences(String s) {
int Max=10;
HashSet<String> set=new HashSet<String>();
HashSet<String> out=new HashSet<String>();
String str=null;
for(int i=0;i<s.length()-Max+1;i++){
str=s.substring(i,i+Max);
if(set.contains(str)){
out.add(str);
}else{
set.add(str);
}
}
return new ArrayList<String>(out);
}