在文本分析中常用到n-gram 串频统计方法,即,统计相邻的 n 个单元(如单词、汉字、或者字符)在整个文本中出现的频率。假设有一个字符串,请以字符为单位,按n-gram 方法统计每个长度为 n 的子串出现的频度,并输出最高频度以及频度最高的子串。所给的字符串只包含大小写字母,长度不多于 500 个字符,且 1 如果有多个子串频度最高,则根据其在序列中第一次出现的次序依次输出,每行输出一个,如果最高频度不大于 1,则输出 "NO"。 输入格式 第一行为 n; 第二行为字符串。 输出格式 输出最高频度以及频度最高的所有子串。若最高频度不大于 1,只输出一行"NO"。 样例中,所有的 3-gram 是:abc,bcd,cde,def,efa,fab,abc,bcd。最后面的cd不足以形成3-gram,则不考虑。这样,abc和bcd都出现了 2 次,其余的只出现了 1 次。 输出时每行末尾的多余空格,不影响答案正确性 样例输入 样例输出 我用的是字符串组数和整型数组来实现的,字符串数组用来记录每个字串,而整型数组用来记录每个子串出现的频率,遍历整型数组找出最大值,其下标对应的字符串数组即是出现最多的,如果有多个就使用字符串相加,最后遍历字符串数组输出,输出时需要判断如果max==1(即所有的字符频率都为1)则输出NO否则正常输出最大值max,以及频率最高的字符串子串。在代码中都有注释。 str.split() 用于使用特定字符分离字符串,返回值是一个字符串数组 str.substring(begin,end)字符串拼接从begin开始,到end结束,当没有end时会从begin开始一直到结尾。 str.equals(str1) str与str1进行比较如果相同则返回true否则返回false。 增强for循环:解释如下: Java中的增强for循环的实现原理与坑_qiang_zi_的专栏-CSDN博客_java增强for循环原理 import java.util.Scanner; 有用点个赞吧,有什么疑问可以下方评论,我看到了都会回答。 欢迎分享,转载请注明来源:内存溢出3
abcdefabcd
2
abc
bcd
2.题目分析以及所用方法
2.1题目分析
public class Main {
public static void main(String[] args) {
Scanner scanner=new Scanner(System.in);
int n = scanner.nextInt();
String s = scanner.next();
String str = "";
int max = 0, i=0;
while (true) {
if(i+n>s.length()) break;
str += s.substring(i,i+n)+" ";//使用字符串拼接,将字符子串用空格隔开
i++;
}
String result = "";
String [] str1 = str.split(" ");//使用split方法将字符串分为若干个字符串并保存到字符数组中
int [] sum = new int[str1.length];//整型数组用来保存频率出现次数。
for (int j = 0; j < str1.length; j++) {
for (int j2 = j; j2 < str1.length; j2++) {
if(str1[j].equals(str1[j2]))
sum[j]++; //如果相同频率加1
}
}
for (int j = 0; j < sum.length; j++) {//找出最大频率
if(sum[j]>max)
max = sum[j];
}
for (int j = 0; j < sum.length; j++) {//找出最大频率下的字符子串
if(sum[j]==max)
result+=str1[j]+" ";
}
if (max==1) {
System.out.println("NO");
}
else{
System.out.println(max);
String [] res = result.split(" "); //split分离
for (String string : res) { //增强for循环输出
System.out.println(string);
}
}
}
}
n-gram串频统计(统计字符串字串出现次数最多的)(计蒜客)
1.题目原文
赞
(0)
打赏
微信扫一扫
支付宝扫一扫
Java中关于交换两数值的问题
上一篇
2022-12-17
粒计算领域的知名学者、知名期刊等(持续更新中)
下一篇
2022-12-17
评论列表(0条)