n-gram串频统计(统计字符串字串出现次数最多的)(计蒜客)

n-gram串频统计(统计字符串字串出现次数最多的)(计蒜客),第1张

n-gram串频统计(统计字符串字串出现次数最多的)(计蒜客) 1.题目原文

在文本分析中常用到n-gram 串频统计方法,即,统计相邻的 n 个单元(如单词、汉字、或者字符)在整个文本中出现的频率。假设有一个字符串,请以字符为单位,按n-gram 方法统计每个长度为 n 的子串出现的频度,并输出最高频度以及频度最高的子串。所给的字符串只包含大小写字母,长度不多于 500 个字符,且 1

如果有多个子串频度最高,则根据其在序列中第一次出现的次序依次输出,每行输出一个,如果最高频度不大于 1,则输出 "NO"。

输入格式

第一行为 n;

第二行为字符串。

输出格式

输出最高频度以及频度最高的所有子串。若最高频度不大于 1,只输出一行"NO"。

提示

样例中,所有的 3-gram 是:abc,bcd,cde,def,efa,fab,abc,bcd。最后面的cd不足以形成3-gram,则不考虑。这样,abc和bcd都出现了 2 次,其余的只出现了 1 次。

输出时每行末尾的多余空格,不影响答案正确性

样例输入

3
abcdefabcd

样例输出

2
abc
bcd
2.题目分析以及所用方法 2.1题目分析       

        我用的是字符串组数和整型数组来实现的,字符串数组用来记录每个字串,而整型数组用来记录每个子串出现的频率,遍历整型数组找出最大值,其下标对应的字符串数组即是出现最多的,如果有多个就使用字符串相加,最后遍历字符串数组输出,输出时需要判断如果max==1(即所有的字符频率都为1)则输出NO否则正常输出最大值max,以及频率最高的字符串子串。在代码中都有注释。

2.2所用方法

str.split() 用于使用特定字符分离字符串,返回值是一个字符串数组

str.substring(begin,end)字符串拼接从begin开始,到end结束,当没有end时会从begin开始一直到结尾。

str.equals(str1) str与str1进行比较如果相同则返回true否则返回false。

增强for循环:解释如下:

Java中的增强for循环的实现原理与坑_qiang_zi_的专栏-CSDN博客_java增强for循环原理

3.题解代码(java)

import java.util.Scanner;
public class Main {
    public static void main(String[] args) {
        Scanner scanner=new Scanner(System.in);
        int n = scanner.nextInt();
        String s = scanner.next();
        String str = "";
        int max = 0, i=0;
        while (true) {
            if(i+n>s.length()) break;
            str += s.substring(i,i+n)+" ";//使用字符串拼接,将字符子串用空格隔开
            i++;
        }
        String result = "";
        String [] str1 = str.split(" ");//使用split方法将字符串分为若干个字符串并保存到字符数组中
        int [] sum = new int[str1.length];//整型数组用来保存频率出现次数。
        for (int j = 0; j < str1.length; j++) {
            for (int j2 = j; j2 < str1.length; j2++) {
                    if(str1[j].equals(str1[j2]))
                        sum[j]++; //如果相同频率加1
                }
            }
        for (int j = 0; j < sum.length; j++) {//找出最大频率
            if(sum[j]>max)
                max = sum[j];
        }
        for (int j = 0; j < sum.length; j++) {//找出最大频率下的字符子串
            if(sum[j]==max)
                result+=str1[j]+" ";
        }
        if (max==1) {
            System.out.println("NO");
        }
        else{
            System.out.println(max);
            String [] res = result.split(" "); //split分离
            for (String string : res) {        //增强for循环输出
                System.out.println(string);
            }
        }
    }
}

有用点个赞吧,有什么疑问可以下方评论,我看到了都会回答。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5696484.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存