import java.util.regex.Matcher; import java.util.regex.Pattern; public class regexp_01 { public static void main(String[] args) { String s = "由于在开发Oak语言时,尚且不存在运行字节码的硬件平台,所以为了在开发时可以对这种语言进行实验研究,他们就在已有的" + "硬件和软件平台基础上,按照自己所指定的规范,用软件建设了一个运行平台,整个系统除了比C++更加简单之外,没有什么大的区" + "别。1992年的夏天,当Oak语言开发成功后,研究者们向硬件生产商进行演示了Green *** 作系统、Oak的程序设计语言、类库和其" + "硬件,以说服他们使用Oak语言生产硬件芯片,但是,硬件生产商并未对此产生极大的热情。因为他们认为,在所有人对Oak语言" + "还一无所知的情况下,就生产硬件产品的风险实在太大了,所以Oak语言也就因为缺乏硬件的支持而无法进入市场,从而被搁置了下" + "来。n" + "1994年6、7月间,在经历了一场历时三天的讨论之后,团队决定再一次改变了努力的目标,这次他们决定将该技术应用于" + "万维网。他们认为随着Mosaic浏览器的到来,因特网正在向同样的高度互动的远景演变,而这一远景正是他们在有线电视网中看" + "到的。作为原型,帕特里克·诺顿写了一个小型万维网浏览器WebRunner。"; //1.\d表示一个任意的数字 String regStr = "(\d\d)(\d\d)"; //2.创建模式对象[即正则表达式对象] Pattern pattern = Pattern.compile(regStr); //3.创建匹配器 //说明:创建匹配器matcher,按照正则表达式的规则 Matcher matcher = pattern.matcher(s); //4.开始匹配 //matcher.find() 完成的任务 //1.根据指定的规则,定位满足规则的子字符串(1998) //2.找到后,将子字符串的开始索引记录到matcher对象的属性int[] groups的groups[0]中, // 把子字符串的结束的索引+1的值记录到groups[1] //3.同时记录oldLast的值为groups[1],即下次执行find时,从oldLast开始匹配 //什么是分组,比如(\d\d)(\d\d),正则表达式中有() 表示分组,第一个()表示第一组,第二个()表示第二组,以此类推 //例如找到(19)(98) //则记录第一组()匹配到的字符 groups[2]=0 (第一组中1所在的下标) groups[3]=1+1=2 (第一组中9所在的下标加1) //则记录第二组()匹配到的字符 groups[4]=2 (第二组中9所在的下标) groups[5]=3+1=4 (第二组中8所在的下标加1) //调用时,matcher.group(1)和matcher.group(2)返回第一组和第二组截取的字符串 //matcher.group(0)完成的任务 //根据groups[0]和groups[1]记录的位置,截取子字符串,即[groups[0],groups[1]) //如果正则表达式取出的组大于定义的组,则由于初始化groups为-1,会出现数组越界,建议查看源码 while(matcher.find()){ System.out.println("找到:"+matcher.group(0)); System.out.println("找到第一组内容:"+matcher.group(1)); System.out.println("找到第二组内容:"+matcher.group(2)); } } }一.底层原理
(1).matcher.find() 完成的任务
1.根据指定的规则,定位满足规则的子字符串
2.找到后,将子字符串的开始索引记录到matcher对象的属性int[] groups的groups[0]中,
把子字符串的结束的索引+1的值记录到groups[1]
3.同时记录oldLast的值为groups[1],即下次执行find时,从oldLast开始匹配
(2)matcher.group(0)完成的任务
根据groups[0]和groups[1]记录的位置,截取子字符串,即[groups[0],groups[1])
(3)什么是分组,比如(dd)(dd),正则表达式中有() 表示分组,第一个()表示第一组,第二个()表示第二组,以此类推
例如找到(19)(98)
则记录第一组()匹配到的字符 groups[2]=0 (第一组中1所在的下标) groups[3]=1+1=2 (第一组中9所在的下标加1)
则记录第二组()匹配到的字符 groups[4]=2 (第二组中9所在的下标) groups[5]=3+1=4 (第二组中8所在的下标加1)
调用时,matcher.group(1)和matcher.group(2)返回第一组和第二组截取的字符串
即:matcher.group(0)表示匹配到的字符串,matcher.group(1)表示匹配到的第一组子字符串,matcher.group(2)表示匹配到的第二组子字符串…依此类推
二.正则表达式语法(1)转义号\
在检索特殊字符( .*+()$/?[]^{} )时,需要用到\,否则报错
在java中,两个\代表其他语言中一个
(2)字符匹配符
\w还可以匹配下划线
如何不指定大小写?
\s匹配任何空白字符
\S匹配任何非空白字符
(3)选择匹配符
(4)限定符
Java匹配是贪婪匹配,即尽可能匹配多的
非贪婪匹配,在限定符后面加一个 ?
(5)定位符
\b边界可能是字符串最后,也可以是空格的字符串子串的后面
(6)分组
演示代码:
import java.util.regex.Matcher; import java.util.regex.Pattern; public class regexp_04 { public static void main(String[] args) { //非命名捕获 // String content = "zhrzhr s7789 nn1189n"; // String regStr = "(\d\d)(\d\d)"; // // Pattern pattern = Pattern.compile(regStr); // Matcher matcher = pattern.matcher(content); // // while(matcher.find()){ // System.out.println(matcher.group(0)); // System.out.println("第一个分组为:"+matcher.group(1)); // System.out.println("第二个分组为:"+matcher.group(2)); // } //命名捕获 String content = "zhrzhr s7789 nn1189n"; String regStr = "(?\d\d)(? \d\d)"; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while(matcher.find()){ System.out.println(matcher.group(0)); //可以用非命名捕获的内容,也可以通过名字来获取 System.out.println("第一个分组为:"+matcher.group("g1")); System.out.println("第二个分组为:"+matcher.group("g2")); } } }
非捕获分组
举例:
import java.util.regex.Matcher; import java.util.regex.Pattern; public class regexp_05 { public static void main(String[] args) { //找吃火锅 吃麻辣烫 吃烧烤中的子串 (?:... ) String content = "吃火锅 吃麻辣烫 吃烧烤"; String regStr = "吃(?:火锅|麻辣烫|烧烤)"; // Pattern pattern = Pattern.compile(regStr); // Matcher matcher = pattern.matcher(content); // // while(matcher.find()){ // System.out.println(matcher.group(0)); // } //找吃火锅 吃麻辣烫中的吃 (?= ...) // regStr = "吃(?=火锅|麻辣烫)"; // Pattern pattern = Pattern.compile(regStr); // Matcher matcher = pattern.matcher(content); // // while(matcher.find()){ // System.out.println(matcher.group(0)); // } //找吃这个关键字,但是找不是吃火锅中的吃 (?!... ) regStr = "吃(?!火锅)"; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while(matcher.find()){ System.out.println(matcher.group(0)); } } }三.正则表达式常用类
1.Pattern.matcher(regStr,content)是整体验证,常用方法,返回Boolean值
2.Pattern常用方法
注意:end()是最后元素的下标加1
3.Matcher常用方法
注意:replaceAll("…")返回的才是替换后的字符串,原字符串不变
举例
import java.util.regex.Matcher; import java.util.regex.Pattern; public class regexp_09 { public static void main(String[] args) { //判断是否是4位回文数字 // String content = "1221"; // String regStr = "(\d)(\d)"; // // Pattern pattern = Pattern.compile(regStr); // Matcher matcher = pattern.matcher(content); // // if(matcher.find()){ // System.out.println(matcher.group(0)); // } String content = "12321-333999111"; String regStr = "\d{5}-(\d)(\d)(\d)"; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); if(matcher.find()){ System.out.println(matcher.group(0)); } } }
将 我…我要…学学学习习Java 变为 我要学习Java
import java.util.regex.Pattern; public class exercise_03 { public static void main(String[] args) { String str = "我...我要...学学学习习Java"; //先去除. str = Pattern.compile("\.").matcher(str).replaceAll(""); //再去除重复的字 str = Pattern.compile("(.)+").matcher(str).replaceAll(""); System.out.println(str); } }
验证电子邮件是否合法
import java.util.regex.Matcher; import java.util.regex.Pattern; public class exercise_04 { public static void main(String[] args) { //验证电子邮件是否合法 String content = "1184524381@qq.org.com"; String regStr = "^\w+@([a-zA-Z]+\.)+[a-zA-Z]+$"; //这里使用String的match方法,整体匹配正则表达式 if(content.matches(regStr)){ System.out.println("匹配成功"); }else{ System.out.println("匹配失败"); } } }
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)