java 正则表达式_安全

代码在这
import javautilregexMatcher;
import javautilregexPattern;
/
@author Administrator

/
public class regularTest {
/
@param args
/
public static void main(String[] args) {
// TODO Auto-generated method stub
String s="aaa<bbbb>ssss<cccc>dddd<asdsa>sss";
Matcher m = Patterncompile("<(\\w+)>")matcher(s);
while(mfind()){
Systemoutprintln(mgroup(1));
}
}
}

正则表达式的主要用法就是判断某个字符串是否符合某个固定的格式，以下是电话号码的格式判断：
BufferedReader in;
Pattern pattern = Patterncompile("//(//d{3}//)//s//d{3}-//d{4}");
in = new BufferedReader(new FileReader("18046521658"));
String s;
while ((s = inreadLine()) != null)
{
Matcher matcher = patternmatcher(s);
if (matcherfind())
{
Systemoutprintln(matchergroup());
}
}
inclose();
备注：其中/d单字符类型用来匹配从0到9的任何数字，另外{3}重复符号，是个简便的记号，用来表示有3个连续的数字位，也等效于(/d/d/d)。/s也另外一个比较有用的单字符类型，用来匹配空格，比如Space键，tab键和换行符。

jdk14中加入了javautilregex包提供对正则表达式的支持。而且JavalangString类中的replaceAll和split函数也是调用的正则表达式来实现的。
　正则表达式对字符串的 *** 作主要包括：字符串匹配，指定字符串替换，指定字符串查找和字符串分割。下面就用一个例子来说明这些 *** 作是如何实现的：
< %@ page import="javautilregex"%>
< %
Pattern p=null; //正则表达式
Matcher m=null; // *** 作的字符串
boolean b;
String s=null;
StringBuffer sb=null;
int i=0;

常用的正则表达式大全：
（1） "^\d+$"//非负整数（正整数 + 0）
（2） "^[0-9][1-9][0-9]$"//正整数
（3） "^((-\d+)|(0+))$"//非正整数（负整数 + 0）
（4） "^-[0-9][1-9][0-9]$"//负整数
（5） "^-\d+$"//整数
（6） "^\d+(\\d+)$"//非负浮点数（正浮点数 + 0）
（7） "^(([0-9]+\[0-9][1-9][0-9])|([0-9][1-9][0-9]\[0-9]+)|([0-9][1-9][0-9]))$"//正浮点数
（8） "^((-\d+(\\d+))|(0+(\0+)))$"//非正浮点数（负浮点数 + 0）
（9） "^(-(([0-9]+\[0-9][1-9][0-9])|([0-9][1-9][0-9]\[0-9]+)|([0-9][1-9][0-9])))$"//负浮点数
（10） "^(-\d+)(\\d+)$"//浮点数
（11） "^[A-Za-z]+$"//由26个英文字母组成的字符串
（12） "^[A-Z]+$"//由26个英文字母的大写组成的字符串
（13） "^[a-z]+$"//由26个英文字母的小写组成的字符串
（14） "^[A-Za-z0-9]+$"//由数字和26个英文字母组成的字符串
（15） "^\w+$"//由数字、26个英文字母或者下划线组成的字符串
（16） "^[\w-]+(\[\w-]+)@[\w-]+(\[\w-]+)+$"//email地址
（17） "^[a-zA-z]+://(\w+(-\w+))(\(\w+(-\w+)))(\\S)$"//url
（18） /^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/ // 年-月-日
（19） /^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/ // 月/日/年
（20） "^([w-]+)@(([[0-9]{1,3}[0-9]{1,3}[0-9]{1,3})|(([w-]+)+))([a-zA-Z]{2,4}|[0-9]{1,3})(])$" //Emil
（21） /^((\+[0-9]{2,4}\-[0-9]{3,4}\-)|([0-9]{3,4}\-))([0-9]{7,8})(\-[0-9]+)$/ //电话号码
（22） "^(d{1,2}|1dd|2[0-4]d|25[0-5])(d{1,2}|1dd|2[0-4]d|25[0-5])(d{1,2}|1dd|2[0-4]d|25[0-5])(d{1,2}|1dd|2[0-4]d|25[0-5])$" //IP地址
（23）
（24）匹配中文字符的正则表达式： [\u4e00-\u9fa5]
（25）匹配双字节字符(包括汉字在内)：[^\x00-\xff]
（26）匹配空行的正则表达式：\n[\s| ]\r
（27）匹配HTML标记的正则表达式：/<()><\/\1>|<() \/>/
（28）匹配首尾空格的正则表达式：(^\s)|(\s$)
（29）匹配Email地址的正则表达式：\w+([-+]\w+)@\w+([-]\w+)\\w+([-]\w+)
（30）匹配网址URL的正则表达式：^[a-zA-z]+://(\\w+(-\\w+))(\\(\\w+(-\\w+)))(\\\\S)$
（31）匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
（32）匹配国内电话号码：(\d{3}-|\d{4}-)(\d{8}|\d{7})
（33）匹配腾讯QQ号：^[1-9][1-9][0-9]$
（34）元字符及其在正则表达式上下文中的行为：
（35） \ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。
（36） ^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的Multiline 属性，^ 也匹配 ’\n’ 或 ’\r’ 之后的位置。
（37） $ 匹配输入字符串的结束位置。如果设置了 RegExp 对象的Multiline 属性，$ 也匹配 ’\n’ 或 ’\r’ 之前的位置。
（38）匹配前面的子表达式零次或多次。
（39） + 匹配前面的子表达式一次或多次。+ 等价于 {1,}。
（40）匹配前面的子表达式零次或一次。等价于 {0,1}。
（41） {n} n 是一个非负整数，匹配确定的n 次。
（42） {n,} n 是一个非负整数，至少匹配n 次。
（43） {n,m} m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。在逗号和两个数之间不能有空格。
（44）当该字符紧跟在任何一个其他限制符 (, +, , {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。
（45）匹配除 "\n" 之外的任何单个字符。要匹配包括 ’\n’ 在内的任何字符，请使用象 ’[\n]’ 的模式。
（46） (pattern) 匹配pattern 并获取这一匹配。
（47） (:pattern) 匹配pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。
（48） (=pattern) 正向预查，在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。
（49） (!pattern) 负向预查，与(=pattern)作用相反
（50） x|y 匹配 x 或 y。
（51） [xyz] 字符集合。
（52） [^xyz] 负值字符集合。
（53） [a-z] 字符范围，匹配指定范围内的任意字符。
（54） [^a-z] 负值字符范围，匹配任何不在指定范围内的任意字符。
（55） \b 匹配一个单词边界，也就是指单词和空格间的位置。
（56） \B 匹配非单词边界。
（57） \cx 匹配由x指明的控制字符。
（58） \d 匹配一个数字字符。等价于 [0-9]。
（59） \D 匹配一个非数字字符。等价于 [^0-9]。
（60） \f 匹配一个换页符。等价于 \x0c 和 \cL。
（61） \n 匹配一个换行符。等价于 \ 和 \cJ。
（62） \r 匹配一个回车符。等价于 \x0d 和 \cM。
（63） \s 匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
（64） \S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
（65） \t 匹配一个制表符。等价于 \x09 和 \cI。
（66） \v 匹配一个垂直制表符。等价于 \x0b 和 \cK。
（67） \w 匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]’。
（68） \W 匹配任何非单词字符。等价于 ’[^A-Za-z0-9_]’。
（69） \xn 匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。
（70） \num 匹配 num，其中num是一个正整数。对所获取的匹配的引用。
（71） \n 标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为后向引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。
（72） \nm 标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有is preceded by at least nm 个获取得子表达式，则 nm 为后向引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。
（73） \nml 如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。
（74） \un 匹配 n，其中 n 是一个用四个十六进制数字表示的Unicode字符。
（75）匹配中文字符的正则表达式： [u4e00-u9fa5]
（76）匹配双字节字符(包括汉字在内)：[^x00-xff]
（77）匹配空行的正则表达式：n[s| ]r
（78）匹配HTML标记的正则表达式：/<()></1>|<() />/
（79）匹配首尾空格的正则表达式：(^s)|(s$)
（80）匹配Email地址的正则表达式：w+([-+]w+)@w+([-]w+)w+([-]w+)
（81）匹配网址URL的正则表达式：>

正则表达式：[\\u4e00-\\u9fa5]|\\w|\\d|_

代码如下：

@Test
public void test1(){
//匹配正则表达式表达式
String str = "[\\u4e00-\\u9fa5]|\\w|\\d|_";
Pattern pattern = Patterncompile(str);
//要匹配的字符串
String mStr = "还有多远_344fjdk";
Systemoutprintln("测试的字符串:"+mStr);
Matcher m = patternmatcher(mStr);
//如果匹配到了
if(mfind()){
Systemoutprintln("匹配内容："+mgroup());
}
}

程序运行结果：

扩展资料

匹配包括下划线的任何单词字符。类似但不等价于“[A-Za-z0-9_]”，"单词"字符使用Unicode字符集，中文的为：[\\u4e00-\\u9fa5]，表示英文字母的为\w,表示数字的为\d,表示_的为_，而号表示的则是0个或多个，|表示的则是或，所以把每个要匹配的用|拼接可以表示要匹配的正则表达式。

参考资料：

oracle官网-Java SE API 和文档

在程序开发中，难免会遇到需要匹配、查找、替换、判断字符串的情况发生，而这些情况有时又比较复杂，如果用纯编码方式解决，往往会浪费程序员的时间及精力。因此，学习及使用正则表达式，便成了解决这一矛盾的主要手段。

正则表达式是一种可以用于模式匹配和替换的规范，一个正则表达式就是由普通的字符（例如字符a到z）以及特殊字符（元字符）组成的文字模式，它用以描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

扩展资料：

正则表达式的特点是：

1、灵活性、逻辑性和功能性非常强；

2、可以迅速地用极简单的方式达到字符串的复杂控制。

3、对于刚接触的人来说，比较晦涩难懂。

由于正则表达式主要应用对象是文本，因此它在各种文本编辑器场合都有应用，小到著名编辑器EditPlus，大到Microsoft Word、Visual Studio等大型编辑器，都可以使用正则表达式来处理文本内容。

参考资料来源：百度百科-正则表达式

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/10452809.html

java 正则表达式

发表评论

评论列表（0条）