未公开的Java正则表达式字符类: p {C}

未公开的Java正则表达式字符类: p {C},第1张

未公开的Java正则表达式字符类: p {C}

隐藏在Unipre支持下的Pattern文档中,我们发现以下内容:

此类符合Unipre技术标准#18的级别1
:Unipre正则表达式以及RL2.1规范等效项。

*可以使用可选的前缀Is来指定 *类别 : p {L}和 p
{IsL}都表示Unipre字母的类别。与脚本和块相同,也可以使用关键字general_category(或其简称gc)指定类别,如general_category
= Lu或gc = Lu。

支持的类别是Character类指定的版本中的Unipre标准类别。类别名称是标准中定义的名称,包括规范性的和信息性的。

从Unipre技术标准#18中,我们发现已将

C
其定义为与任何其他General_Category值匹配,并且对此值的支持是对1级一致性的要求的一部分。Java
p{C}
之所以实现,是因为它声称符合UTS#18的级别1。


它可能 应该 支持

p{Other}
,但显然不支持。

更糟糕的是,这违反了1级一致性所要求的RL1.7,这要求匹配是通过代码点而不是代码单元进行的:

为了满足此要求,实现应处理所有范围的Unipre代码点,包括从U + FFFF到U + 10FFFF的值。
特别是,在使用UTF-16的情况下,由前导代理与后继代理组成的序列应作为匹配中的单个代码点进行处理。

不应该有任何的比赛

p{C}
在您的测试字符串,因为您的测试字符串应与General_Category
=所以,(其它符号)一个表情符码点进行匹配,而不是作为两个代理人。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/4942722.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-11-13
下一篇 2022-11-13

发表评论

登录后才能评论

评论列表(0条)

保存