怎么在php程序中调用汉字转拼音这个方法

怎么在php程序中调用汉字转拼音这个方法,第1张


$source = "中国";
$aim = new CUtf8_PY();
echo $aim -> encode( $source , 'head');
echo "\r\n";
echo $aim -> encode( $source , 'all');
/
  PHP 汉字转拼音
  @author Jerryli(hzjerry@gmailcom)
  @version V020140715
  @package SPFWcorelibfinal
  @global SEA_PHP_FW_VAR_ENV
  @example
  echo CUtf8_PY::encode('阿里巴巴科技有限公司'); //编码为拼音首字母
  echo CUtf8_PY::encode('阿里巴巴科技有限公司', 'all'); //编码为全拼音
 /
class CUtf8_PY {
/
  拼音字符转换图
  @var array
 /
private static $_aMaps = array(
'a'=>-20319,'ai'=>-20317,'an'=>-20304,'ang'=>-20295,'ao'=>-20292,
'ba'=>-20283,'bai'=>-20265,'ban'=>-20257,'bang'=>-20242,'bao'=>-20230,'bei'=>-20051,'ben'=>-20036,'beng'=>-20032,'bi'=>-20026,'bian'=>-20002,'biao'=>-19990,'bie'=>-19986,'bin'=>-19982,'bing'=>-19976,'bo'=>-19805,'bu'=>-19784,
'ca'=>-19775,'cai'=>-19774,'can'=>-19763,'cang'=>-19756,'cao'=>-19751,'ce'=>-19746,'ceng'=>-19741,'cha'=>-19739,'chai'=>-19728,'chan'=>-19725,'chang'=>-19715,'chao'=>-19540,'che'=>-19531,'chen'=>-19525,'cheng'=>-19515,'chi'=>-19500,'chong'=>-19484,'chou'=>-19479,'chu'=>-19467,'chuai'=>-19289,'chuan'=>-19288,'chuang'=>-19281,'chui'=>-19275,'chun'=>-19270,'chuo'=>-19263,'ci'=>-19261,'cong'=>-19249,'cou'=>-19243,'cu'=>-19242,'cuan'=>-19238,'cui'=>-19235,'cun'=>-19227,'cuo'=>-19224,
'da'=>-19218,'dai'=>-19212,'dan'=>-19038,'dang'=>-19023,'dao'=>-19018,'de'=>-19006,'deng'=>-19003,'di'=>-18996,'dian'=>-18977,'diao'=>-18961,'die'=>-18952,'ding'=>-18783,'diu'=>-18774,'dong'=>-18773,'dou'=>-18763,'du'=>-18756,'duan'=>-18741,'dui'=>-18735,'dun'=>-18731,'duo'=>-18722,
'e'=>-18710,'en'=>-18697,'er'=>-18696,
'fa'=>-18526,'fan'=>-18518,'fang'=>-18501,'fei'=>-18490,'fen'=>-18478,'feng'=>-18463,'fo'=>-18448,'fou'=>-18447,'fu'=>-18446,
'ga'=>-18239,'gai'=>-18237,'gan'=>-18231,'gang'=>-18220,'gao'=>-18211,'ge'=>-18201,'gei'=>-18184,'gen'=>-18183,'geng'=>-18181,'gong'=>-18012,'gou'=>-17997,'gu'=>-17988,'gua'=>-17970,'guai'=>-17964,'guan'=>-17961,'guang'=>-17950,'gui'=>-17947,'gun'=>-17931,'guo'=>-17928,
'ha'=>-17922,'hai'=>-17759,'han'=>-17752,'hang'=>-17733,'hao'=>-17730,'he'=>-17721,'hei'=>-17703,'hen'=>-17701,'heng'=>-17697,'hong'=>-17692,'hou'=>-17683,'hu'=>-17676,'hua'=>-17496,'huai'=>-17487,'huan'=>-17482,'huang'=>-17468,'hui'=>-17454,'hun'=>-17433,'huo'=>-17427,
'ji'=>-17417,'jia'=>-17202,'jian'=>-17185,'jiang'=>-16983,'jiao'=>-16970,'jie'=>-16942,'jin'=>-16915,'jing'=>-16733,'jiong'=>-16708,'jiu'=>-16706,'ju'=>-16689,'juan'=>-16664,'jue'=>-16657,'jun'=>-16647,
'ka'=>-16474,'kai'=>-16470,'kan'=>-16465,'kang'=>-16459,'kao'=>-16452,'ke'=>-16448,'ken'=>-16433,'keng'=>-16429,'kong'=>-16427,'kou'=>-16423,'ku'=>-16419,'kua'=>-16412,'kuai'=>-16407,'kuan'=>-16403,'kuang'=>-16401,'kui'=>-16393,'kun'=>-16220,'kuo'=>-16216,
'la'=>-16212,'lai'=>-16205,'lan'=>-16202,'lang'=>-16187,'lao'=>-16180,'le'=>-16171,'lei'=>-16169,'leng'=>-16158,'li'=>-16155,'lia'=>-15959,'lian'=>-15958,'liang'=>-15944,'liao'=>-15933,'lie'=>-15920,'lin'=>-15915,'ling'=>-15903,'liu'=>-15889,'long'=>-15878,'lou'=>-15707,'lu'=>-15701,'lv'=>-15681,'luan'=>-15667,'lue'=>-15661,'lun'=>-15659,'luo'=>-15652,
'ma'=>-15640,'mai'=>-15631,'man'=>-15625,'mang'=>-15454,'mao'=>-15448,'me'=>-15436,'mei'=>-15435,'men'=>-15419,'meng'=>-15416,'mi'=>-15408,'mian'=>-15394,'miao'=>-15385,'mie'=>-15377,'min'=>-15375,'ming'=>-15369,'miu'=>-15363,'mo'=>-15362,'mou'=>-15183,'mu'=>-15180,
'na'=>-15165,'nai'=>-15158,'nan'=>-15153,'nang'=>-15150,'nao'=>-15149,'ne'=>-15144,'nei'=>-15143,'nen'=>-15141,'neng'=>-15140,'ni'=>-15139,'nian'=>-15128,'niang'=>-15121,'niao'=>-15119,'nie'=>-15117,'nin'=>-15110,'ning'=>-15109,'niu'=>-14941,'nong'=>-14937,'nu'=>-14933,'nv'=>-14930,'nuan'=>-14929,'nue'=>-14928,'nuo'=>-14926,
'o'=>-14922,'ou'=>-14921,
'pa'=>-14914,'pai'=>-14908,'pan'=>-14902,'pang'=>-14894,'pao'=>-14889,'pei'=>-14882,'pen'=>-14873,'peng'=>-14871,'pi'=>-14857,'pian'=>-14678,'piao'=>-14674,'pie'=>-14670,'pin'=>-14668,'ping'=>-14663,'po'=>-14654,'pu'=>-14645,
'qi'=>-14630,'qia'=>-14594,'qian'=>-14429,'qiang'=>-14407,'qiao'=>-14399,'qie'=>-14384,'qin'=>-14379,'qing'=>-14368,'qiong'=>-14355,'qiu'=>-14353,'qu'=>-14345,'quan'=>-14170,'que'=>-14159,'qun'=>-14151,
'ran'=>-14149,'rang'=>-14145,'rao'=>-14140,'re'=>-14137,'ren'=>-14135,'reng'=>-14125,'ri'=>-14123,'rong'=>-14122,'rou'=>-14112,'ru'=>-14109,'ruan'=>-14099,'rui'=>-14097,'run'=>-14094,'ruo'=>-14092,
'sa'=>-14090,'sai'=>-14087,'san'=>-14083,'sang'=>-13917,'sao'=>-13914,'se'=>-13910,'sen'=>-13907,'seng'=>-13906,'sha'=>-13905,'shai'=>-13896,'shan'=>-13894,'shang'=>-13878,'shao'=>-13870,'she'=>-13859,'shen'=>-13847,'sheng'=>-13831,'shi'=>-13658,'shou'=>-13611,'shu'=>-13601,'shua'=>-13406,'shuai'=>-13404,'shuan'=>-13400,'shuang'=>-13398,'shui'=>-13395,'shun'=>-13391,'shuo'=>-13387,'si'=>-13383,'song'=>-13367,'sou'=>-13359,'su'=>-13356,'suan'=>-13343,'sui'=>-13340,'sun'=>-13329,'suo'=>-13326,
'ta'=>-13318,'tai'=>-13147,'tan'=>-13138,'tang'=>-13120,'tao'=>-13107,'te'=>-13096,'teng'=>-13095,'ti'=>-13091,'tian'=>-13076,'tiao'=>-13068,'tie'=>-13063,'ting'=>-13060,'tong'=>-12888,'tou'=>-12875,'tu'=>-12871,'tuan'=>-12860,'tui'=>-12858,'tun'=>-12852,'tuo'=>-12849,
'wa'=>-12838,'wai'=>-12831,'wan'=>-12829,'wang'=>-12812,'wei'=>-12802,'wen'=>-12607,'weng'=>-12597,'wo'=>-12594,'wu'=>-12585,
'xi'=>-12556,'xia'=>-12359,'xian'=>-12346,'xiang'=>-12320,'xiao'=>-12300,'xie'=>-12120,'xin'=>-12099,'xing'=>-12089,'xiong'=>-12074,'xiu'=>-12067,'xu'=>-12058,'xuan'=>-12039,'xue'=>-11867,'xun'=>-11861,
'ya'=>-11847,'yan'=>-11831,'yang'=>-11798,'yao'=>-11781,'ye'=>-11604,'yi'=>-11589,'yin'=>-11536,'ying'=>-11358,'yo'=>-11340,'yong'=>-11339,'you'=>-11324,'yu'=>-11303,'yuan'=>-11097,'yue'=>-11077,'yun'=>-11067,
'za'=>-11055,'zai'=>-11052,'zan'=>-11045,'zang'=>-11041,'zao'=>-11038,'ze'=>-11024,'zei'=>-11020,'zen'=>-11019,'zeng'=>-11018,'zha'=>-11014,'zhai'=>-10838,'zhan'=>-10832,'zhang'=>-10815,'zhao'=>-10800,'zhe'=>-10790,'zhen'=>-10780,'zheng'=>-10764,'zhi'=>-10587,'zhong'=>-10544,'zhou'=>-10533,'zhu'=>-10519,'zhua'=>-10331,'zhuai'=>-10329,'zhuan'=>-10328,'zhuang'=>-10322,'zhui'=>-10315,'zhun'=>-10309,'zhuo'=>-10307,'zi'=>-10296,'zong'=>-10281,'zou'=>-10274,'zu'=>-10270,'zuan'=>-10262,'zui'=>-10260,'zun'=>-10256,'zuo'=>-10254
);
    /
      将中文编码成拼音
      @param string $utf8Data utf8字符集数据
      @param string $sRetFormat 返回格式 [head:首字母|all:全拼音]
      @return string
     /
public static function encode($utf8Data, $sRetFormat='head'){
$sGBK = iconv('UTF-8', 'GBK', $utf8Data);
$aBuf = array();
for ($i=0, $iLoop=strlen($sGBK); $i<$iLoop; $i++) {
$iChr = ord($sGBK{$i});
if ($iChr>160)
$iChr = ($iChr<<8) + ord($sGBK{++$i}) - 65536;
if ('head' === $sRetFormat)
$aBuf[] = substr(self::zh2py($iChr),0,1);
else
$aBuf[] = self::zh2py($iChr);
}
if ('head' === $sRetFormat)
return implode('', $aBuf);
else
return implode(' ', $aBuf);
}
/
  中文转换到拼音(每次处理一个字符)
  @param number $iWORD 待处理字符双字节
  @return string 拼音
 /
private static function zh2py($iWORD) {
if($iWORD>0 && $iWORD<160 ) {
return chr($iWORD);
} elseif ($iWORD<-20319||$iWORD>-10247) {
return '';
} else {
foreach (self::$_aMaps as $py => $code) {
if($code > $iWORD) break;
$result = $py;
}
return $result;
}
}
}

>电脑最下面得有开始的那好长一条看到不
最右边往左第二框就是语言栏
在图标上按右键点设置
里面有一个默认输入语言
换成搜狗的然后按确定就行了
呵呵

本文讲解了如何在一周时间内,从零开始,一步步做一个拼音输入法。

思路是这样的,首先,需要一个词库,这个词库包含单字的和词组的,其次,需要进行一场串字母的切割算法(bdu切分为b、du),最后需要一个检索和排序算法,来应对类似首字母检索(sz对应深圳)和部分字母检索(shenz对应深圳)等各种情况。下面介绍我是怎么从零开始做一款拼音输入法的。

单字的词库,由于有汉字词典,所以比较简单,这里用的是网上一个开源的词库文件:

数目为3万多,但是里面包含了许多基本不会用到的偏僻字:

具体的排除偏僻字的方法后面会介绍。

词组的词库,由于做输入法的出发点,是为了搜索地图里面的POI点服务的,所以优先考虑地理词,一开始想到的是用 搜狗细胞词库 上面的所有城市的精选地理信息:

解析方法参考: Java-解析搜狗输入法分类词库scel文件

但是这样的方式,后来在使用中,发现其虽然包含了非常多的地理信息,但是对于输入法来说,并不好用,原因在于,用户其实是更习惯于用常用字来检索的,例如:用户输入“baidu”,是想要打出“百度”这样的常用字,而不是像“柏渡”这样类似的地理词。

基于此,后面的词组词库是用的搜狗以前版本的核心词库,解析方法参考:
Java-解析搜狗输入法核心词库sgim_corebin文件 。

有点麻烦的是,搜狗的词库只有汉字,并没有对应的拼音,所以这里用pinyin4j来做转换,转换方法参考: Java-汉字转拼音 。

数目为42万多,但是里面同样也包含了很多的偏僻词组,排除方法后面会介绍。

由于是输入法,排序规则显然是越常用的排越前面,但是由于用到的词库并没有词频,所以必须想办法通过机器去自动生成词频,以便进行常用性排序。

对于这一点,在经过思考以后,决定采用百度搜索引擎来进行数据搜集。在百度搜索引擎搜索每个词组时,可以看到有多少个相关的结果,我们有理由相信,越多的相关结果,意味着被检索的次数也多,也就越常用。

下面是对于"kebi"对应的“科比”和“可鄙”在百度搜索引擎的结果数对比:

可以看到,"科比"的搜索相关结果更多,显然也更常用。

基于这一策略,通过对词库中的单字和词组进行百度指数(结果数/万)的爬虫搜集,这里涉及到跟百度反爬虫部门的斗智斗勇,包括不定时切IP等,不过最终还是成功把45万词条的数据爬取下来了,部分结果如下:

完成以后,根据百度指数,设置一个阈值(这里是100),小于100的就判断为生僻字和词组,将其从词库中删除,最终只保留了33万条词条。

由于我们的输入法的使用场景主要在于地图的搜索POI点,所以,我们如果能判断一个词组是否是地理词,将其排在更前面,则体验上会更好。基于我们在排序中的思路,考虑从百度检索结果中看能不能进一步挖掘价值。

下面是搜索两个地理词,“深圳”和"南山"在百度搜索引擎的结果:

可以看出,地理词在检索结果中,很可能会出现“地图”和“旅游攻略”字眼,我们可以以此为依据,来判断一个词为地理词。依旧通过爬虫,新一轮的斗智斗勇后,成功地识别出来了地理词。

下面是识别出来的首字母为”ns“的地理词列表:

从结果来看,显然这策略也并不是完美的,会出现一些词的误判,例如“那啥”,但是从最终效果来看,还是非常好的。

对于用户已经选择过的词,我们应该在用户再次输入的时候出现在最前面。因此,我们在词库中加入一个“click”字段,用于记录该词的被选择次数,次数越多的,更高优先级展示给用户。

通过上述步骤解决了,词库的建立,词组的常用性排序,地理词的识别以及记录用户选择次数后,我们就搭建起了一个完整可用的词库。

在此基础上,我们需要在用户输入一串字母的时候,对其进行切割,例如,baidu切割成bai和du,szhen切割成s和zhen。对于这一点,这里用到的是一个基于拼音语法规则的正则表达式:

这个正则表达式可以正确地分割出长串的字母为单个的拼音,例如分割:

但是,在测试中,发现其分割有缺陷,例如,对于分割"hn",直接分割成了“hn”,而正确的分割是"h n",所以,针对这种情况,做了容错处理,后面会介绍。

切割完成后,我们需要将其从词库中检索出来对应的词语。

以“szhen”举例,切割完成后,是"s"和“zhen”,首先,我们可以确认其首字母为"sz",其次,我们可以确定,全拼音的匹配正则表达式为:

其中,“%”表示零个或多个字母。

利用Sqlite的LIKE来进行全拼音正则匹配,并对地理词和用户选择词进行优先排序,最后根据百度指数进行排序,查询语句为:

这里,由于交互上的需求,用户选择过的词排在最前面,后面固定出现三个地理词,再后面的词,根据百度指数进行排序。对于上文提到的“hn”分割错误导致的异常,这里需要将其当成是纯首字母检索处理。

为了查看最终的交互效果,我们随机取几个字符串,来看看匹配结果与搜狗输入法进行对比:

可以看到,在常用词上,两者出现的词基本重合,而本文的输入法,在地理词上,体验要更好。

最后放上加上界面开发的成果图:

新建模板,便于后续创建索引,直接使用模板,省事方便

goods_v1 将使用上述模板( goods ),可直接使用模板中定义的 analyzer

本搜索只做简单过滤,并且按id倒序返回,不需要计算相似度

多个query结果,取相似度 score 最大的返回

---未完待续---

第一步,怎么做才能实现目的。
第二步,在界面处理还是在数据库处理哪个效率更高。
可以在数据库写一个函数,将数据库里面的中文条目转换成拼音,写语句用"like"进行模糊查询。
或者在界面先查出一个数据集,写一个方法处理数据集里面的中文条目转换为拼音,在模糊查出。
至于有没其他方法,就没有细想了。
一般上,我自己的做法是能在界面处理的事情尽量在界面处理好不留到数据库去处理。

这是自动完成功能思路:当你输入一个字符之后(这个可以你自己定义变量来约束,随便几个),通过AJAX访问后台,查询到所有结果包含你输入的字符的一个结果集 然后再返回给前端 当然你可以在后台封装好(即拼接hmtl代码和结果) 将返回的结果放到文本框下面的那个DIV里面 显示出来 就OK了 具体代码不难 如果你是程序员 告诉你思路应该就可以实现了


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/yw/13393441.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-07-27
下一篇 2023-07-27

发表评论

登录后才能评论

评论列表(0条)

保存