Delphi 2009：在unicode utf-8中搜索跳过变音符号_语言综合

概述我有包含阿拉伯语文本的utf-8编码文件,我必须搜索它. 我的问题是变音符号,如何搜索跳过它们？就像你在Internet Explorer中加载该文本(在HTML ofcourse中转换文本)一样,IE正在跳过那些变音符号？有帮助吗？ Edit1：只需按以下代码执行搜索： var m1 : TMemo; //contains utf-8 data) m2 : TMemo; // co 我有包含阿拉伯语文本的utf-8编码文件,我必须搜索它.

我的问题是变音符号,如何搜索跳过它们？

就像你在Internet Explorer中加载该文本(在HTML ofcourse中转换文本)一样,IE正在跳过那些变音符号？

有帮助吗？

Edit1：只需按以下代码执行搜索：

var m1 : TMemo; //contains utf-8 data)     m2 : TMemo; // contains results ...      m2.lines.BeginUpdate;      for s in m1.lines do      begin        if pos(eSearch.Text,s)>0 then           begin           m2.lines.Add(s);           end;      end;      m2.lines.EndUpdate;

Edit2：unicode数据示例：

قلهواللهأحد
如果您只搜索没有变音符号的字母,则不会找到单词قل.

解决方法我发现变音符号不是唯一的问题.

我会做字符替换,用空字符串替换它们,我也会将文本标准化”””””””””””””””””””””””””””””””’ .

对于搜索我也会使用像“khoja stemmer”这样的轻型词干器(Java源码here)

更先进的方法是像TREC那样做：

>删除标点符号
>删除变音符号(主要是弱元音)大多数语料库都不包含弱元音.
>一些字典条目包含弱元音.这使一切都保持一致.
>删除非字母
>用裸露的alif.更换初始Å或أ
>用ا替换آ
>用Æ替换序列ىء
>用ي替换finalى
>用ه替换最终É
>剥离6个前缀：明确的文章(فالآال,بال,وال,ال,)和و
(和)从标准化词的开头
>从单词的末尾删除10个后缀：اتان,ها,ية,ه,يه,ين,ون

我会通过这个修改后的文本索引文本(对于备忘录,我将在原始文本中存储单词的索引),并为搜索查询执行相同的 *** 作.

我也会在Memo1.Text中搜索而不是逐行搜索,搜索可以是多行,可以在一行的末尾并包装到下一行.

总结

以上是内存溢出为你收集整理的Delphi 2009：在unicode utf-8中搜索跳过变音符号全部内容，希望文章能够帮你解决Delphi 2009：在unicode utf-8中搜索跳过变音符号所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/1258595.html