在线词典数据怎么采集?请大家给个思路!参考资料(php的)。谢谢

在线词典数据怎么采集?请大家给个思路!参考资料(php的)。谢谢,第1张

虽然我没有做过采集在线词典,

不过看了下百度词典,可以采集,给个参考思路。

1、做一个本地的单词库

2、php循环一条一条读取词语库

3、php采集 URL地址:百度词典网址/s?wd=单词,读取html源码php正则匹配内容。

4、数据入库。

求一PHP算法,字典生成。时间一到再加100分。如:字符:0-9,长度:1,

那就生成0,1,2,3,4,5,6,7,8,9

长度:2,就会生成00-99

现在要求字符可以包括a-z,或者其他特殊符号,求一高效的生成算法。

参考答案一

function get_string($strlen){

$source='0123456789'//任意字符

$len = strlen($source)//长度

$return = array()

for($i = 0 $i <$len$i++){

for($j = 0$j <$strlen$j++){

$return[$i] .= $i

}

}

return implode(',', $return)

}

如果输入长度2: 输出结果就是:

00,11,22,33,44,55,66,77,88,99

参考答案二

优化了进位算法:

PHP code =0$no--){ $word=$source{$series[$no]}.$word$series[$no]+=$tonext_valueif($no>0){ if($series[$no]==$len){ $series[$no]=0$tonext_value=1}else{ $tonext_value=0} } } echo "$word "} } gene_dic(2)?>

简单的说,我会把这个理解为0-9(十进制)下十个数字生成两位数字、可重复的排列问题。

排列算法我自己建立过的就是简单的N进制下的+1算法,保证可以遍历。

即:

初始化到0,

1. +1

2. 是否超过要生成的位数?否,则回到1

3. 输出

参考答案三

PHP code =0$no--){//循环遍历数组每次从源字串中取一个字符,为便于进位运算,取字符是从后往前取 $word=$source{$series[$no]}.$word//先取出一个字符 //取出一个字符后就要判断当前数组元素如何如果改变值,为下一次“大循环”做准备 if($no==$n-1){//末位的判断,它比较特殊,每次大循环都要增值 if($series[$no]==$len-1){ $series[$no]=0$tonext_value=1//归零时就进位 }else{ $series[$no]+=1$tonext_value=0//未归零就增值,不进位 } }elseif($no<$n-1){//中间位的进位判断 $series[$no]+=$tonext_value//先取得上一位的进位值 if($series[$no]==$len){ $series[$no]=0$tonext_value=1//归零了就继续进位 }else{ $tonext_value=0//不归零就不进位 } }else{ $series[$no]+=$tonext_value//大循环次数决定了“老大”是只进不出的。 } } echo "$word "//输入单词 } } gene_dic(2)//测试,结果OK。

参考答案四

PHP code =0$no--){//循环遍历数组每次从源字串中取一个字符,为便于进位运算,取字符是从后往前取 $word=$source{$series[$no]}.$word//先取出一个字符 //取出一个字符后就要判断当前数组元素如何如果改变值,为下一次“大循环”做准备 if($no==$n-1){//末位的判断,它比较特殊,每次大循环都要增值 if($series[$no]==$len-1){ $series[$no]=0$tonext_value=1//归零时就进位 }else{ $series[$no]+=1$tonext_value=0//未归零就增值,不进位 } }elseif($no<$n-1){//中间位的进位判断 $series[$no]+=$tonext_value//先取得上一位的进位值 if($series[$no]==$len){ $series[$no]=0$tonext_value=1//归零了就继续进位 }else{ $tonext_value=0//不归零就不进位 } }else{ $series[$no]+=$tonext_value//大循环次数决定了“老大”是只进不出的。 } } echo "$word "//输入单词 } } gene_dic(2)//测试,结果OK。

参考答案五

应该是:

function get_string($strlen){

$source='0123456789'

$len = strlen($source)

$return = array()

for($i = 0 $i <$len$i++){

for($j = 1$j <= $strlen$j++){

$return[$i] .= substr($source,$i,1)

}

}

return implode(',', $return)

}

【拓展阅读】如何开始一门语言的学习

一门语言从发明到演进必有原因。

现在还有很多人推荐学习不同的语言。通过比较,了解它的发展史,

创始人的初心等因素都需要留意。多个思考,这个语言在5年,在10年后还是否保持活力?

当有几个类似的语言被选择时,我们不妨对它们做一个Swat分析。

列出这些语言的共同点,还有它们之间的规则差异。

了解语言的发展史

开发语言从汇编开始,如最早的计算机ENIAC,使用的就是它来编程。

再到Fortarin,再到C语言,Cobol,Basic。每一个语言都与当时发展的阶段有点密切关联。

人类的每个发明都与懒惰有关,语言也是为便捷性而生。有的语言

C是除汇编外最重视效率的语言,扩展的C++也继承了此特性。Perl是做文本处理效率最佳的语言,虽然它的发展有点慢。PHP做Web开发,是“世界上最好的.语言”,Python的阅读性和大数据处理都做得样样俱佳。

当了解语言的历史沿革后,会让我们对其创始人有很强烈的兴趣,成为忠实的脑残粉,学习该语言的兴趣会更浓烈。

人们常常说某个语言比哪个好,这其实没有必要。不必要为其它人的语言所惑,需要你自己做出选择。

语言的共通点

这个星球的人都是一个鼻子两双只水汪汪的大眼睛,与人们的模样一般,编程语言也有一个大致相同的长相。

语法:这是开发此语言定义的规则“套路”:

运算符顺序,变量常量定义/作用域,表达式定义,字符串定义,行尾结束符等。

流程控制:循环控制

这些语法都是成对的,如if,for,while,foreach,有的语言还提供goto这样类似汇编语言的语法。

函数与方法

一些能够复用的高质量代码组合。函数执行后有返回,有递归,有嵌套,还有干完活就完事的简单任务。有静态函数和动态函数区分。

容器

数组,哈希表(也叫散列),字典等用来保存数据的容器。

错误/例外处理

现代编程语言基本都支持出错的抛出,除了C语言之外。

比如硬盘不足,网络出错,黑客攻击等情形。就像购物中心里出现煤气泄露时,监测设备,物联网设备能够及时记录与传递给指挥中心。

没有错误抛出的语言,需要自己考虑尽可能出错的场景并处理,比如:

if(is_overfllow)

//处理

if(network_error)

//处理

可以还有不少需要关注的维度,这会让代码变得艰涩难懂,也难以维护。

我们可以用这样的方式,让其更简洁:

on error goto ERROR

ERROR:

..//

但这总是会需要我们照顾很多情形。于是C++推出了一个语法:

try{

//可能会出错的代码

//可能会出错的代码

}catch{

//处理出错的逻辑

//处理出错的逻辑

}finally{

//出不出错都要执行的代码

}

最后一句是微软公司给业界提供贡献的finally代码块。

以上这些成为语言处理异常机制的基础。

容器

容器是很重要的一节,所以我们单独再提出来。很多逻辑处理,使用容器保存数据,该语言会提供便捷的方法来提供存取。

比如C、Perl、PHP、Ruby中均提供的数组和关联数组,LISP提供的列表,Java、Python提供的元组、链表等。

虽然名字相同,但是实现方式却是完全不同,使用方法当然也不一样。

没有万能的容器,只有最合适的。可以从节省内存,节约时间还是编码效率等综合考虑。

字符串与字符编码

是否支持unicode编码。从摩斯码到ASCII到统一的Unicode编码支持。

并发处理

有的语言在设计时并无此方面的考虑,或者天生设计存在缺陷。

即多线程,多进程的概念。包括共享,锁,事备等特性。

面向对象

支持类,继承,模块,包,命名空间,闭包等。有这些特性才会让人们的工作变得更便利、更有效率。

小结

学习一门语言的关键,需要我们在平静地心绪下,带着浓厚的兴趣去学习,在比较中学习,在历史中学习。

有时候感觉还是不够通畅,先做知识的搬运工也是不错。另外,不断的实践会让我们的信心更足。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12001539.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存