如何获取网站后台数据

如何获取网站后台数据,第1张

网站环境不同,不同程序有不同的数据库配置位置以discuz为例,其他的随机应变:
1Discuz论坛的数据库在程序中有设置文件对应查询账号密码,目录位置:
/config/config_globalphp
/uc_server/data/configincphp
/config/config_ucenterphp
文件都含有Discuz论坛数据库的登录账号密码信息,可以参考查询数据库信息。
网站本身的数据库是和程序分开的,大部分主机都是储存在两个空间。小型虚拟主机,没有权限查看数据库文件,但是会提供在线管理的工具,一般在空间后台有提供链接。
云主机,快云VPS,云服务器,以及独立主机,都有远程服务器管理权限的,直接登录远程,就可以查看数据库位置。
目前的情况看,快云VPS都自带云数据库,也有管理平台,可以后台直接打开,登录管理数据库。

系统的用户包括普通用户和管理员用户两大类。

对于普通用户,系统需要向其提供只读的访问权限,可以查看系统内预定义好的各类风险GIS展示,风险评价指标体系、评价结果,以及不同评价对象的基本信息,另外还可以对系统内的模型运行结果进行查看。

图574增加评价方案页面

图575修改评价方案页面

图576同级指标审核页面

图577批量评价页面

管理员用户则需要为系统各模块的正常运行和系统内各种数据的维护等提供支持,系统管理平台的用户对象仅是系统管理员。

系统管理的开发将主要围绕系统管理平台、数据管理和图库管理3方面展开。系统管理平台主要是对整个网站系统的后台管理和网站设置,即实现该原型系统的后台维护。数据管理主要包括油价数据、事件管理,以及基础数据管理。另外,图库管理是针对国家、运输等相关风险中所用到的结构图或地图等进行集中管理。

5451系统管理平台开发

以B/S形式运行的风险管理系统的管理平台如图578所示。依照数据流程的线索将系统整体功能从左到右进行组织,划分为数据准备、数据处理、数据存储和数据应用四大块,每一块中包括了数据流程不同阶段的具体任务。这些任务以多种形式展现在管理平台界面中,包括中心的流程图形式,左侧菜单和顶层菜单,对系统的管理功能提供了多个访问入口,方便系统管理员对系统功能的把握和调用。

接下来,以主界面中的数据流程图为主线,简单介绍该原型系统的逻辑框架。在系统运行管理平台界面的数据准备中,将系统需要获取的数据分为Internet抽取的价格数据和风险评价数据两大类(见图563c)。

在数据处理部分,系统提供对油价数据的进一步整理和数据自动抓取过程中的日志查看,保证系统提供准确完整的数据(见图563d)。除此以外,系统管理的数据处理部分包含模型运算模块的调用和管理,以及系统对指标体系和对象评价相关数据的管理。

图578系统管理主界面

目前主要介绍的是国家风险、市场风险和运输风险3个子功能模块。此外,除了上面所介绍的系统管理主要框架以外,在系统管理平台中,还添加了系统设置和网站 *** 作模块。系统设置和网站 *** 作主要实现整个原型系统的后台界面框架管理。具体主要包含以下几个方面。

1)直接利用采取Sharepoint列表功能对网站后台框架进行整体设计,可以进行创建、编辑网页、网站框架设计(图579)。

图579网站 *** 作

2)更改网站主题。网站后台中有多种网站主题,用户可根据需要选择不同的主题(图580)。

3)在每一个系统模块下面,可进行整体页面和架构的设计,同时可以编辑相应的超链接条目(图581)。

4)在网站设置主页中,高级用户可以进行权限管理,主题外观设置,系统库的管理以及网站集的管理(图582)。当然,上述权限 *** 作仅限于高级用户。

5452数据管理的开发

数据管理包括油价数据和事件管理、基础数据管理等内容。在油价数据和事件管理中主要完成油价数据和事件的自动抓取功能,基础数据管理将对各个风险模块评价对象的概况、信息等相关数据进行维护和管理。

(1)油价数据和事件管理

油价数据和事件管理的重点是油价和时间数据的获取。系统要求能够实现从Internet中定期自动地抓取数据并存储到系统中心数据库中。

图580网站主题更改

图581编辑网页

图582网站设置

考虑到数据管理和数据库之间的关系比较密切,并且需要不间断地运行,所以对数据管理模块的界面采取了C/S的开发形式。

自动抓取模块的开发内容包括:价格数据抓取算法的设计;事件抓取算法的设计;数据抽取任务控制的整体程序结构确定;任务的自动执行和调度算法的设计;日志功能的使用,要能够依据日志对任务执行中的错误追踪和出错原因进行判断;需要实现任务失败重试,并可以设置重试次数阈值,默认为3次等。

1)调度算法。将抽取代码进行封装,添加调度日志等功能,设计出自动抓取模块流程的整体流程图(图583,图584)。用于数据管理的管理员界面如图585所示。

图583自动抓取模块流程图

图584自动抓取模块流程图

图585数据管理模块界面

2)价格数据抓取算法。自动抓取模块的核心代码是价格数据抓取和事件抓取算法。价格数据抓取从网页中抓取数据存储到本地中来,包括下载模块和处理转换模块两个子模块。自动抓取模块的核心代码部分自动远程下载价格数据,并按照指定路径保存到本地,并将下载结果计人数据库下载日志表,然后将下载下来的Excel表格数据进行转换,转换成符合数据库所建立的表格形式。

对美国能源部的数据抓取代码流程和表格处理转换流程如图586与图587所示。

图586数据抓取代码流程图

图587表格处理转换流程图

价格数据抓取模块的技术难点主要有:所下载的表格中包含的市场名称可能会发生变动,难以预期,导致匹配失败;Excel表格中产品名称、市场名称、价格类型、货币类型这几个字段是合并在一起的,需要将其分别识别出来;原表格中的日期格式直接导入数据库会发生不一致现象,需要对其进行转换处理。这些难点的解决主要依赖与算法的设计,在此不再赘述。

3)事件数据抓取算法。事件数据抓取算法要求对美国能源部上关于油品的所有历史事件进行抓取,并保存进数据库。具体实现算法是从美国能源部指定的事件网站上将事件页面的源码下载到本地,然后进行相关字符串抓取、清洗、 *** 作之后进入中心数据库。

事件抓取算法的技术难点,主要在于事件是基于页面HTML形式而非链接,另外抓取的事件要符合数据库规定的形式。解决这些问题的主要方法包括对网页本地化装载的控件进行恰当的选择;在去除页面的HTML标记之后需要附加一些更正性质的处理,比如日期、年份的选择,事件日期、时间和内容之间没有空格的判断问题等;最后,最主要的就是在抓取中大量使用正则表达式提高效率。事件页面的呈现,如图588所示。

图588国际油价事件

(2)基础数据管理

系统管理平台主要实现基础数据管理。在基础数据管理模块,基于可扩展的数据维护技术,完成了总体架构设计,以国家、运输、市场基础数据为例的基础数据管理功能实现。在基础信息管理下实现了概况、信息、油价、事件等的添加、编辑、修改、更新一系列 *** 作。

在基础数据管理中,实现了国家数据的资源概况、基本信息的页面设计;运输数据的港口、航线概况和基本信息的页面设计;市场数据管理的页面设计,并都实现了链库功能。

图563d展示的是系统管理的主界面。其中,最主要的功能是实现基础数据管理 *** 作,该模块仅对高级用户(即有权限进行数据维护的用户)开放。

1)国家数据管理。与风险评价页面相类似,基础数据部分根据模块分了“国家数据”“运输数据”等标签,各标签下又有各自模块的细分功能菜单,显示于页面左侧。国家数据的新增国家和资源概况展示的页面,如图589和图590所示。

图589新增国家页面

图590国家基本信息批量展示

2)运输数据管理。运输数据管理模块实现了港口概况、港口信息、航线概况、航线信息的页面设计。现仅以港口信息页面展示为例,如图591所示。

5453图库管理

在整个风险评价系统中,应用了大量来丰富展现评价对象的相关信息。的应用范围包括:国家对象的地理分布示意以及国家的内部行政划分等;港口对象的标志性,可能是港口的照片或者结构图等;以及其他模块所应用到的。

在图库管理部分,目前考虑的有国家和港口的管理。图库的结构如图592所示。

图591港口信息维护

图592图库管理结构图

图593是添加的页面。

图594是国家对象图库的显示页面,图595是一个具体的对象页面,并且可以在此处删除或者修改。

图593图库管理-添加

图594图库管理-国家对象图库

图595图库管理-国家对象具体显示

SQL 好像还没这种功能吧~
做个小应用程序就可以
先做个定时器 让它每1小时调用一次 并且判断当前时间是否是11点
如果是11点就查询数据然后将数据插入到本地的数据库
不知道你用什么编程语言 如果是C# 遇到问题可以再hi我

真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/13190593.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-06-18
下一篇 2023-06-18

发表评论

登录后才能评论

评论列表(0条)

保存