方法/步骤
下面,小编以简单的例子,演示 *** 作方法。
比如下图中的文字,“百度知道”和“百度经验”各自含有超链接。
现在,要把“百度知道”和“百度经验”链接给提取出来。
*** 作如下:
鼠标点下“文件”
d出的页面中,点“选项”
再d出word选项 *** 作框;
*** 作框的左侧,点下“高级”
右边显示相关内容;拉动滚动条,在“显示文档内容”这里,找到“显示域代码而非域值”,然后,打上对勾。
然后,点击确定。
*** 作框自动关闭。文档上,已显示出如下图所示的内容。
在“开始”选项卡,右侧这里,点“查找”,再点“高级查找”
d出 *** 作框,在框内的“查找内容”这里,输入:">
2、点击右键,选择”编辑超级链接”
3、在d出的”编辑超级链接“对话框下方,有地址一栏,即为超级链接的地址,将其复制即可提取。
第一种方法,正则表达式。如下所示
string reg = @"<a[^>]href=([""'])(<href>[^'""]+)\1[^>]>";
var item = RegexMatch(str, reg, RegexOptionsIgnoreCase);
ConsoleWriteLine(itemGroups["href"]Value);
第二种使用htmlagilitypack的xpath进行提取
HtmlNodeCollection atts = _docDocumentNodeSelectNodes("//a[@href]");
一般在使用爬虫时都会用自有的框架进行数据提取和分离。其中正则比较简洁和高效。但需要提前调试好。第三方控件使用起来比较容易而且还有其他功能可以辅助使用。
以上就是关于怎样快速批量提取word文档中的超链接全部的内容,包括:怎样快速批量提取word文档中的超链接、EXCEL 2013 如何提取超级链接网址、用C#怎么提取a标签的超链接等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)