R中的文本处理和预处理有哪些强大的工具？_系统运维

概述我经常使用Hadley的包装字符串来清理杂乱的生态数据(标准化物种名称,格式不佳的标签等).最近我开始学习sed和awk,并被这些工具的强大程度所震撼,特别是在处理大量数据文件时. 我的问题： >是否有其他强大的文本处理包(基本函数之外,以及字符串中的那些)对数据清理有用？ >是否可以从R中运行sed命令/脚本？如果是这样,怎么样？能给我举个例子？ >有没有人试图为sed编写一个包装器作为R包.如我经常使用Hadley的包装字符串来清理杂乱的生态数据(标准化物种名称,格式不佳的标签等).最近我开始学习sed和awk,并被这些工具的强大程度所震撼,特别是在处理大量数据文件时.

我的问题：

>是否有其他强大的文本处理包(基本函数之外,以及字符串中的那些)对数据清理有用？
>是否可以从R中运行sed命令/脚本？如果是这样,怎么样？能给我举个例子？
>有没有人试图为sed编写一个包装器作为R包.如果没有,这将是一件值得追求的事情(对我自己或更有能力的程序员来说是一个辅助项目)？

解决方法首先,关于sed和awk,我一般都不需要它们,因为它们特别老派.我经常在Perl中编写正则表达式,并实现相同的功能,可读性更强一些.我并不是要讨论实现的优点,但是当我不在Perl中编写这样的函数时,我发现gsub,grep和相关的正则表达式工具在R中工作得很好.注意这些可以采用perl = TRUE作为一个论点;我更喜欢Perl正则表达式处理.

对于更严重的包装,tm package特别值得注意.有关自然语言处理和文本挖掘资源的更多信息,请查看CRAN Task View for NLP.

另外,我认为你的问题标题已经混淆了两个概念.像sed& amp; awk,正则表达式,标记化等是文本处理和预处理中的重要部分.文本挖掘更具统计性,并且取决于文本数据的有效预处理和量化.虽然没有提及,但分析,信息检索和自然语言处理的后续两个阶段是研究和研究.工程领域的目标更具体.如果您主要对文本 *** 作感兴趣,那么应用正则表达式和预处理/规范化的各种工具就足够了.如果要进行文本挖掘,则需要查看更多的统计函数.对于NLP,需要进行更深入分析的工具.所有这些都可以从R内部访问,但问题是你想在这个兔子洞里走多远？想要吞下红色药丸吗？

总结

以上是内存溢出为你收集整理的R中的文本处理和预处理有哪些强大的工具？全部内容，希望文章能够帮你解决R中的文本处理和预处理有哪些强大的工具？所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/1031546.html

R中的文本处理和预处理有哪些强大的工具？

发表评论

评论列表（0条）