我的问题:
>是否有其他强大的文本处理包(基本函数之外,以及字符串中的那些)对数据清理有用?
>是否可以从R中运行sed命令/脚本?如果是这样,怎么样?能给我举个例子?
>有没有人试图为sed编写一个包装器作为R包.如果没有,这将是一件值得追求的事情(对我自己或更有能力的程序员来说是一个辅助项目)?
对于更严重的包装,tm
package特别值得注意.有关自然语言处理和文本挖掘资源的更多信息,请查看CRAN Task View for NLP.
另外,我认为你的问题标题已经混淆了两个概念.像sed& amp; awk,正则表达式,标记化等是文本处理和预处理中的重要部分.文本挖掘更具统计性,并且取决于文本数据的有效预处理和量化.虽然没有提及,但分析,信息检索和自然语言处理的后续两个阶段是研究和研究.工程领域的目标更具体.如果您主要对文本 *** 作感兴趣,那么应用正则表达式和预处理/规范化的各种工具就足够了.如果要进行文本挖掘,则需要查看更多的统计函数.对于NLP,需要进行更深入分析的工具.所有这些都可以从R内部访问,但问题是你想在这个兔子洞里走多远?想要吞下红色药丸吗?
总结以上是内存溢出为你收集整理的R中的文本处理和预处理有哪些强大的工具?全部内容,希望文章能够帮你解决R中的文本处理和预处理有哪些强大的工具?所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)