- 微博舆情热点挖掘项目
- Ansj分词器有几种内置的分词器,及其作用?
- 5种
- baseAnalysis
- DicAnalysis
- IndexAnalysis
- NlpAnalysis
- ToAnalysis
- 5种
- 建表的注意事项
- 1、内外表分类
- 2、字段与类型
- 3、分区与否
- 4、行与字段的分隔符
- 5、存储格式
- Ansj分词器有几种内置的分词器,及其作用?
- 搜索引擎的索引建立的格式
- 倒排索引
- 将查询目标和查询的数据源进行映射关系处理。
- 倒排索引
- 关于中文分词当中的词性说明
- 继承了传统的中文分词。
- 同时为了更精准、更为后续的数据挖掘提供更多的信息支撑,故又进行了词性的扩展。
- 北大系词性扩展
- 中科院系词性展
- 词性过滤引起的黑白名单的使用场单
- 黑名单场景:我不知道我要什么,但是我知道我不要什么。
- 白名单场景:我知道我要什么,但是我不知道我不要什么。
- Java当中解决去重、过滤问题的常用类
- HashSet
- 无序,不可重复
- 无序:插入序不等于存储序。
- 不可重复: hashcode进行hash表的定位,equals来判断是否与对应的链表有相等的元素,如果有,则认为重复,此次添加无效。如果没有相等的元素,则将新元素插入链表的头部。
- HashMap
- 当map当中的value=null时,则为HashSet。
- HashSet
- 一次初始化多次使用对象的场景
- 标记法
- 写代码时”用脑子指导着手去干活,即用脑干活”。
- 在写代码时,尤其是写代码之前,应该搞清楚写这个代码、写这个功能时候的注意事项。并在写的过程中,解决掉注意事项当中的各项潜在风险问题。
- 自然语言处理当中的停用词表
- 专业语语,stopwords。
- 意为没有用的词,即没有实际意义的词。
- 数据组成
- 1、系统停用词
- 2、行业停用词
- 3、自定义的停用词
- 黑名单数据过滤问题的抽象
- 在A表,不在B表的SQL问题。
- 即典型in A and not in B
- 两种实现方法
- 1、 not in
- 2、 left join + b.key is null的方式
- 两种实现方法
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)