hive热点分析项目

hive热点分析项目,第1张

hive热点分析项目
  • 微博舆情热点挖掘项目
    • Ansj分词器有几种内置的分词器,及其作用?
      • 5种
        • baseAnalysis
        • DicAnalysis
        • IndexAnalysis
        • NlpAnalysis
        • ToAnalysis
    • 建表的注意事项
      • 1、内外表分类
      • 2、字段与类型
      • 3、分区与否
      • 4、行与字段的分隔符
      • 5、存储格式
  • 搜索引擎的索引建立的格式
    • 倒排索引
      • 将查询目标和查询的数据源进行映射关系处理。
  • 关于中文分词当中的词性说明
    • 继承了传统的中文分词。
    • 同时为了更精准、更为后续的数据挖掘提供更多的信息支撑,故又进行了词性的扩展。
      • 北大系词性扩展
      • 中科院系词性展
    • 词性过滤引起的黑白名单的使用场单
      • 黑名单场景:我不知道我要什么,但是我知道我不要什么。
      • 白名单场景:我知道我要什么,但是我不知道我不要什么。
    • Java当中解决去重、过滤问题的常用类
      • HashSet
        • 无序,不可重复
        • 无序:插入序不等于存储序。
        • 不可重复: hashcode进行hash表的定位,equals来判断是否与对应的链表有相等的元素,如果有,则认为重复,此次添加无效。如果没有相等的元素,则将新元素插入链表的头部。
      • HashMap
        • 当map当中的value=null时,则为HashSet。
    • 一次初始化多次使用对象的场景
      • 标记法
    • 写代码时”用脑子指导着手去干活,即用脑干活”。
      • 在写代码时,尤其是写代码之前,应该搞清楚写这个代码、写这个功能时候的注意事项。并在写的过程中,解决掉注意事项当中的各项潜在风险问题。
    • 自然语言处理当中的停用词
      • 专业语语,stopwords。
      • 意为没有用的词,即没有实际意义的词。
      • 数据组成
        • 1、系统停用词
        • 2、行业停用词
        • 3、自定义的停用词
    • 黑名单数据过滤问题的抽象
      • 在A表,不在B表的SQL问题。
      • 即典型in A and not in B
        • 两种实现方法
          • 1、 not in
          • 2、 left join + b.key is null的方式

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5069515.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-11-16
下一篇 2022-11-16

发表评论

登录后才能评论

评论列表(0条)

保存