数仓note

数仓note,第1张

1.查看gzip文件

 

hdfs fs -cat /user/warehouse/test/2000-01-01/* | zcat

2.文件类型

tsv,csv,json

3.cd /proc/进程号/fd 文件夹中存放进程打开文件

4.intellij idea database编辑列选模式


 

5.hive comment 注解乱码问题,修改mysql元数据库columns_v2表COMMENT列utf-8编码,table_params--》PARAM_VALUE utf-8编码。

6.mysql 安装 ​​​​​​centos7下使用mysql安装包安装mysql5.7(2022.1.11又重新安装了一遍,大概10来分钟弄好,下篇亲测centos8安装msyql8.0) - 王牌男人 - 博客园

MySQL :: Download MySQL Community Server

7.两种page session划分会话方式

select
mid,
       last_page_id,
       page_id,
       ts,
       concat(mid,'-', last_value(session_start_point, true)) over(partition by mid order by ts))
from
(
    select
        mid,
           last_page_id,
           page_id,
           tf,
           if(last_page_id is null, ts, null) session_start_point
    from ods_log_inc
    where dt = '2020-06-14'
    and page is not null
) t1



select
    mid,
    last_page_id,
    page_id,
    ts,
    concat(mid,'-', sum(session_start_point)) over(partition by mid order by ts))
from
    (
        select
            mid,
            last_page_id,
            page_id,
            tf,
            if(last_page_id is null, 1, 0) session_start_point
        from ods_log_inc
        where dt = '2020-06-14'
          and page is not null
    ) t1

数仓DWS层设计思想---开始搭建之前的回顾 - 简书

8.

选择业务过程(定义表名)-->声明粒度(定义行)-->确认维度--->确认度量值(定义字段)-->分区规划(增量分区/全量分区)
--->数据装载流向(数据从哪里来,就是去业务库中找哪张表)

字段是指标字段还是维度字段没有明确的界线,看你将字段用在哪种情况下,如果你将字段用在sum,min,max聚合函数中哪就是指标字段,
如果你将字段用在分组groupby中哪就是维度字段。

9.纵向看ADS层需求是怎样统计上来的:如下

a=> ODS 交易域下单事务事实表 ods_order_detail_inc            

b=> DWD交易域下单事务事实表dwd_trade_order_detail_inc(group by sku_id)

c=>DWS交易域用户商品粒度订单最近n日汇总表dws_trade_user_sku_order_nd(group by user_id,sku_id)

d=>ADS各品牌商品交易统计 ads_trade_stats_by_tm,各品类商品交易统计ads_trade_stats_by_cate

DWS层user(用户)+tm(品牌)、user(用户)+cate(品类) 聚合粒度----->user(用户)+sku(商品) 能用性

vim中代码多行删除

删除

dd:删除游标所在的一整行(常用)
ndd:n为数字。删除光标所在的向下n行,例如20dd则是删除光标所在的向下20行
d1G:删除光标所在到第一行的所有数据
dG:删除光标所在到最后一行的所有数据
d$:删除光标所在处,到该行的最后一个字符
d0:那个是数字0,删除光标所在到该行的最前面的一个字符
x,X:x向后删除一个字符(相当于[del]按键),X向前删除一个字符(相当于[backspace]即退格键)
nx:n为数字,连续向后删除n个字符

dd
删除一行
ndd
删除以当前行开始的n行
dw
删除以当前字符开始的一个字符
ndw
删除以当前字符开始的n个字符

光标移动到需要复制的行,输入p,行前复制则输入大写P

光标进行快速移动:

 Esc 切换到 Normal Mode 下,然后 hjkl 一顿 *** 作

翻页(适合大范围移动)
ctrl+f表示向下翻页 

ctrl+b表示向上翻页

在编辑的情况下CTRL + H是缩进

CTRL+J 是回车

esc的代替键是CTRL+c 或者是CTRL+【‘符号

复制

yy复制游标所在行整行。或大写一个Y。 
2yy或y2y复制两行。 ㄟ ,请举一反三好不好! :-) 
y^复制至行首,或y0。不含游标所在处字元。 
y$复制至行尾。含游标所在处字元。 
yw复制一个word。 
y2w复制两个字(单词)。 
yG复制至档尾。 
y1G复制至档首。 
p小写p代表贴至游标后(下)。 
P大写P代表贴至游标前(上)。
如果只是想使用系统粘贴板的话直接在输入模式按Shift+Inset就可以了

剪切

ndd:其中n是剪切的行数

粘贴

p:粘贴在这行后面

P:粘贴在这行前面

11.Kylin、druid、presto、impala四种即席查询对比

Kylin、druid、presto、impala四种即席查询对比 - 知乎

12.

监控数据库   DataX、Maxwell、Sqoop

Flume 监控文件变化

13.elasticsearch kibana 安装

GitHub - qinzehua/es-learningContribute to qinzehua/es-learning development by creating an account on GitHub.https://github.com/qinzehua/es-learning

14.elastic search *** 作


DELETE person

GET person/_search
{
  "query": {
    "term": {
      "address": {
        "value": "北京"
      }
    }
  }
}

GET  _analyze
{
  "analyzer": "ik_max_word",
  "text": "我爱北京天安门"
}


PUT person/
{
  "mappings": {
    "properties": {
      "name":{
        "type": "keyword"
      },
      "age":{
        "type": "integer"
      },
      "address":{
        "type":"text",
        "analyzer":"ik_max_word"
      }
    }
  }
}

GET /person/_search

GET /person/_mapping

PUT person/_doc/1
{
  "name":"张三2",
  "age": 20,
  "address": "北京天安门"
}

PUT person/_doc/2
{
  "name":"张三",
  "age": 20,
  "address": "北京海淀"
}

PUT person/_doc/3
{
  "name":"张三",
  "age": 20,
  "address": "北京朝阳"
}

GET person/_doc/1

15.k8s详细教程/Kubernetes详细教程.md · yooome/LearningNotes - Gitee.com

16.对象存储,为什么那么火?

17.漫谈云计算、虚拟化、容器化-51CTO.COM

虚拟化是底层硬件和 *** 作系统解耦, 容器是app和 *** 作系统解耦

18.

关于cloudstack,openstack,kubernetes三个开源云平台的架构演进思考 - 知乎1

19.

虚拟化架构 资源利用率提升(用户需要关心)

云计算平台 实现了自动化

虚拟化架构 + (1.虚拟化层  2.云 *** 作系统-->纳管下层的虚拟化资源池kvm、vmware等  3.云平台统一管理云 *** 作系统提供的资源给租户 ==》这三层都是软件实现的,南向的虚拟化资源得以自动化提供给租户使用)如下图:

curl https://registry.hub.docker.com/v1/repositories/mysql/tags\
| tr -d '[\[\]" ]' | tr '}' '\n'\
| awk -F: -v image='mysql' '{if(NR!=NF &&  != ""){printf("%s:%s\n",image,)}}'

OneinStack - 一键PHP/JAVA安装工具

20.docker centos7镜像库问题

Docker 安装错误 repodata/repomd.xml: [Errno 14] HTTPS Error 404 - Not Found Trying other mirror. - 安培昌浩 - 博客园

21.

spark数据倾斜百度安全验证https://baijiahao.baidu.com/s?id=1709438328163732164&wfr=spider&for=pc

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/726737.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-26
下一篇 2022-04-27

发表评论

登录后才能评论

评论列表(0条)

保存