tableau的原理

tableau的原理,第1张

一、BI(商务智能)与Tableau

Tableau=敏捷商务智能(Business Inteligence,BI)+ 数据可视化

1、传统BI系统架构

底层:数据源

中层:ETL(抽取、转换、装载)

上层:数据仓库形成DWD(明细数据层)

IT人员根据预先定义好的分析需求,对明细数据进行汇总、建模形成DWA(汇总数据层)

前端:报表展现工具

2、Tableau--数据可视化

数据可视化:指借助于图形化手段,清晰、有效地传达与沟通信息

Tableau的核心是其数据可视化技术,主要包括两方面:

独创的VizQL数据库

用户体验良好且易用的表现形式

二、Tableau主要特性

1、极速高效

传统BI:ETL过程处理数据→数据分析有延迟性

Tableau:

内存数据引擎:直接查询外部数据库、动态从数据仓库抽取数据→提高数据访问和查询效率

拖放数据列:由VizQL转化成查询语言,支持下钻/上卷查看数据,使用筛选器/组/分层结构变换分析角度→灵活、高效的即时分析

2、简单易用

3、可连接多种数据源,实现数据融合

支持访问多数据源:带分隔符的文本文件、Excel文件、SQL数据库、Oracle数据库、多维数据库等

支持数据源切换、并用

支持创建联接(关系数据库/文本文件时):左联接、右联接、内连接等

4、 高效接口集成,良好可扩展性

Tableau提供多种应用编程接口:数据提取接口、页面集成接口、高级数据分析接口

数据提取API(数据提取):通过该接口可在C/C++/Java/Python中创建用于访问和处理数据的程序→创建Tableau数据提取(.tde)文件

JavaScript API(页面集成):通过该接口可把由Tableau制作的报表和仪表盘嵌入到已有的企业信息化系统或企业商务智能平台中,实现与页面&交互的集成

与数据分析工具R的接口(数据分析):支持与R的脚本集成

三、Tableau的产品体系

四、Tableau的工作区

Tableau工作区是制作视图、设计仪表板、生成故事、发布和共享工作簿的工作环境

(一)基本概念

工作表(work sheet):又称为“视图”(visualization),是可视化分析的最基本单元

仪表盘(dashboard):是多个工作表和一些对象的组合,可按一定方式对其进行组织、布局,以便解释数据关系和内涵

故事(story):是按顺序排列的工作表/仪表板的集合,故事中各个单独的工作表/仪表板称为“故事点”;创建故事用以向用户叙述某些事实,或以故事方式揭示各种事实之间的上下文或事件发展的关系

工作簿(workbook):包含一个/多个工作表,以及一个/多个仪表板和故事,是用户在Tableau中工作成果的容器

1、数据窗口

2、分析窗口

3、页面卡、筛选器卡、标记卡、图例

4、行&列、视图区、智能显示、标签栏、状态栏

(三)仪表板工作区

仪表板工作区使用布局容器把工作表和一些像图片、文本、网页类型的对象按一定的布局方式组织在一起

(四)故事工作区

一般将故事用作演示工具,按顺序排列视图或仪表板。

五、Tableau的菜单栏&工具栏

见思维导图

六、Tableau的文件管理

2016年, Tableau便发布了 TabPy的试用版本,一个可以在 Tableau工作簿中运行 Python代码的新 API 。当你通过 Tableau使用 TabPy时,你可以在 Python中定义计算字段,从而在你的可视化作品中充分挖掘大量机器学习库的潜力。

这个在 Tableau中与 Python的集成应用,为用户提供了强大的解决方案。例如,它只需几行 Python代码就能得到一个线上零售商所售商品的情感分析。然后你可以在 Tableau中从很多方面探索获得的结果。

你可能只想看到负面评价并且希望理解这些内容背后的原因。你可能想得到一个顾客列表,并与他们联系。或者你可能想可视化整体情绪随时间变化的情况。

R/Python整合:Rserve/TabPy Server

你可以很容易在电脑上或者远程服务器上安装 TabPy服务器。在 Tableau Desktop中,通过点击帮助 >设置与性能 >管理外部服务连接,在其中输入服务 URL ,你就可以完成配置。然后你可以使用 Python脚本作为 Tableau中计算字段的一部分,就像从 Tableau 8.1开始你可以利用 R的那样。

TabPy使用流行的 Anaconda环境,这能够预装和准备许多包括 scipy , numpy和 scikit-learn在内的常见 Python包。你可以在你的脚本中安装使用任何 Python库。

如果在公司里你有一个数据分析团队来开发定制模型, TabPy还可以通过发布模型很方便与其他那些想要在 Tableau中利用模型的人分享。

一旦发布,无论模型的类型与复杂性如何,你就只需要在 Tableau中运行一个只有一行 Python代码来运行该机器学习模型。

使用已发布的模型有几个好处。在预服务环境中,复杂的功能变得容易使用,分享和以部署方式重用。你可以在后端提升和更新模型,或者修改代码,而 Tableau中的计算字段并不需要额外的 *** 作即可保证正常工作。

看到 Python在 Tableau中的应用,你是不是有点手痒了?亟不可待的想尝试一下?小编在这里推荐一篇新手实用教程,如果你以前没有使用过 Python ,不用担心 ——这对新手来说绝对是可以实现的。继续看下去吧!

Python实用案例分享

本次教程使用的数据集来源 Makeover Monday(点击了解详情) ,关于最流行的前100首歌曲的歌词。

1设置你的环境

1 .确保你使用的是 Tableau 10版本

2 .打开含有 top-song数据的 TDE文件

3 .安装 TabPy

2在 Tableau中连接 TabPy

现在是时候在 Tableau中设置 TabPy了。在 Tableau中,转到帮助 >设置和性能 >管理外部连接。输入 “localhost” ,因为你在自己的计算机上运行 TabPy 。默认端口为 9004 ,因此除非你手动更改它,否则应该将其保留。

3创建 TabPy计算

TabPy Github页面具有你应该在 Tableau计算中使用 Python的详细文档。我简单地重新调整了在 #data 16 TabPy部分的一个计算演示。这里可以看重播。复制下方链接至浏览器查看重播:

现在,你可以使用视图中的这个 [Word]计算字段来处理情绪评分了!缺点是,由于这是一个表计算并且还使用了 ATTR函数,因此你不能在一个详细级别表达式中使用它。也就是说,你不能使用这个例子和数据结构来计算歌曲细节级别的情感总和。

1、按照计量精确程度,由高到低可分为定比尺、定距尺度、定序尺度、定类尺度。

a.定类尺度:也称类别尺度或名义尺度,是将调查对象分类,标以各种名称,并确定其类别的方法。它实质上是一种分类体系。

b.定序尺度:也称等级尺度或顺序尺度,是按照某种逻辑顺序将调查对象排列出高低或大小,确定其等级及次序的一种尺度。

c.定距尺度:也称等距尺度或区间尺度,是一种不仅能将变量(社会现象)区分类别和等级,而且可以确定变量之间的数量差别和间隔距离的方法。

d.定比尺度:也称比例尺度或等比尺度,是一种除有上述三种尺度的全部性质之外,还有测量不同变量(社会现象)之间的比例或比率关系的方法。

2、受极端数值影响较小的集中趋势值是众数和中位数。

3、用决策树进行分析时,采用的方式是反推。

4、推断统计学研究如何根据样本数据去推断总体数量特征的方法。

描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。

5、描述统计与推断统计有何区别和联系?

区别:描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计是研究如何利用样本数据来推断总体特征的方法。

联系:描述统计学和推断统计学是现代统计学的两个组成部分呢,相辅相成、缺一不可,描述统计学是现代统计学的基础和前提,推断统计学是现代统计学的核心和关键。

6、R中,使用哪一个函数进行logit回归?

glm

7、bootstrap

Bootstrap方法根据给定的原始样本复制观测信息对总体的分布特性进行统计推断,不需要额外的信息,Efron(1979)认为该方法也属于非参数统计方法。Bootstrap方法从观察数据出发,不需任何分布假定,针对统计学中的参数估计及假设检验问题,利用Bootstrap方法产生的自举样本计算的某统计量的数据集可以用来反映该统计量的抽样分布,即产生经验分布,这样,即使我们对总体分布不确定,也可以近似估计出该统计量及其置信区间,由此分布可得到不同置信水平相应的分位数——即为通常所谓的临界值,可进一步用于假设测验。因而,Bootstrap方法能够解决许多传统统计分析方法不能解决的问题。在Bootstrap的实现过程中,计算机的地位不容忽视(Diaconis et al.,1983),因为Bootstrap涉及到大量的模拟计算。可以说如果没有计算机,Bootstrap理论只可能是一纸空谈。随着计算机的快速发展,计算速度的提高,计算费时大大降低。在数据的分布假设太牵强或者解析式太难推导时,Bootstrap为我们提供了解决问题的另一种有效的思路。因此,该方法在生物科学研究中有一定的利用价值和实际意义

非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法.其核心思想和基本步骤如下:

(1) 采用重采样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样.

(2) 根据抽出的样本计算给定的统计量T.

(3) 重复上述N次(一般大于1000),得到N个统计量T.

(4) 计算上述N个统计量T的样本方差,得到统计量的方差.

应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好.通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸.

具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘.

进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算.。

8、统计对现象总体数量特征的认识是从个体到总体。

9、抽样误差与非抽样误差有什么区别?

抽样误差:抽样方法本身所引起的误差。当由总体中随机地抽取样本时,哪个样本被抽到是随机的,由所抽到的样本得到的样本指标x与总体指标μ之间偏差,称为实际抽样误差。举个列子,为了方便计算我就举小的列子,自己可以放大,10个男生 身高有3个为170,4个为175,3个为180, 平均身高为175,抽样抽了5个人,分别是170,175,175,175,175,很明显就存在误差了。

非抽样误差是指除抽样误差以外所有的误差的总和。引起非抽样误差的原因很多,比如抽样框不齐全,访问员工作经验有限,被访者不配合访问而加以虚假的回答,问卷设计本身存在缺陷等等。

10、研究者想收集证据予以支持的假设通常称原假设。

11、根据统计分析方法的研究和应用来分,可将统计学分为理论统计学和应用统计学。

12、统计分组的关键在于选择分组标志和划分相邻两组间的界限。

13、下面的哪一个误差属于随机误差?(A)

A.随机误差    B.抽样框误差    C.回答误差    D.无回答误差

14、小钱收集了上海、江苏和浙江三省2007年三次产业的增加值的资料,如果要反映2007年这三个省三次产业的结构,用什么图形最为合适?()

A.直方图    B.散点图    C.饼图    D.折线图

15、tableau文件类型:      .twb    .tds    .tde    .bat

16、以一、二、三等品来衡量产品质地的优劣,那么该产品等级是(D)。

A.品质标志    B.数量标志    C.质量指标    D.数量指标


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12074910.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存