数据集界面

最近更新时间:2020-07-03 11:31:19

创建数据集界面

创建数据集界面左边是产品导航栏,数据集界面整体分为四部分:菜单栏、数据集列表、数据集编辑区、数据区。

菜单栏

菜单栏提供新建、保存、另存为、性能检测等功能。

新建
单击【新建】,弹出下拉菜单,用户可创建不同类型的数据集。本产品提供10种类型的数据集:SQL 数据集、Mongo 数据集、Excel 数据集、组合数据集。

保存
当用户保存新建的数据集时,会弹出另存为对话框,用户可设定保存路径以及数据集的名称。当用户打开已经存在的数据集后,对该数据集进行修改,可单击【保存】直接保存。

【保存并制作报告】当用户有“制作报告”模块的权限时,会有此按钮。单击后会保存该数据集,并跳转到制作报告模块打开新建页面,绑定的资源树上显示选择的数据集、表或视图(权限设置部分可参考 认证授权)。

另存为
另存已打开的数据集。

检测性能
SQL 数据集、组合数据集的菜单栏上有【检测性能】,单击【检测性能】,查看所有性能问题。
例如:用户使用 SQL 数据集时,系统会对数据集性能进行实时检测,并对影响性能的地方做出橙色标识,告知用户哪些列为什么没有下推到数据库执行,如下图所示:

用户也可以通过单击检测性能,查看所有性能问题。

关闭
单击【关闭】,可关闭当前的数据集。倘若用户尚未保存对当前数据集的修改,将会弹出提示对话框。

数据集列表

数据集列表提供数据集与数据源的管理功能,包括新建文件夹、重命名、复制粘贴、删除等。

数据集列表分为两部分,一是数据源(该文件夹下列出了“添加数据源”模块下所有的数据源),二是用户所创建的数据集。

用户可以创建文件夹、对已有数据集重命名、移除等。实现方式:单击内容上的更多图标,如下图所示:

搜索数据集
根据输入的文字搜索名字中包含此文字的文件夹、数据集等。

数据源搜索
单击数据源搜索图标,进入搜索。

数据源搜索的用法以 SQL Server 数据库为例。单击搜索图标后,展开数据源,单击选择默认数据库 tpch,单击刷新图标后,如下图所示。

输入搜索内容 coffee_chain,展开节点,搜索内容如下图所示。

选中表结构模式 dbo,单击刷新图标,内容如下图所示。

单击刷新图标旁的清除图标,返回数据集列表。如果数据源搜索之前对数据集列表进行了搜索则会返回搜索后的列表。

打开数据源
当用户有“添加数据源”模块的权限时,在数据集列表区域,选中数据源文件夹下的数据源,右键或单击更多图标选择打开数据源选项,在“添加数据源”模块打开选中的数据源(权限设置部分可参考 认证授权)。

打开数据集
用户在数据集列表区域,右键或单击更多图标选择打开数据集选项来打开选中的数据集。

创建数据集
用户在数据集列表区域,选中数据源文件夹下的数据源,右键或单击更多图标选择【创建数据集】选项来新建数据集。

重命名
对已存在的数据集、数据源或文件夹进行重命名。用户首先选中需要重命名的数据集或文件夹,然后右键选择【重命名】选项即可。

新建文件夹
用户在数据集列表区域右键选择【新建文件夹】选项来创建文件夹。

复制 & 粘贴
对已存在的数据集或文件夹进行复制。重名时,名字后面自动加后缀“_ 副本 ”。当用户复制文件夹,在此文件夹下面的数据集也一并被复制。

删除
移除列表中用户不需要的数据集或文件夹。当用户移除文件夹后,在此文件夹中的数据集也将一并被移除。

刷新
刷新当前的数据集列表。

新建报告
当用户有“制作报告”模块的权限时,选中数据集或数据源下的表、视图,右键菜单会有新建报告。单击后能够在制作报告模块打开新建页面,绑定的资源树上显示选择的数据集、表或视图(权限设置部分可参考 认证授权)。

预览数据集
当鼠标悬停在数据集列表的某一列时,会在该列的右边显示【预览数据集】,如下图所示:

当鼠标移动到【预览数据集】时,按钮的底部显示灰色的边框,并显示 tooltip:预览数据集,如下图所示:

单击【预览数据集】,可预览选中的数据集,预览对话框如下图所示:

【预览行数】预览数据集时所显示的行数。默认为1000行。预览行数可以修改,修改后,单击【运行】,则可按照用户设置的预览行数进行显示。
【显示总行数】单击后,会在此按钮的后面显示出所预览数据集的总行数。如下图所示:

倘若用户设定了弹出参数,则在预览对话框中存在参数项,用户可根据需求来设定参数值。

据集编辑区

不同类型的数据集,数据集编辑区界面各不相同。各类数据集的详细介绍见下文。

数据区

数据区提供了数据的查看、治理、过滤等功能。
数据区包括预览数据,预览数据又分元数据和细节数据。
在元数据区可显示用户需要进行统计的所有数据段名称,用户还可自定义数据段等。
数据区如下图所示:

名称
在名称列数据段被分为两组,一组是作为维度,一组是作为度量。默认字符、字符串、布尔、时间、日期、时间戳类型的数据段被划分到维度目录下。其余的类型数据段被划分到度量目录下。对于用户自定义的数据段:日期型层次、日期型列、数据范围、分析算法、自循环列默认存放在维度目录下,其他类型的数据段根据数据类型划分。

别名
用户可给数据段设置别名,在编辑器中显示的是该数据段的别名。

数据类型
用户可以在部分数据集(如 Excel 数据集等)中修改相应数据段的数据类型。

可见性
可见,用于设置数据集中列的可见性。详请参见 数据治理-列控制权限

列过滤器
列过滤器,用于设置对某一用户、角色、组的过滤。详请参见 数据治理-列控制权限

显示总行数
单击【显示总行数】,会在此按钮的后面显示出所预览数据集的总行数。如下图所示:

SQL 数据集界面

在打开的界面中,用户选择已保存的数据源,通过“选择表或视图”或者“自定义 SQL 语句”来编辑 SQL 数据集。

【数据源】用户可以从已有的数据源列表中选择已经创建好的数据源。
【编辑数据源】当选择数据源后,单击此图标能够快速的进入添加数据源模块并且打开当前选中的数据源。
【选择表或视图】【自定义 SQL 语句】用户根据需要决定是直接使用数据库下的表或视图,还是使用自己编写 SQL 语句。
【表】当用户单击刷新按钮后,在列表中列出了当前数据库中存在的所有表。右键刷新后可以对数据源中表、视图、存储过程进行搜索。详细用法见简介中数据源搜索部分。倘若是使用腾讯云商业智能分析 BI 提供的驱动和数据库,则在此列表中列出了所有的数据集。
【SQL 语句】用户输入脚本语句,实现对数据库中数据的数据集。
在使用腾讯云商业智能分析 BI 产品提供的驱动及数据库时,在编写 SQL 语句时需要遵循本产品的 SQL 语句法则。

  • 引用的数据集存在子级时需要添加双引号,如 select Sales from "cloud/test.clqry",不存在子级时则不需要添加双引号,如 select Sales from test.clqry
  • 引用关键字时需要加引号。如数据集 a.clqry 中存在 Date 字段,由于 Date 字段是数据库中的关键字,则需要被双引号引起来, 如select "Date" from test.clqry
  • 赋值类型为字符串类型时,需要用单引号引起来而不是双引号。如select Nation from test.clqry where Nation='China'

【SQL 适配】默认保留勾选,执行数据集查询时将会对 SQL 进行封装,取消勾选 SQL 适配后,数据集的后续操作将不会在数据库内执行。

取消 SQL 适配时,元数据列中原影响性能的橙色标识列将变为黑色,数据集将会放入后期处理,作用于当前数据集,调用此数据集的对象也受其影响。
【刷新元数据】用户单击此按钮时,所有数据段将在元数据区域显示。在表达式、过滤器等位置引用的列如果发生变化,刷新元数据时会提示“数据集的列如果发生变化可能会导致表达式列、层次或行过滤器不可用,是否清空表达式列、层次和行过滤器?”,否则不会提示。本产品默认字符类型、字符串类型、字节类型、布尔类型、日期类型、时间类型、时间戳类型的数据段存放在维度目录下,其他类型数据段存放在度量目录下。

Excel 数据集界面

上传 Excel


【上传】单击上传,弹出对话框,可选择所要上传的文件。
【上传文件】指所上传文件的名称。
【工作表】工作表中列出的是 Excel 中所有 Sheet 表的名称,默认选中第一个 Sheet 表。Sheet 表可以根据需求单选或多选。多选时,会按照第一个 Sheet 表的列数和列的数据类型进行匹配。当第一个后面的 Sheet 表列数与第一个 Sheet 表列数不匹配时,不能上传。

当第一个后面的 Sheet 表列数与第一个 Sheet 表列数据类型不匹配时,会按照第一个 sheet 表的数据类型显示。
【加载方式】选择加载数据的方式,直接使用文件中的数据或将文件的列数据转换为行数据。
【起始行】读取数据开始的行数,默认是1。
【表头】分为自动,第一行,无。自动:表示系统自动判断表头行;第一行:表示将每个 Sheet 表的第一行作为表头行;无:表示各 Sheet 表都没有表头行,Sheet 表中内容都按照数据来处理。
【生成逆透视表】将拥有行表头和列表头的交叉类型的表格生成正常的只有行表头的表格。
【行表头层级】所上传表格的行表头数。
【列表头层级】所上传表格的列表头数。
【删除无效行】默认上传 excel 时是不删除数据的。如果勾选了删除无效行,系统会自动删除不合理的数据行,例如:数据行中的某一行10个数据中有9个数据为空,则系统会自动删除这一行。
【刷新元数据】单击刷新元数据,则上传文件的数据被刷新出来,再单击预览数据集即可预览。

生成逆透视表举例

假设存在一个交叉类型的 Excel 表格,其中行表头数为1,列表头数为2,具体数据如下:

上传:勾选生成逆透视表,并设置行表头层级为:1,列表头层级为:2:

刷新元数据:对表格中的数据进行处理,即:1个行表头数据,2个列表头数据和数据都作为一列,数据按照从上到下,从左到右并与行列表头数据对应的顺序列出。预览数据集时的数据为:

上传 CSV


【编码类型】当选择上传的文件后,系统会自动加载对应的编码类型,也可以根据需求自定义。
【分隔符】系统会自动检测分隔符。用户也可以通过下拉框,选择分隔符。可选的分隔符类型包括:逗号、分号、竖线、制表符、空格、自定义。选择自定义时,用户可自己输入所需的分隔符。
其余功能与上传 Excel 相同,请参考 上传 Excel 界面

说明:

上传 TXT、LOG 的上传界面与 CSV 上传界面相同。

Mongo 数据集界面

在打开的界面中,用户可从已有的数据源中选择 Mongo 数据源,编辑使用管道操作语句。

【数据源】用户从已有的数据源列表中选择已经创建好的 Mongo 数据源。
【集合】可以在此输入集合(Collection)名称,此列表中列出了默认数据库下的所有集合。展开后可以对数据库下的集合进行搜索。详细用法可参考简介中数据源搜索部分。
【管道操作语句】用户输入管道操作(Pileline)语句,实现对数据库中数据的数据集。

在选择集合名称之后,单击刷新元数据,既可以按列以 Table 的形式显示集合中的所有数据。也可以输入管道操作语句,产品可以解析“{}”括起来的所有正确的管道操作语句,多个管道操作语句之间用逗号分隔。
示例:

{ $project : { market:{$toUpper:"$market"} , sales:1, _id:0 } },
{ $sort : { market : 1, sales: 1} }
目录