首页 > 建筑规划> 注册建筑师
题目内容 (请给出正确答案)
[多选题]

在大数据计算服务SQL中使用distributeby和sortby可以对数据进行局部排序,以下对distributeby、sortby的用法描述正确的有:()。

A.数据会按照distributeby指定的列进行分片,hash值相同的数据会在一个分片中

B.使用sortby子句时,必须有distributeby子句

C.sortby和orderby的用法没有区别

D.在一个分片中,数据会按照sortby指定的列进行局部排序

查看答案
答案
收藏
如果结果不匹配,请 联系老师 获取答案
您可能会需要:
您的账号:,可能还需要:
您的账号:
发送账号密码至手机
发送
安装优题宝APP,拍照搜题省时又省心!
更多“在大数据计算服务SQL中使用distributeby和sor…”相关的问题
第1题
某企业的数据仓库运行在大数据计算服务上,开发人员在加工数据时发现用户表user中的用户标识字段user_id有部分脏数据,正确的格式应该是8位的字符串。可以使用SQL语句()将脏数据过滤出来。

A.select*fromuserwherelength(userid)< >8

B.select*fromuserwherelength(userid) >8

C.select*fromuserwherelength(userid)<8

D.select*fromuserwherelength(userid)< >8oruseridisnull

点击查看答案
第2题
大数据计算服务(MaxCompute,原ODPS)中,在做web日志分析时如果发现日志内容(对应字段log_content)中有’select’字符串,则有可能是恶意的sql注入攻击,可以使用()从日志表log中找出所有符合这种特征的访问。

A.select*fromlogwheretolower(log_content)like‘%select%’

B.select*fromlogwhereinstr(tolower(log_content),’select’)>0

C.select*fromlogwhere‘select’intolower(log_content)

D.select*fromlogwhereregexp_instr(tolower(log_content),’select’,1)>0

点击查看答案
第3题
正则表达式可以用非常灵活的方式来处理字符串,在大数据计算服务SQL中的正则函数支持POSIX格式,以下对正则表达式描述正确的有:()。

A.[[:blank::]]匹配空格和TAB制表符

B.$匹配行尾

C.[[:alnum:]]匹配字母字符和数字字符

D.[[:digint:]]匹配数字字符

点击查看答案
第4题
卷某BI系统构建在大数据计算服务上,某数据分析员在分析订单的地域分布时,需要把订单表order(
卷某BI系统构建在大数据计算服务上,某数据分析员在分析订单的地域分布时,需要把订单表order(占用存储空间约10G)与地狱维表region(占用存储空间100M)关联起来,两张表的结构如下:createtableorder(order_idstring,region_idstring,orderamtbigint);createtableregion(region_idstring,region_namestring)在运行时发现由于订单大量集中在上海地区,数据的倾斜导致整体运行时间较长,运行的SQL语句如下:selectregion_name,sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id;此时可以考虑通过()优化SQL的运行效率。

A.使用mapjoinhint:select/*+mapjoin(t2)*/region_name,sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id;

B.使用mapjoinhint:select/*+mapjoin(t1)*/region_name,sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id

C.调整两张表的位置:selectregion_name,sum(order_amt)amtfromregiont1joint2ont1.region_id=t2.region_id

D.减小SQL的splitsize,增加计算资源

点击查看答案
第5题
用大数据计算服务构建海量的数据仓库时,分区表是一种很常见的做法,对于分区表的描述正确的有:()。

A.支持hash分区、范围分区、列表分区及组合分区

B.在通过SQL读取分区表中的数据时,可以通过指定分区的方法只读取一部分分组,减少IO开销

C.可以单独处理指定分区中的数据,不会对其他分区数据产生影响

D.对于过期的数据可以将对应的分区drop掉,不会影响其他分区中的数据

点击查看答案
第6题
在开发大数据计算服务的MapReduce时,可以使用JobClient类中的接口提交MapReduce作业。目前提交方式支持() 。

A.远程提交

B.本地提交

C.阻塞方式

D.非阻塞方式

点击查看答案
第7题
在大数据计算服务(MaxCompute,原ODPS)中,使用MapReduce开发一个分词程序,即输入为保存在表中的多篇文章(每篇文章一行纪录),参考一个字典文件(该文件会经常更新)进行分词。简而言之,在执行该程序的时候,既需要输入待分词的文章(已经保存在表中了),又需要输入字典(为经常变动的本地文件),以下最合理的解决方案为:()。

A.将这个字典与源代码一起进行打包,直接执行即可

B.每次都将字典文件作为资源上传到大数据计算服务上,然后MR中通过资源的方式来访问

C.将字典打包jar包,使用jar命令执行MR程序时,通过resources参数指定该jar包

D.将字典文件保存在本地,在MR中通过访问本地最新的字典文件实现

点击查看答案
第8题
大数据计算服务(MaxCompute,原ODPS)中,使用CREATETABLELIKE语句创建新表时,原表的()属性会被复制到新表上。

A.列注释

B.分区

C.表的生命周期属性

D.表注释

点击查看答案
第9题
资源(Resource)是大数据计算服务(MaxCompute,原ODPS)的特有概念。用户如果想使用MaxCompute的M
资源(Resource)是大数据计算服务(MaxCompute,原ODPS)的特有概念。用户如果想使用MaxCompute的M

apReduce或自定义函数(UDF)功能,需要依赖资源来完成。Dataworks中,可以通过数据开发面板的资源管理上传资源,目前支持的资源类型有:()。

A、jar、file、archive

B、jar、file、python

C、jar、archive、python

D、file、archive、python

点击查看答案
第10题
在充分理解项目的需求后,分析师小王和项目主管讨论后,决定使用阿里云大数据计算服务MaxCompute进行数据清洗之后再用统计模型,这样可以解决统计模型对脏数据比较敏感的问题。在数据项目的执行流程中,上述工作最有可能属于()阶段。

A.项目设计:对承担的任务设计具体实施的方法

B.项目组通气会:对项目的整体情况作介绍,收集信息

C.项目计划:制定项目优先级,确定项目的范围和目标

D.项目阶段里程碑:项目中的重大事件,一个可交付成果的完成

点击查看答案
退出 登录/注册
发送账号至手机
密码将被重置
获取验证码
发送
温馨提示
该问题答案仅针对搜题卡用户开放,请点击购买搜题卡。
马上购买搜题卡
我已购买搜题卡, 登录账号 继续查看答案
重置密码
确认修改