在大数据计算服务SQL中使用distributeby和sortby可以对数据进行局部排序,以下对distributeby、sortby的用法描述正确的有:()。
A.数据会按照distributeby指定的列进行分片,hash值相同的数据会在一个分片中
B.使用sortby子句时,必须有distributeby子句
C.sortby和orderby的用法没有区别
D.在一个分片中,数据会按照sortby指定的列进行局部排序
A.数据会按照distributeby指定的列进行分片,hash值相同的数据会在一个分片中
B.使用sortby子句时,必须有distributeby子句
C.sortby和orderby的用法没有区别
D.在一个分片中,数据会按照sortby指定的列进行局部排序
A.select*fromuserwherelength(userid)< >8
B.select*fromuserwherelength(userid) >8
C.select*fromuserwherelength(userid)<8
D.select*fromuserwherelength(userid)< >8oruseridisnull
A.select*fromlogwheretolower(log_content)like‘%select%’
B.select*fromlogwhereinstr(tolower(log_content),’select’)>0
C.select*fromlogwhere‘select’intolower(log_content)
D.select*fromlogwhereregexp_instr(tolower(log_content),’select’,1)>0
A.[[:blank::]]匹配空格和TAB制表符
B.$匹配行尾
C.[[:alnum:]]匹配字母字符和数字字符
D.[[:digint:]]匹配数字字符
A.使用mapjoinhint:select/*+mapjoin(t2)*/region_name,sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id;
B.使用mapjoinhint:select/*+mapjoin(t1)*/region_name,sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id
C.调整两张表的位置:selectregion_name,sum(order_amt)amtfromregiont1joint2ont1.region_id=t2.region_id
D.减小SQL的splitsize,增加计算资源
A.支持hash分区、范围分区、列表分区及组合分区
B.在通过SQL读取分区表中的数据时,可以通过指定分区的方法只读取一部分分组,减少IO开销
C.可以单独处理指定分区中的数据,不会对其他分区数据产生影响
D.对于过期的数据可以将对应的分区drop掉,不会影响其他分区中的数据
A.远程提交
B.本地提交
C.阻塞方式
D.非阻塞方式
A.将这个字典与源代码一起进行打包,直接执行即可
B.每次都将字典文件作为资源上传到大数据计算服务上,然后MR中通过资源的方式来访问
C.将字典打包jar包,使用jar命令执行MR程序时,通过resources参数指定该jar包
D.将字典文件保存在本地,在MR中通过访问本地最新的字典文件实现
A.列注释
B.分区
C.表的生命周期属性
D.表注释
apReduce或自定义函数(UDF)功能,需要依赖资源来完成。Dataworks中,可以通过数据开发面板的资源管理上传资源,目前支持的资源类型有:()。
A、jar、file、archive
B、jar、file、python
C、jar、archive、python
D、file、archive、python
A.项目设计:对承担的任务设计具体实施的方法
B.项目组通气会:对项目的整体情况作介绍,收集信息
C.项目计划:制定项目优先级,确定项目的范围和目标
D.项目阶段里程碑:项目中的重大事件,一个可交付成果的完成