题目内容（请给出正确答案）

[多选题]

在大数据计算服务SQL中使用distributeby和sortby可以对数据进行局部排序，以下对distributeby、sortby的用法描述正确的有:（)。

A.数据会按照distributeby指定的列进行分片，hash值相同的数据会在一个分片中

B.使用sortby子句时，必须有distributeby子句

C.sortby和orderby的用法没有区别

D.在一个分片中，数据会按照sortby指定的列进行局部排序

查看答案

如果结果不匹配，请联系老师获取答案

您可能会需要：

重置密码查看订单联系客服

安装优题宝APP，拍照搜题省时又省心！

更多“在大数据计算服务SQL中使用distributeby和sor…”相关的问题

第1题

某企业的数据仓库运行在大数据计算服务上，开发人员在加工数据时发现用户表user中的用户标识字段user_id有部分脏数据，正确的格式应该是8位的字符串。可以使用SQL语句()将脏数据过滤出来。

A.select*fromuserwherelength(userid)＜＞8

B.select*fromuserwherelength(userid) ＞8

C.select*fromuserwherelength(userid)＜8

D.select*fromuserwherelength(userid)＜＞8oruseridisnull

点击查看答案

第2题

大数据计算服务(MaxCompute，原ODPS)中，在做web日志分析时如果发现日志内容(对应字段log_content)中有’select’字符串，则有可能是恶意的sql注入攻击，可以使用()从日志表log中找出所有符合这种特征的访问。

A.select*fromlogwheretolower(log_content)like‘%select%’

B.select*fromlogwhereinstr(tolower(log_content),’select’)＞0

C.select*fromlogwhere‘select’intolower(log_content)

D.select*fromlogwhereregexp_instr(tolower(log_content),’select’,1)＞0

点击查看答案

第3题

正则表达式可以用非常灵活的方式来处理字符串，在大数据计算服务SQL中的正则函数支持POSIX格式，以下对正则表达式描述正确的有:（)。

A.[[:blank::]]匹配空格和TAB制表符

B.$匹配行尾

C.[[：alnum:]]匹配字母字符和数字字符

D.[[:digint:]]匹配数字字符

点击查看答案

第4题

卷某BI系统构建在大数据计算服务上，某数据分析员在分析订单的地域分布时，需要把订单表order（

卷某BI系统构建在大数据计算服务上，某数据分析员在分析订单的地域分布时，需要把订单表order(占用存储空间约10G)与地狱维表region(占用存储空间100M)关联起来，两张表的结构如下：createtableorder(order_idstring，region_idstring，orderamtbigint);createtableregion(region_idstring，region_namestring)在运行时发现由于订单大量集中在上海地区，数据的倾斜导致整体运行时间较长，运行的SQL语句如下：selectregion_name，sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id;此时可以考虑通过()优化SQL的运行效率。

A.使用mapjoinhint：select/*+mapjoin(t2)*/region_name，sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id;

B.使用mapjoinhint：select/*+mapjoin(t1)*/region_name，sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id

C.调整两张表的位置：selectregion_name，sum(order_amt)amtfromregiont1joint2ont1.region_id=t2.region_id

D.减小SQL的splitsize，增加计算资源

点击查看答案

第5题

用大数据计算服务构建海量的数据仓库时，分区表是一种很常见的做法，对于分区表的描述正确的有:（)。

A.支持hash分区、范围分区、列表分区及组合分区

B.在通过SQL读取分区表中的数据时，可以通过指定分区的方法只读取一部分分组，减少IO开销

C.可以单独处理指定分区中的数据，不会对其他分区数据产生影响

D.对于过期的数据可以将对应的分区drop掉，不会影响其他分区中的数据

点击查看答案

第6题

在开发大数据计算服务的MapReduce时，可以使用JobClient类中的接口提交MapReduce作业。目前提交方式支持（) 。

A.远程提交

B.本地提交

C.阻塞方式

D.非阻塞方式

点击查看答案

第7题

在大数据计算服务(MaxCompute，原ODPS)中，使用MapReduce开发一个分词程序，即输入为保存在表中的多篇文章(每篇文章一行纪录)，参考一个字典文件(该文件会经常更新)进行分词。简而言之，在执行该程序的时候，既需要输入待分词的文章(已经保存在表中了)，又需要输入字典(为经常变动的本地文件)，以下最合理的解决方案为：()。

A.将这个字典与源代码一起进行打包，直接执行即可

B.每次都将字典文件作为资源上传到大数据计算服务上，然后MR中通过资源的方式来访问

C.将字典打包jar包，使用jar命令执行MR程序时，通过resources参数指定该jar包

D.将字典文件保存在本地，在MR中通过访问本地最新的字典文件实现

点击查看答案

第8题

大数据计算服务（MaxCompute，原ODPS)中，使用CREATETABLELIKE语句创建新表时，原表的（)属性会被复制到新表上。

A.列注释

B.分区

C.表的生命周期属性

D.表注释

点击查看答案