Spark-sql读取hive分区表限制分区过滤条件及限制分区数量

如题所述

第1个回答 2022-06-20

在开发过程中使用spark去读取hive分区表的过程中（或者使用hive on spark、nodepad开发工具），部分开发人员未注意添加分区属性过滤导致在执行过程中加载了全量数据，引起任务执行效率低、磁盘IO大量损耗等问题

1、自定义规则CheckPartitionTable类，实现Rule

然后通过此种方法创建SparkSession
2、自定义规则CheckPartitionTable类，实现Rule，将规则类追加致Optimizer.batches: Seq[Batch]中

1、CheckPartitionTable规则执行类，需要通过引入sparkSession从而获取到引入conf；需要继承Rule[LogicalPlan]；

2、通过splitPredicates方法，分离分区谓词，得到分区谓词表达式
在sql解析过程中将谓词解析为TreeNode，此处采用递归的方式获取分区谓词

3、判断是否是分区表，且是否添加分区字段

4、实现Rule的apply方法

关于spark-sql的主要执行流程及预备知识，可参照我同学的这篇博文 https://www.jianshu.com/p/4cc6797fb9ce

相似回答

Spark读取HDFS数据分区参考答：如果设置为 true ，会使用 org.apache.spark.sql.execution.FileSourceScanExec ，否则会使用 org.apache.spark.sql.hive.execution.HiveTableScanExec。前者对分区规则做了一些优化，如果文件是：HiveTableScanExec 通过文件数量，大小进行分区。例如：读入一份 2048M 大小的数据，hdfs 块大小设置为 128M...

sparksql动态分区数超上限报错答：SET hive.exec.max.dynamic.partitions=500000;(如果自动分区数大于这个参数，将会报错)注：这个属性表示一个DML操作可以创建的最大动态分区数，默认是1000 SET hive.exec.max.dynamic.partitions.pernode=500000;注：这个属性表示每个节点生成动态分区的最大个数，默认是100 SET hive.exec.max.created.fil...

Hive分区过多有何坏处以及分区时的注意事项答：1.当分区过多且数据很大时，可以使用严格模式，避免出发一个大的mapreduce任务。当分区数量过多且数据量较大时，执行宽范围的数据扫描会触发一个很大的mapreduce任务。在严格模式下，当where中没有分区过滤条件时会禁止执行。2.hive如果有过多的分区，由于底层是存储在HDFS上，HDFS上只用于存储大文件而...

sparksql参数设为永久生效答：当我们在Spark SQL中设置参数时，默认情况下，参数的作用范围只限于当前SparkSession或SparkContext的生命周期。一旦SparkSession或SparkContext关闭，参数的取值也会被重置为默认值。这在某些情况下可能会导致问题，特别是当我们需要在整个应用程序执行过程中保持一致的参数设置时。为了解决这个问题，我们可以将...

sparksql支持按条件删除分区么答：sparksql支持按条件删除分区。使用spark-sql，或者spark-beeline等方式执行会报错，应该是sparksql不支持按条件删除。

sparksql怎么批量删除分区答：用beeline的方式。可以执行成功有beeline的方式，即hive原生hivesql能按条件删除；而使用spark-sql，或spark-beeline等方式执行会报错。

Hive优化:严格模式答：set hive.mapred.mode=strict;（1）对于分区表，除非where语句中含有分区字段过滤条件来限制范围，否则不允许执行 --设置严格模式下执行sql语句报错；非严格模式下的可以的 select * from order_partition;异常信息：Error :Error while compliling statement:FAILED:SemanticException [Error 10041]:No ...

spark sql 如何分区控制最后输出文件数量答：spark sql 如何分区控制最后输出文件数量因为Spark内部写文件方式其实调用的都是Hadoop的函数，所以我们也可以通过Spark实现多文件输出。Spark内部没有多文件输出的函数供大家直接调用，我们自己实现这个功能也是很简单的。我们可以通过调用saveAsHadoopFile函数并自定义一个OutputFormat类即可 ...

求问怎么设置sparksql读取hive的数据库答：求问怎么设置sparksql读取hive的数据库使用maven进行打包：打包命令：mvn -Pyarn -Dhadoop.version=2.3.0-cdh5.0.0 -Phive -Phive-thriftserver -DskipTests clean package

大家正在搜

hive分区表insert数据 hive向分区表中insert hive分区表load数据 hive查询分区表数据 hive sparksql hivesql和sql的区别 hive分区表 hive外部分区表 hive建分区表