SparkSQL基础知识都有哪些

这篇文章给大家介绍SparkSQL基础知识都有哪些，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

创新互联建站服务项目包括杜集网站建设、杜集网站制作、杜集网页制作以及杜集网络营销策划等。多年来，我们专注于互联网行业，利用自身积累的技术优势、行业经验、深度合作伙伴关系等，向广大中小型企业、政府机构等提供互联网行业的解决方案，杜集网站推广取得了明显的社会效益与经济效益。目前，我们服务的客户以成都为中心已经辐射到杜集省份的部分城市，未来相信会继续扩大服务区域并继续获得客户的支持与信任！

一.SparkSQL架构

1.架构

SparkSQL基础知识都有哪些

2.解释

一个sql 过来 解析成unresolved，只拿出来字段名和表名
但是不知道字段名和表名在哪个位置
需要通过Schema 确定表的位置等信息，
生成逻辑执行计划，Logical,知道数据从哪里来了
通过一些列优化过滤生成物理执行计划Physical
最后把物理执行计划放到spark集群上运行

3.样例

SparkSQL基础知识都有哪些

二.SparkSQL的几点误区

Spark SQL就是写SQL,这是错误的观点
Spark SQL不是SQL,超出SQL,因为SQL是其一部分
Spark SQL 是处理结构化数据的，只是Spark中的一个模块
Spark SQL 与 Hive on Spark  不是一个东西
Spark SQL 是spark里面的
Hive on Spark 的功能是比Spark SQL多的
Hive on Spark 稳定性不是很好

三.SQL的几个几点注意

1.SQL注意

关系数据库集群成本很高，还是有限的
SQL : schema + file
使用sql的前提就是有schema ，作用到文件上去
hive是进程的
hive2.0 默认引擎是Tez
Hive on Spark 就是把hive执行引擎改成spark

2.执行引擎

mr
spark
Tez

3.SparkSQL的JOIN

spark sql 可以跨数据源进行join，例如hdfs与MySQL里表内容join
Spark SQL运行可以不用hive，只要你连接到hive的metastore就可以

3.hive底层的hiveserver2协议走的是thrift

hiveserver2开启可以用JDBC或者ODBC直接连接

SparkSQL基础知识都有哪些

四.连接Hive的几种方式

1.三种方式

spark-sql 与 spark-shell  ，thriftserver
thriftserver对应hive里面的hiveserver2

2.thriftserver连接方式

./beeline -u jdbc:hive2://localhost:10000 -n root

SparkSQL基础知识都有哪些

3.thriftserver和spark-sql,spark-shell 的区别在哪？

spark-shell、spark-sql 都是是一个独立的 spark application，
启动几个就要几个application，非常耗资源
用thriftserver，无论启动多少个客户端（beeline）连接在一个thriftserver，
是一个独立的spark application，
后面不用在重新申请资源。前一个beeline缓存的，下一个beeline也可以用
用thriftserver，可在ui看执行计划，优化有优势

4.注意情况

这个要起来，要不spark-shell， spark-sql，连接不上，这个跟hive一样

SparkSQL基础知识都有哪些

5.可能出错

spark-shell --master local[2] --jars /soft/hive/lib/mysql-connector-java-8.0.12.jar 这样启动不起来
你可以试试把mysql-connector-java-8.0.12.jar 放到spark的jars里

SparkSQL基础知识都有哪些

6.解决

SparkSQL基础知识都有哪些

关于SparkSQL基础知识都有哪些就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

当前名称：SparkSQL基础知识都有哪些
网页链接：http://bjjierui.cn/article/jsppei.html

定制建站费用3500元

品牌网站建设费用6000元

商城网站建设费用8000元

手机微信网站建站3000元

建站知识

SparkSQL基础知识都有哪些

一.SparkSQL架构

1.架构

2.解释

3.样例

二.SparkSQL的几点误区

三.SQL的几个几点注意

1.SQL注意

2.执行引擎

3.SparkSQL的JOIN

3.hive底层的hiveserver2协议走的是thrift

四.连接Hive的几种方式

1.三种方式

2.thriftserver连接方式

3.thriftserver和spark-sql,spark-shell 的区别在哪？

4.注意情况

5.可能出错

6.解决

其他资讯