_数据库其它_数据库_IT 经验这篇文章主要给大家介绍了关于Spark SQL操作JSON字段的小 ,文中通过示例代码介绍的非常详细,对大家学习或者使用spark sql具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧。" />
这篇文章主要给大家介绍了关于Spark SQL操作JSON字段的小 ,文中通过示例代码介绍的非常详细,对大家学习或者使用spark sql具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧。

前言

介绍Spark SQL的JSON支持,这是我们在Databricks中开发的一个功能,可以在Spark中更容易查询和创建JSON数据。随着网络和移动应用程序的普及,JSON已经成为Web服务API以及长期存储的常用的交换格式。使用现有的工具,用户通常会使用复杂的管道来在分析系统中读取和写入JSON数据集。在Apache Spark 1.1中发布Spark SQL的JSON支持,在Apache Spark 1.2中增强,极大地简化了使用JSON数据的端到端体验。

很多时候,比如用structure streaming消费kafka数据,默认可能是得到key,value字段,key是偏移量,value是一个byte数组。很可能value其实是一个Json字符串。这个时候我们该如何用SQL操作这个json里的东西呢?另外,如果我处理完的数据,我想写入到kafka,但是我想把整条记录作为json格式写入到Kafka,又该怎么写这个SQL呢?

get_json_object

第一个就是get_json_object,具体用法如下:

select get_json_object('{"k": "foo", "v": 1.0}','$.k') as k

需要给定get_json_object 一个json字段名(或者字符串),然后通过类似jsonPath的方式去拿具体的值。
这个方法其实有点麻烦,如果要提取里面的是个字段,我就要写是个类似的东西,很复杂。

from_json

具体用法如下:

select a.k from (
select from_json('{"k": "foo", "v": 1.0}','k STRING, v STRING',map("","")) as a
)

这个方法可以给json定义一个Schema,这样在使用时,就可以直接使用a.k这种方式了,会简化很多。

to_json

该方法可以把对应字段转化为json字符串,比如:

select to_json(struct(*)) AS value

可以把所有字段转化为json字符串,然后表示成value字段,接着你就可以把value字段写入Kafka了。是不是很简单。

处理具有大量字段的JSON数据集

JSON数据通常是半结构化、非固定结构的。将来,我们将扩展Spark SQL对JSON支持,以处理数据集中的每个对象可能具有相当不同的结构的情况。例如,考虑使用JSON字段来保存表示HTTP标头的键/值对的数据集。每个记录可能会引入新的标题类型,并为每个记录使用一个不同的列将产生一个非常宽的模式。我们计划支持自动检测这种情况,而是使用map类型。因此,每行可以包含Map,使得能够查询其键/值对。这样,Spark SQL将处理具有更少结构的JSON数据集,推动了基于SQL的系统可以处理的那种查询的边界。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对爱安网的支持。

最新资讯
中国电信4G用户数达2.66亿户 占比达到82%

中国电信4G用户数达2.

中国电信移动用户数达到3.23亿户,比去年底净增2048万户
真别怀疑了,“新消费”滔天巨浪来啦!

真别怀疑了,“新消费”

“每一种消费品,看来都值得重新做一遍了。”
传瑞幸或拆分小鹿茶为子公司 官方不予置评

传瑞幸或拆分小鹿茶为

对于小鹿茶的合伙人模式和拆分计划,瑞幸咖啡官方不予置
特斯拉Autopilot软件负责人离职

特斯拉Autopilot软件

据外媒报道,在特斯拉对其自动驾驶团队进行重组后,该公司
中国电信上半年净利润139.09亿元 同比上升2.5%

中国电信上半年净利润

财报显示,上半年中国电信经营收入达到人民币1904.88亿
传中国区iPhone 11将全线支持双卡双待

传中国区iPhone 11将

新一代iPhone发布在即,对台湾产业链比较了解的DigiTime
最新文章
一篇文章带你了解数据库中JOIN的用法

一篇文章带你了解数据

这篇文章主要给大家介绍了关于数据库中JOIN的用法,文中
SQL语句优化的一些必会指南

SQL语句优化的一些必

这篇文章主要给大家介绍了关于SQL语句优化的相关资料,
SQL行转列、列转行的简单实现

SQL行转列、列转行的

这篇文章主要给大家介绍了关于SQL行转列、列转行的简
建立在Tablestore的Wifi设备监管系统架构实现

建立在Tablestore的Wi

一般大公司会有许多园区,园区内会有不同部门的同事在一
你真的知道怎么优化SQL吗

你真的知道怎么优化SQ

这篇文章主要给大家介绍了关于优化SQL的相关资料,文中
如何让Birt报表脚本数据源变得既简单又强大

如何让Birt报表脚本数

这篇文章主要介绍了如何让Birt报表脚本数据源变得既简