读取JSON文件

在Spark SQL中,要读取JSON文件可以使用SparkSession的read方法以及相应的格式参数。下面是读取JSON文件的步骤:

  1. 创建SparkSession对象
  2. 
    import org.apache.spark.sql.SparkSession
    
    val spark = SparkSession.builder()
                .appName("JSON Read")
                .getOrCreate()
    
    
  3. 使用SparkSession的read方法读取JSON文件
  4. 
    val jsonDF = spark.read.json("path/to/json/file.json")
    
    
  5. 对读取的数据进行处理
  6. 
    jsonDF.show()  // 展示数据
    jsonDF.printSchema()  // 打印数据结构
    
    

参数说明

read.json方法的参数是JSON文件的路径,可以是本地文件系统上的路径或Hadoop支持的路径。在读取JSON文件时,Spark会自动推断JSON文件的结构,并将其解析成DataFrame。读取后的DataFrame可以通过show方法展示数据,也可以使用printSchema方法打印数据结构。

应用示例

假设我们有一个JSON文件,内容如下:


{
  "name": "张三",
  "age": 25,
  "gender": "男"
}

我们可以使用上述的方法读取该文件,并对数据进行处理:


val jsonDF = spark.read.json("path/to/json/file.json")
jsonDF.show()
jsonDF.printSchema()

运行上述代码后,我们将获得一个包含该JSON数据的DataFrame,并展示数据和数据结构。