创建DataFrame的几种方式 - 博客

[{"createTime":1735734952000,"id":1,"img":"hwy_ms_500_252.jpeg","link":"https://activity.huaweicloud.com/cps.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=V1g3MDY4NTY=&utm_medium=cps&utm_campaign=201905","name":"华为云秒杀","status":9,"txt":"华为云38元秒杀","type":1,"updateTime":1735747411000,"userId":3},{"createTime":1736173885000,"id":2,"img":"txy_480_300.png","link":"https://cloud.tencent.com/act/cps/redirect?redirect=1077&cps_key=edb15096bfff75effaaa8c8bb66138bd&from=console","name":"腾讯云秒杀","status":9,"txt":"腾讯云限量秒杀","type":1,"updateTime":1736173885000,"userId":3},{"createTime":1736177492000,"id":3,"img":"aly_251_140.png","link":"https://www.aliyun.com/minisite/goods?userCode=pwp8kmv3","memo":"","name":"阿里云","status":9,"txt":"阿里云2折起","type":1,"updateTime":1736177492000,"userId":3},{"createTime":1735660800000,"id":4,"img":"vultr_560_300.png","link":"https://www.vultr.com/?ref=9603742-8H","name":"Vultr","status":9,"txt":"Vultr送$100","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":5,"img":"jdy_663_320.jpg","link":"https://3.cn/2ay1-e5t","name":"京东云","status":9,"txt":"京东云特惠专区","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":6,"img":"new_ads.png","link":"https://www.iodraw.com/ads","name":"发布广告","status":9,"txt":"发布广告","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":7,"img":"yun_910_50.png","link":"https://activity.huaweicloud.com/discount_area_v5/index.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=aXhpYW95YW5nOA===&utm_medium=cps&utm_campaign=201905","name":"底部","status":9,"txt":"高性能云服务器2折起","type":2,"updateTime":1735660800000,"userId":3}]

<>1、从RDD创建DataFrame

<>（1）利用元组创建
object _01_SparkSession { def main(args: Array[String]): Unit = { //1、创建spark
session val spark: SparkSession = SparkSession.builder().master("local[*]").
getOrCreate() //2、依据sc创建rdd val sc: SparkContext = spark.sparkContext val rdd1:
RDD[String] = sc.parallelize(List("tom,18,man", "jack,28,woman"), 2) val rdd2:
RDD[(String, Int, String)] = rdd1.map(line => { val arr = line.split(",") (arr(0
), arr(1).toInt, arr(2)) }) //3、rdd创建dataFrame //导入隐式转换 import spark.implicits._
//val dataFrame: DataFrame = rdd2.toDF() val dataFrame = rdd2.toDF("name","age",
"gender") //打印结构 dataFrame.printSchema() //展示数据集 dataFrame.show() } }
<>（2）利用样例类进行创建
object _02_SparkSession { def main(args: Array[String]): Unit = { //1、创建spark
session val spark: SparkSession = SparkSession.builder().master("local[*]").
getOrCreate() //2、依据sc创建rdd val sc: SparkContext = spark.sparkContext val rdd1:
RDD[String] = sc.parallelize(List("tom,18,man", "jack,28,woman"), 2) val rdd2:
RDD[User] = rdd1.map(line => { val arr = line.split(",") //封装数据到caseClass中 User(
arr(0), arr(1).toInt, arr(2)) }) //3、给rdd创建dataFrame //导入隐式转换 import spark.
implicits._ val dataFrame: DataFrame = rdd2.toDF() //打印结构 dataFrame.printSchema(
) //展示数据集 dataFrame.show() } } //case class中具有get方法 case class User(id:String,
age:Int,gender:String)
<>（3）利用spark.createDataFrame(rowRDD, schema)（常用）
object _03_SparkSession { def main(args: Array[String]): Unit = { //1、创建spark
session val spark: SparkSession = SparkSession.builder().master("local[*]").
getOrCreate() //2、依据sc创建rdd val sc: SparkContext = spark.sparkContext val rdd1:
RDD[String] = sc.parallelize(List("tom,18,man", "jack,28,woman"), 2) //封装数据到Row
val rowRDD: RDD[Row] = rdd1.map(line => { val arr = line.split(",") Row(arr(0),
arr(1).toInt, arr(2)) }) //3、给rowRD关联schema val schema = StructType( List(
StructField("id", DataTypes.StringType), StructField("age", DataTypes.
IntegerType), StructField("gender", DataTypes.StringType) ) ) val dataFrame =
spark.createDataFrame(rowRDD, schema) //打印结构 dataFrame.printSchema() //展示数据集
dataFrame.show() } }
<>（4）利用scala的普通类进行创建
object _04_SparkSession { def main(args: Array[String]): Unit = { //1、创建spark
session val spark: SparkSession = SparkSession.builder().master("local[*]").
getOrCreate() //2、依据sc创建rdd val sc: SparkContext = spark.sparkContext val rdd1:
RDD[String] = sc.parallelize(List("tom,18,man", "jack,28,woman"), 2) val rdd2:
RDD[User_01] = rdd1.map(line => { val arr = line.split(",") new User_01(arr(0),
arr(1).toInt, arr(2)) }) //3、给rdd创建dataFrame val dataFrame = spark.
createDataFrame(rdd2,classOf[User_01]) //打印结构 dataFrame.printSchema() //展示数据集
dataFrame.show() } } //使用普通的类需要添加@BeanProperty注解 class User_01( @BeanProperty
val id:String, @BeanProperty val age:Int, @BeanProperty val gender:String)
<>（5）利用java的类进行创建
object _05_SparkSession { def main(args: Array[String]): Unit = { //1、创建spark
session val spark: SparkSession = SparkSession.builder().master("local[*]").
getOrCreate() //2、依据sc创建rdd val sc: SparkContext = spark.sparkContext val rdd1:
RDD[String] = sc.parallelize(List("tom,18,man", "jack,28,woman"), 2) val rdd2:
RDD[User_03] = rdd1.map(line => { val arr = line.split(",") new User_03(arr(0),
arr(1).toInt,arr(2)) }) //3、给rdd创建dataFrame val dataFrame = spark.
createDataFrame(rdd2,classOf[User_03]) //打印结构 dataFrame.printSchema() //展示数据集
dataFrame.show() } } public class User_03 { private String id; private int age;
private String gender; public User_03(String id, int age, String gender) { this.
id= id; this.age = age; this.gender = gender; } public String getId() { return
id; } public int getAge() { return age; } public String getGender() { return
gender; } }
<>2、从结构化文件创建DataFrame

<>（1）从JSON文件进行创建

json文件中，本身就带有schema信息（名称类型），在创建DataFrame之前，每一行json文件都需要进行读取，效率比较低；
json文件中存储数据的格式比较丰富，但是要额外保存冗余的数据，因此占用的资源比较多。
object _09_ReadJson { def main(args: Array[String]): Unit = { val spark:
SparkSession= SparkSession.builder().master("local[*]").getOrCreate()
//从json文件中读取创建dataFrame val frame = spark.read.json("data/sparksql/person.json")
frame.printSchema() frame.show() spark.stop() } }
<>（2）从csv文件进行创建

csv文件格式紧凑，占用资源小；
但是需要指定表头，如果需要推断数据类型，在创建DataFrame之前需要额外触发Action，需要读文件中全部的数据，因此效率比较低。
object _08_Read_CSV { def main(args: Array[String]): Unit = { val spark =
SparkSession.builder().master("local[*]").getOrCreate() val frame: DataFrame =
spark.read .option("header","true")//第一行当作表头 .option("inferSchema",true)
//读取所有，推断数据类型 .option("sep",",")//指定分隔符 .csv("data/sparksql/shop.txt") frame.
printSchema() spark.stop() } }
<>（3）从Parquet文件进行创建

Parquet文件中有头文件，描述着数据信息，创建DataFrame之前只需要读取头文件；
数据存储紧凑，支持压缩；
支持列式存储，查询更加高效，是更好的数据存储格式。
object _11_ReadParquet { def main(args: Array[String]): Unit = { val spark:
SparkSession= SparkSession.builder().master("local[*]").getOrCreate() val frame
= spark .read .parquet("data/sparksql/par") frame.show() spark.stop() } }

除了上面的方式，还能够从外部服务器读取数据创建DataFrame，例如：从JDBC连接数据库服务器进行创建，从Hive仓库中加载创建DataFrame，从Hbase加载数据创建DataFrame，从Elastic
Search加载数据创建DataFrame，下次继续分享。

技术

Java1212 篇
Python927 篇
开发语言608 篇
c语言463 篇
算法461 篇
MySQL438 篇
数据库394 篇
前端387 篇
更多...