spark sql读取hive数据直接写入doris，离线批量导入 - 博客

[{"createTime":1735734952000,"id":1,"img":"bandupan_350_218.jpg","link":"https://pan.baidu.com/s/1T03izdWtRSeMqOXoT9HCug?pwd=draw","name":"百度网盘下载","status":9,"txt":"百度网盘下载","type":1,"updateTime":1735747411000,"userId":3},{"createTime":1736173885000,"id":2,"img":"txy_480_300.png","link":"https://cloud.tencent.com/act/cps/redirect?redirect=1077&cps_key=edb15096bfff75effaaa8c8bb66138bd&from=console","name":"腾讯云秒杀","status":9,"txt":"腾讯云限量秒杀","type":1,"updateTime":1736173885000,"userId":3},{"createTime":1736177492000,"id":3,"img":"aly_251_140.png","link":"https://www.aliyun.com/minisite/goods?userCode=pwp8kmv3","memo":"","name":"阿里云","status":9,"txt":"阿里云2折起","type":1,"updateTime":1736177492000,"userId":3},{"createTime":1735660800000,"id":4,"img":"vultr_560_300.png","link":"https://www.vultr.com/?ref=9603742-8H","name":"Vultr","status":9,"txt":"Vultr送$100","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":5,"img":"jdy_663_320.jpg","link":"https://3.cn/2ay1-e5t","name":"京东云","status":9,"txt":"京东云特惠专区","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":6,"img":"qk_443_300.png","link":"https://pan.quark.cn/s/6229b93c70d0","name":"夸克网盘","status":9,"txt":"夸克网盘","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":7,"img":"yun_910_50.png","link":"https://activity.huaweicloud.com/discount_area_v5/index.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=aXhpYW95YW5nOA===&utm_medium=cps&utm_campaign=201905","name":"底部","status":9,"txt":"高性能云服务器2折起","type":2,"updateTime":1735660800000,"userId":3}]

先简单的贴贴代码，后面会完善一下。

一，spark sql 读取hive表

这里通过catalog查询表的字段信息，然后查询出来的字段colStr 要给下面的doris使用。

注意：我这里是直接拿取的hive表所有的字段。

二，spark自定义输出

这里就是简单封装了一下

实现的效果：

三，通过stream load方式数据写入doris

循环遍历DataFrame之后写入到doris里面：
val dorisStreamLoader = new DorisStreamLoad("192.168.5.xx:8040",
"example_db", "assuer_order_test", "root", "root") val cumsArrays =
colStr.split(",") val fieldDelimiter: String = "\t" val lineDelimiter: String =
"\n" val NULL_VALUE: String = "\\N" val maxRowCount = 5000 val maxRetryTimes =
3 data.rdd.foreachPartition(partition => { val buffer = ListBuffer[String]()
var jsonArrays = new JSONArray() partition.foreach(f = row => { // val value:
StringJoiner = new StringJoiner(fieldDelimiter) // create one row string val
json = new JSONObject() for (i <- 0 until row.size) { val field = row.get(i)
val fieldName = cumsArrays(i) if (field == null) { // value.add(NULL_VALUE)
json.put(fieldName, NULL_VALUE) } else { // value.add(field.toString)
json.put(fieldName, field.toString) } } jsonArrays.add(json) // add one row
string to buffer // buffer += value.toString // if (buffer.size >= maxRowCount)
{ // flush // Thread.sleep(1000L) // } if (jsonArrays.size() >= maxRowCount) {
flush Thread.sleep(1000L) } }) // flush buffer if (jsonArrays.size() > 0) {
flush Thread.sleep(1000L) } def flush = { val loop = new Breaks loop.breakable
{ for (i <- 1 to maxRetryTimes) { try { //
dorisStreamLoader.load(buffer.mkString(lineDelimiter))
dorisStreamLoader.load(jsonArrays.toJSONString) // buffer.clear()
jsonArrays.clear() loop.break() } catch { case e: Exception => try {
Thread.sleep(1000 * i) //
dorisStreamLoader.load(buffer.mkString(lineDelimiter)) //
dorisStreamLoader.load(jsonArrays.toJSONString)
dorisStreamLoader.load(jsonArrays.toJSONString) //buffer.clear()
jsonArrays.clear() } catch { case ex: InterruptedException =>
Thread.currentThread.interrupt() throw new IOException("unable to flush;
interrupted while doing another attempt", e) } } } } } })
注意：我在这里写入doris是直接写入doris
BE节点，后面代码需要传入3个FE，然后随机找一个FE，然后再获取BE写入，这样子做到负载均衡，而且写入失败可以重试。

四，测试

就直接上代码了，自己验证了吧：
package com.sjb.spark2doris.test import java.io.IOException import
com.alibaba.fastjson.{JSONArray, JSONObject} import
com.sjb.spark2doris.{DorisStreamLoad, SparkDataFrame2Doris} import
org.apache.commons.lang3.StringUtils import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf import org.apache.spark.sql.catalog.Column
import org.apache.spark.sql.{Dataset, SparkSession} import
scala.collection.mutable.ListBuffer import scala.util.control.Breaks //todo
com.sjb.spark2doris.test.SparkDataFrame2DorisTest object
SparkDataFrame2DorisTest { var LOGGER: Logger =
Logger.getLogger(SparkDataFrame2Doris.getClass)
Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
Logger.getLogger("org.apache.spark").setLevel(Level.INFO)
Logger.getLogger("org.apache.eclipse.jetty.server").setLevel(Level.OFF) def
main(args: Array[String]): Unit = { val sparkConf = new
SparkConf().setAppName(this.getClass.getName) if (args.length < 1) {
println("本地模式.......................") sparkConf.setMaster("local[*]") //
sys.exit(1) } else { println("生产模式............") } //
System.setProperty("HADOOP_USER_NAME", "hive")
sparkConf.set("javax.jdo.option.ConnectionURL",
"jdbc:mysql://192.168.x.x:3306/hive?createDatabaseIfNotExist=true&characterEncoding=UTF-8")
sparkConf.set("javax.jdo.option.ConnectionDriverName", "com.mysql.jdbc.Driver")
sparkConf.set("javax.jdo.option.ConnectionUserName", "hive")
sparkConf.set("javax.jdo.option.ConnectionPassword", "Hive") val spark =
SparkSession .builder .config(sparkConf) .enableHiveSupport()
.config("spark.sql.warehouse.dir", "spark-warehouse")
.config("dfs.client.use.datanode.hostname", "true") .getOrCreate() try {
//设置hive数据库 spark.sql("set hive.exec.dynamic.partition=true") spark.sql("set
hive.exec.dynamic.partition.mode=nonstrict") // spark.sql("use doris_test") //
spark.sql("show tables").show(100) //todo 打印输出表字段
spark.catalog.listColumns("doris_test", "fs_plt_assure_orders_test").show() val
aa: Dataset[Column] = spark.catalog.listColumns("doris_test",
"fs_plt_assure_orders_test") val colList = aa.collect().map(x => x.name) val
colStr = colList.mkString(",") val sql = "select " + colStr + " from
doris_test.fs_plt_assure_orders_test" println(sql) val data =
spark.sql(sql).toDF() val dorisStreamLoader = new
DorisStreamLoad("192.168.5.xx:8040", "example_db", "assuer_order_test", "root",
"root") val cumsArrays = colStr.split(",") val fieldDelimiter: String = "\t"
val lineDelimiter: String = "\n" val NULL_VALUE: String = "\\N" val maxRowCount
= 5000 val maxRetryTimes = 3 data.rdd.foreachPartition(partition => { val
buffer = ListBuffer[String]() var jsonArrays = new JSONArray()
partition.foreach(f = row => { // val value: StringJoiner = new
StringJoiner(fieldDelimiter) // create one row string val json = new
JSONObject() for (i <- 0 until row.size) { val field = row.get(i) val fieldName
= cumsArrays(i) if (field == null) { // value.add(NULL_VALUE)
json.put(fieldName, NULL_VALUE) } else { // value.add(field.toString)
json.put(fieldName, field.toString) } } jsonArrays.add(json) // add one row
string to buffer // buffer += value.toString // if (buffer.size >= maxRowCount)
{ // flush // Thread.sleep(1000L) // } if (jsonArrays.size() >= maxRowCount) {
flush Thread.sleep(1000L) } }) // flush buffer if (jsonArrays.size() > 0) {
flush Thread.sleep(1000L) } def flush = { val loop = new Breaks loop.breakable
{ for (i <- 1 to maxRetryTimes) { try { //
dorisStreamLoader.load(buffer.mkString(lineDelimiter))
dorisStreamLoader.load(jsonArrays.toJSONString) // buffer.clear()
jsonArrays.clear() loop.break() } catch { case e: Exception => try {
Thread.sleep(1000 * i) //
dorisStreamLoader.load(buffer.mkString(lineDelimiter)) //
dorisStreamLoader.load(jsonArrays.toJSONString)
dorisStreamLoader.load(jsonArrays.toJSONString) //buffer.clear()
jsonArrays.clear() } catch { case ex: InterruptedException =>
Thread.currentThread.interrupt() throw new IOException("unable to flush;
interrupted while doing another attempt", e) } } } } } }) LOGGER.info("data
write success.....") } catch { case e: Exception => { e.printStackTrace() } }
spark.stop() } }

DorisStreamLoad这个类也很简单，看我之前的文章或者对doris stream load方式写入了解都知道很简单，如果你不懂的话还是先学习一下。

五，总结

这种方式比起我之前需要通过flink读取hdfs写入kafka，再由kafka写入到doris，就省事很多，测试上百个字段的hive表数据千万级别的本地idea运行也没有OOM、

最后的话，有需要的不懂的小伙伴可以私信问我我很乐意分享，我也是参考官方的代码。

技术

Java1212 篇
Python927 篇
开发语言608 篇
c语言463 篇
算法461 篇
MySQL438 篇
数据库394 篇
前端387 篇
更多...