本文共 2200 字,大约阅读时间需要 7 分钟。
DataSet 是一个强类型,并且类型安全的数据容器,提供了结构化查询API和类似 RDD 一样命令式API。它能够在编译时确保操作的类型安全性,适用于需要强类型操作的场景。
DataSet 提供了三种查询方式:
DataSet 的底层实际上是基于 InternalRow(Catalyst Row)的 RDD。无论 DataSet 中存储的是什么类型的对象,最终都会通过 Encoder 和 Decoder 转换为 InternalRow 格式进行处理。
通过 dataset.rdd 可以将 DataSet 转换为 RDD。此时,RDD 中的元素类型为 InternalRow。以下是示例代码:
val sourceRDD = spark.sparkContext.parallelize(Seq(person("a", 18, 98.0), person("b", 20, 97.0), person("c", 18, 100.0)))val dataset = sourceRDD.toDS()val typeRDD: RDD[person] = dataset.rdd DataFrame 是 SparkSQL 中一个表示关系型数据库表的函数式抽抽象,专为处理大规模结构化数据设计。DataFrame 具有以下特点:
DataFrame 可以通过以下方式创建:
以下是查看北京 PM 数据的统计案例:
val spark = SparkSession.builder().master("local[6]").getOrCreate()import spark.implicits._import org.apache.spark.sql.functions._val df = spark.read .option("header", true) .csv("dataset/BeijingPM20100101_20151231.csv")df.show()// 统计每年每月的 PM 值val aggregatedDF = df .select("year", "month", "PM_Dongsi") .where("PM_Dongsi != 'NA'") .groupBy("year", "month") .agg(count("month") as "count") .sort("count", "desc") .show() Row 对象表示 DataFrame 中的每一行数据。它支持以下操作:
以下是示例代码:
case class Person(name: String, age: Int)val row: Row = Row("Tom", 18)row match { case Row(name, age) => println(s"姓名: $name,年龄: $age")} DataFrame 和 DataSet 是 SparkSQL 中的两大核心组件,分别适用于强类型和弱类型数据的处理。理解它们的区别是掌握 SparkSQL 的关键。
转载地址:http://lweq.baihongyu.com/