Dataset API — Untyped Transformations

Untyped transformations are part of the Dataset API for transforming a Dataset to a DataFrame, a Column, a RelationalGroupedDataset, a DataFrameNaFunctions or a DataFrameStatFunctions (and hence untyped).

Note	Untyped transformations are the methods in the `Dataset` Scala class that are grouped in `untypedrel` group name, i.e. `@group untypedrel`.

Table 1. Dataset API’s Untyped Transformations

Transformation	Description
agg	agg(aggExpr: (String, String), aggExprs: (String, String)): DataFrame agg(exprs: Map[String, String]): DataFrame agg(exprs: java.util.Map[String, String]): DataFrame agg(expr: Column, exprs: Column): DataFrame
apply	Selects a column based on the column name (i.e. maps a `Dataset` onto a `Column`) apply(colName: String): Column
checkpoint	Reliably checkpointing a Dataset checkpoint(): Dataset[T] checkpoint(eager: Boolean): Dataset[T]
col	Selects a column based on the column name (i.e. maps a `Dataset` onto a `Column`) col(colName: String): Column
colRegex	(New in 2.3.0) Selects a column based on the column name specified as a regex (i.e. maps a `Dataset` onto a `Column`) colRegex(colName: String): Column
crossJoin	crossJoin(right: Dataset[_]): DataFrame
cube	cube(cols: Column): RelationalGroupedDataset cube(col1: String, cols: String): RelationalGroupedDataset
drop	drop(colName: String): DataFrame drop(colNames: String*): DataFrame drop(col: Column): DataFrame
groupBy	groupBy(cols: Column): RelationalGroupedDataset groupBy(col1: String, cols: String): RelationalGroupedDataset
join	join(right: Dataset[_]): DataFrame join(right: Dataset[_], usingColumn: String): DataFrame join(right: Dataset[_], usingColumns: Seq[String]): DataFrame join(right: Dataset[_], usingColumns: Seq[String], joinType: String): DataFrame join(right: Dataset[_], joinExprs: Column): DataFrame join(right: Dataset[_], joinExprs: Column, joinType: String): DataFrame
localCheckpoint	(New in 2.3.0) Locally (and unreliably) checkpointing a Dataset localCheckpoint(): Dataset[T] localCheckpoint(eager: Boolean): Dataset[T]
na	na: DataFrameNaFunctions
rollup	rollup(cols: Column): RelationalGroupedDataset rollup(col1: String, cols: String): RelationalGroupedDataset
select	select(cols: Column): DataFrame select(col: String, cols: String): DataFrame
selectExpr	selectExpr(exprs: String*): DataFrame
stat	stat: DataFrameStatFunctions
toDF	toDF(): DataFrame toDF(colNames: String*): DataFrame
withColumn	withColumn(colName: String, col: Column): DataFrame
withColumnRenamed	withColumnRenamed(existingName: String, newName: String): DataFrame

`agg` Untyped Transformation

agg(aggExpr: (String, String), aggExprs: (String, String)*): DataFrame
agg(exprs: Map[String, String]): DataFrame
agg(exprs: java.util.Map[String, String]): DataFrame
agg(expr: Column, exprs: Column*): DataFrame

agg…FIXME

`apply` Untyped Transformation

apply(colName: String): Column

apply selects a column based on the column name (i.e. maps a Dataset onto a Column).

Reliably Checkpointing Dataset — `checkpoint` Untyped Transformation

checkpoint(): Dataset[T]  // (1)
checkpoint(eager: Boolean): Dataset[T]  // (2)

eager and reliableCheckpoint flags enabled
reliableCheckpoint flag enabled

Note	`checkpoint` is an experimental operator and the API is evolving towards becoming stable.

checkpoint simply requests the Dataset to checkpoint with the given eager flag and the reliableCheckpoint flag enabled.

`col` Untyped Transformation

col(colName: String): Column

col selects a column based on the column name (i.e. maps a Dataset onto a Column).

Internally, col branches off per the input column name.

If the column name is * (a star), col simply creates a Column with ResolvedStar expression (with the schema output attributes of the analyzed logical plan of the QueryExecution).

Otherwise, col uses colRegex untyped transformation when spark.sql.parser.quotedRegexColumnNames configuration property is enabled.

In the case when the column name is not * and spark.sql.parser.quotedRegexColumnNames configuration property is disabled, col creates a Column with the column name resolved (as a NamedExpression).

`colRegex` Untyped Transformation

colRegex(colName: String): Column

(New in 2.3.0) colRegex selects a column based on the column name specified as a regex (i.e. maps a Dataset onto a Column).

Note	`colRegex` is used in col when spark.sql.parser.quotedRegexColumnNames configuration property is enabled (and the column name is not `*`).

Internally, colRegex matches the input column name to different regular expressions (in the order):

For column names with quotes without a qualifier, colRegex simply creates a Column with a UnresolvedRegex (with no table)
For column names with quotes with a qualifier, colRegex simply creates a Column with a UnresolvedRegex (with a table specified)
For other column names, colRegex (behaves like col and) creates a Column with the column name resolved (as a NamedExpression)

`crossJoin` Untyped Transformation

crossJoin(right: Dataset[_]): DataFrame

crossJoin…FIXME

`cube` Untyped Transformation

cube(cols: Column*): RelationalGroupedDataset
cube(col1: String, cols: String*): RelationalGroupedDataset

cube…FIXME

Dropping One or More Columns — `drop` Untyped Transformation

drop(colName: String): DataFrame
drop(colNames: String*): DataFrame
drop(col: Column): DataFrame

drop…FIXME

`groupBy` Untyped Transformation

groupBy(cols: Column*): RelationalGroupedDataset
groupBy(col1: String, cols: String*): RelationalGroupedDataset

groupBy…FIXME

`join` Untyped Transformation

join(right: Dataset[_]): DataFrame
join(right: Dataset[_], usingColumn: String): DataFrame
join(right: Dataset[_], usingColumns: Seq[String]): DataFrame
join(right: Dataset[_], usingColumns: Seq[String], joinType: String): DataFrame
join(right: Dataset[_], joinExprs: Column): DataFrame
join(right: Dataset[_], joinExprs: Column, joinType: String): DataFrame

join…FIXME

Locally Checkpointing Dataset — `localCheckpoint` Untyped Transformation

localCheckpoint(): Dataset[T] // (1)
localCheckpoint(eager: Boolean): Dataset[T]

eager flag enabled

(New in 2.3.0) localCheckpoint simply uses Dataset.checkpoint operator with the input eager flag and reliableCheckpoint flag disabled (false).

`na` Untyped Transformation

na: DataFrameNaFunctions

na simply creates a DataFrameNaFunctions to work with missing data.

`rollup` Untyped Transformation

rollup(cols: Column*): RelationalGroupedDataset
rollup(col1: String, cols: String*): RelationalGroupedDataset

rollup…FIXME

`select` Untyped Transformation

select(cols: Column*): DataFrame
select(col: String, cols: String*): DataFrame

select…FIXME

Projecting Columns using SQL Statements — `selectExpr` Untyped Transformation

selectExpr(exprs: String*): DataFrame

selectExpr is like select, but accepts SQL statements.

val ds = spark.range(5)

scala> ds.selectExpr("rand() as random").show
16/04/14 23:16:06 INFO HiveSqlParser: Parsing command: rand() as random
+-------------------+
|             random|
+-------------------+
|  0.887675894185651|
|0.36766085091074086|
| 0.2700020856675186|
| 0.1489033635529543|
| 0.5862990791950973|
+-------------------+

Internally, it executes select with every expression in exprs mapped to Column (using SparkSqlParser.parseExpression).

scala> ds.select(expr("rand() as random")).show
+------------------+
|            random|
+------------------+
|0.5514319279894851|
|0.2876221510433741|
|0.4599999092045741|
|0.5708558868374893|
|0.6223314406247136|
+------------------+

`stat` Untyped Transformation

stat: DataFrameStatFunctions

stat simply creates a DataFrameStatFunctions to work with statistic functions.

Converting Typed Dataset to Untyped DataFrame — `toDF` Untyped Transformation

toDF(): DataFrame
toDF(colNames: String*): DataFrame

toDF converts a Dataset into a DataFrame.

Internally, the empty-argument toDF creates a Dataset[Row] using the Dataset's SparkSession and QueryExecution with the encoder being RowEncoder.

Caution

FIXME Describe toDF(colNames: String*)

`withColumn` Untyped Transformation

withColumn(colName: String, col: Column): DataFrame

withColumn…FIXME

`withColumnRenamed` Untyped Transformation

withColumnRenamed(existingName: String, newName: String): DataFrame

withColumnRenamed…FIXME

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

spark-sql-Dataset-untyped-transformations.adoc

spark-sql-Dataset-untyped-transformations.adoc

Dataset API — Untyped Transformations

`agg` Untyped Transformation

`apply` Untyped Transformation

Reliably Checkpointing Dataset — `checkpoint` Untyped Transformation

`col` Untyped Transformation

`colRegex` Untyped Transformation

`crossJoin` Untyped Transformation

`cube` Untyped Transformation

Dropping One or More Columns — `drop` Untyped Transformation

`groupBy` Untyped Transformation

`join` Untyped Transformation

Locally Checkpointing Dataset — `localCheckpoint` Untyped Transformation

`na` Untyped Transformation

`rollup` Untyped Transformation

`select` Untyped Transformation

Projecting Columns using SQL Statements — `selectExpr` Untyped Transformation

`stat` Untyped Transformation

Converting Typed Dataset to Untyped DataFrame — `toDF` Untyped Transformation

`withColumn` Untyped Transformation

`withColumnRenamed` Untyped Transformation

Files

spark-sql-Dataset-untyped-transformations.adoc

Latest commit

History

spark-sql-Dataset-untyped-transformations.adoc

File metadata and controls

Dataset API — Untyped Transformations

agg Untyped Transformation

apply Untyped Transformation

Reliably Checkpointing Dataset — checkpoint Untyped Transformation

col Untyped Transformation

colRegex Untyped Transformation

crossJoin Untyped Transformation

cube Untyped Transformation

Dropping One or More Columns — drop Untyped Transformation

groupBy Untyped Transformation

join Untyped Transformation

Locally Checkpointing Dataset — localCheckpoint Untyped Transformation

na Untyped Transformation

rollup Untyped Transformation

select Untyped Transformation

Projecting Columns using SQL Statements — selectExpr Untyped Transformation

stat Untyped Transformation

Converting Typed Dataset to Untyped DataFrame — toDF Untyped Transformation

withColumn Untyped Transformation

withColumnRenamed Untyped Transformation

`agg` Untyped Transformation

`apply` Untyped Transformation

Reliably Checkpointing Dataset — `checkpoint` Untyped Transformation

`col` Untyped Transformation

`colRegex` Untyped Transformation

`crossJoin` Untyped Transformation

`cube` Untyped Transformation

Dropping One or More Columns — `drop` Untyped Transformation

`groupBy` Untyped Transformation

`join` Untyped Transformation

Locally Checkpointing Dataset — `localCheckpoint` Untyped Transformation

`na` Untyped Transformation

`rollup` Untyped Transformation

`select` Untyped Transformation

Projecting Columns using SQL Statements — `selectExpr` Untyped Transformation

`stat` Untyped Transformation

Converting Typed Dataset to Untyped DataFrame — `toDF` Untyped Transformation

`withColumn` Untyped Transformation

`withColumnRenamed` Untyped Transformation