QuantileDiscretizer
输入连续的特征列,输出分箱的类别特征。分箱数是通过参数numBuckets
来指定的。 箱的范围是通过使用近似算法(见approxQuantile )来得到的。 近似的精度可以通过relativeError
参数来控制。当这个参数设置为0时,将会计算精确的分位数。箱的上边界和下边界分别是正无穷和负无穷时, 取值将会覆盖所有的实数值。
例子
假设我们有下面的DataFrame
,它的列名是id,hour
。
id | hour
----|------
0 | 18.0
----|------
1 | 19.0
----|------
2 | 8.0
----|------
3 | 5.0
----|------
4 | 2.2
hour
是类型为DoubleType
的连续特征。我们想将连续特征转换为一个分类特征。给定numBuckets
为3,我们可以得到下面的结果。
id | hour | result
----|------|------
0 | 18.0 | 2.0
----|------|------
1 | 19.0 | 2.0
----|------|------
2 | 8.0 | 1.0
----|------|------
3 | 5.0 | 1.0
----|------|------
4 | 2.2 | 0.0
// $example on$ import org.apache.spark.SparkConf import org.apache.spark.ml.feature.QuantileDiscretizer // $example off$ import org.apache.spark.sql.SparkSession /** * 连续型数据处理之给定分位数离散化 */ object QuantileDiscretizerExample { def main(args: Array[String]) { val sparkConf = new SparkConf(); sparkConf.setMaster("local[*]").setAppName(this.getClass.getSimpleName) val spark = SparkSession .builder .config(sparkConf) .appName("QuantileDiscretizerExample") .getOrCreate() // $example on$ val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2)) val df = spark.createDataFrame(data).toDF("id", "hour") // $example off$ // Output of QuantileDiscretizer for such small datasets can depend on the number of // partitions. Here we force a single partition to ensure consistent results. // Note this is not necessary for normal use cases .repartition(1) // $example on$ val discretizer = new QuantileDiscretizer() .setInputCol("hour") .setOutputCol("result") .setNumBuckets(3) val result = discretizer.fit(df).transform(df) result.show(false) // $example off$ spark.stop() } }
结果:
+—+—-+——+
|id |hour|result|
+—+—-+——+
|0 |18.0|2.0 |
|1 |19.0|2.0 |
|2 |8.0 |1.0 |
|3 |5.0 |1.0 |
|4 |2.2 |0.0 |
+—+—-+——+
Spark ML机器学习:SQLTransformer
Spark ML机器学习:Tokenizer分词器
Spark ML机器学习:多项式转化-PolynomialExpansion
Spark ML机器学习:N-gram
Spark ML机器学习:归一化之最小最大值标准化-MinMaxScaler
Spark ML机器学习:绝对值最大标准化-MaxAbsScaler
Spark ML机器学习:标准化-StandardScaler
Spark ML机器学习:连续型数据处理之给定分位数离散化-QuantileDiscretizer
Spark ML机器学习:连续型数据处理之二值化-Binarizer
Spark ML机器学习:连续型数据处理之给定边界离散化-Bucketizer
Spark ML机器学习:元素智能乘积-ElementwiseProduct
原文链接:https://blog.csdn.net/linweidong/article/details/87279104
本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。
还没有人抢沙发呢~