对于标称型数据来说,preprocessing.LabelBinarizer是一个很好用的工具。比如可以把yes和no转化为0和1,或是把incident和normal转化为0和1。当然,对于两类以上的标签也是适用的。这里举一个简单的例子,说明将标签二值化以及其逆过程。
# -*- coding: UTF-8 -*-
from sklearn import preprocessing
from skle...
转载自:http://2hwp.com/2016/02/03/data-preprocessing/
常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;
1. 标准化(Standardization or Mean Removal and Variance Scaling)
变换后各维特征均值为0,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除...