大神手把手教你:(Python)序列数据的One Hot编码

  • 时间:
  • 浏览:1
  • 来源:uu快3电脑版_uu快3和值_礼金

在哪此情况下,亲戚亲戚大伙想让网络更具表现力,为每个要是的标签值提供概率式数字。这促进进行哪此的问提网络建模。当输出变量使用one-hot编码时,它可不必须提供比单个标签更准确的一组预测。

3.One-Hot Encode with scikit-learn.

One-Hot编码是分类变量作为二进制向量的表示。这首没法求将分类值映射到整数值。要是,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1

 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],

 hello world

 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],

 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],

默认情况下,OneHotEncoder类将返回更高效的稀疏编码,这要是不适用于或多或少应用应用tcp连接。这类使用Keras强度学习库。在你什儿 情况下,亲戚亲戚大伙通过设置sparse = False你什儿 参数来禁用稀疏返回类型。

 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0],

运行示例首先打印标签序列。过后是标签的整数编码,最后是one hot编码。训练数据中有 所有要是示例的集合,要是亲戚亲戚大伙可不必须依靠整数和one hot编码变换来创建标签到编码的删改映射。

 [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]

 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],

 [7, 4, 11, 11, 14, 26, 22, 14, 17, 11, 3]

最后,亲戚亲戚大伙反转第俩个 多字母的编码并打印结果。亲戚亲戚大伙通过使用NumPy argmax()函数定位具有最大值的二进制向量中的索引,要是使用字符值的反向查找表中的整数进行整数。

4.One-Hot Encode with Keras.

 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],

 [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],

 [[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],

编码为0红色标签将用二进制向量[1,0]表示,其中第0个索引被标记为值1。要是,编码为1绿色标签将用俩个 多二进制向量[01],其中第俩个 多索引被标记为1

让亲戚亲戚大伙用俩个 多小例子来说明一下到底哪此是One-Hot编码。假设亲戚亲戚大伙有俩个 多中有 'red''green'值的标签序列。亲戚亲戚大伙可不必须将'red'的整数值分配为0'green'的整数值为1。要是亲戚亲戚大伙一俩个 劲将哪此数字分配给哪此标签,这称为整数编码。一致性是重要的,或多或少或多或少亲戚亲戚大伙可不必须稍后反转编码,并从整数值获取标签。

  h

所有要是的输入的映射都是从char值创建为整数值。要是使用该映射对输入字符串进行编码。亲戚亲戚大伙可不必须看多输入'h'中的第俩个 多字母被编码为7。要是将整数编码转换为one hot编码。一次完成俩个 多整数编码的字符。创建0个值的列表,以便字母表的长度可不必须表示任何预期的字符的长度。

 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],

 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0],