Почему Spark OneHotEncoder по умолчанию отбрасывает последнюю категорию?

Question

Sep 14, 2016, 11:52 PM

pyspark one-hot-encoding bigdata apache-spark machine-learning

Почему Spark OneHotEncoder по умолчанию отбрасывает последнюю категорию?

Я хотел бы понять, почему в OneHotEncoder от Spark по умолчанию отбрасывается последняя категория.

Например:

>>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"])
>>> ss = StringIndexer(inputCol="c",outputCol="c_idx")
>>> ff = ss.fit(fd).transform(fd)
>>> ff.show()
+----+---+-----+
|   x|  c|c_idx|
+----+---+-----+
| 1.0|  a|  0.0|
| 1.5|  a|  0.0|
|10.0|  b|  1.0|
| 3.2|  c|  2.0|
+----+---+-----+

По умолчанию OneHotEncoder удалит последнюю категорию:

>>> oe = OneHotEncoder(inputCol="c_idx",outputCol="c_idx_vec")
>>> fe = oe.transform(ff)
>>> fe.show()
+----+---+-----+-------------+
|   x|  c|c_idx|    c_idx_vec|
+----+---+-----+-------------+
| 1.0|  a|  0.0|(2,[0],[1.0])|
| 1.5|  a|  0.0|(2,[0],[1.0])|
|10.0|  b|  1.0|(2,[1],[1.0])|
| 3.2|  c|  2.0|    (2,[],[])|
+----+---+-----+-------------+

Конечно, это поведение можно изменить:

>>> oe.setDropLast(False)
>>> fl = oe.transform(ff)
>>> fl.show()
+----+---+-----+-------------+
|   x|  c|c_idx|    c_idx_vec|
+----+---+-----+-------------+
| 1.0|  a|  0.0|(3,[0],[1.0])|
| 1.5|  a|  0.0|(3,[0],[1.0])|
|10.0|  b|  1.0|(3,[1],[1.0])|
| 3.2|  c|  2.0|(3,[2],[1.0])|
+----+---+-----+-------------+

Вопрос::

В каком случае желательно поведение по умолчанию?Какие проблемы могут быть упущены при слепом звонкеsetDropLast(False)?Что авторы подразумевают под следующим утверждением в документации?

Последняя категория не включена по умолчанию (настраивается через dropLast), потому что она делает записи вектора равными единице, и, следовательно, линейно зависимыми.

Почему Spark OneHotEncoder по умолчанию отбрасывает последнюю категорию?

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Почему Spark OneHotEncoder по умолчанию отбрасывает последнюю категорию?

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы