Как получить отдельные строки в dataframe, используя pyspark?
Я понимаю, что это очень простой вопрос, и, скорее всего, где-то на него ответили, но как новичок я до сих пор не понимаю его и ищу вашего просветления, заранее благодарю:
У меня есть временный фрейм данных:
+----------------------------+---+
|host |day|
+----------------------------+---+
|in24.inetnebr.com |1 |
|uplherc.upl.com |1 |
|uplherc.upl.com |1 |
|uplherc.upl.com |1 |
|uplherc.upl.com |1 |
|ix-esc-ca2-07.ix.netcom.com |1 |
|uplherc.upl.com |1 |
Что мне нужно, это удалить все лишние элементы в столбце хоста, другими словами, мне нужно получить окончательный отчетливый результат, например:
+----------------------------+---+
|host |day|
+----------------------------+---+
|in24.inetnebr.com |1 |
|uplherc.upl.com |1 |
|ix-esc-ca2-07.ix.netcom.com |1 |
|uplherc.upl.com |1 |