Как получить отдельные строки в dataframe, используя pyspark?

Я понимаю, что это очень простой вопрос, и, скорее всего, где-то на него ответили, но как новичок я до сих пор не понимаю его и ищу вашего просветления, заранее благодарю:

У меня есть временный фрейм данных:

+----------------------------+---+
|host                        |day|
+----------------------------+---+
|in24.inetnebr.com           |1  |
|uplherc.upl.com             |1  |
|uplherc.upl.com             |1  |
|uplherc.upl.com             |1  |
|uplherc.upl.com             |1  |
|ix-esc-ca2-07.ix.netcom.com |1  |
|uplherc.upl.com             |1  |

Что мне нужно, это удалить все лишние элементы в столбце хоста, другими словами, мне нужно получить окончательный отчетливый результат, например:

+----------------------------+---+
|host                        |day|
+----------------------------+---+
|in24.inetnebr.com           |1  |
|uplherc.upl.com             |1  |
|ix-esc-ca2-07.ix.netcom.com |1  |
|uplherc.upl.com             |1  |

Ответы на вопрос(2)

Ваш ответ на вопрос