Как можно объединить два фрейма данных Spark SQL, используя критерий «НРАВИТСЯ» SQL-esque?

Мы используем библиотеки PySpark, взаимодействующие с Spark 1.3.1.

У нас есть два кадра данных,documents_df := {document_id, document_text} а такжеkeywords_df := {keyword}, Мы хотели бы присоединиться к двум фреймам данных и вернуть результирующий фрейм данных с{document_id, keyword} пары, используя критерии, по которым ключевое слово keyword_df.keyword появляется в строке document_df.document_text.

Например, в PostgreSQL мы могли бы достичь этого, используя предложение ON в форме:

document_df.document_text ilike '%' || keyword_df.keyword || '%'

Однако в PySpark я не могу заставить работать любой синтаксис соединения. Кто-нибудь достиг такого ранее?

С наилучшими пожеланиями,

Будет

Ответы на вопрос(1)

Ваш ответ на вопрос