Как можно объединить два фрейма данных Spark SQL, используя критерий «НРАВИТСЯ» SQL-esque?
Мы используем библиотеки PySpark, взаимодействующие с Spark 1.3.1.
У нас есть два кадра данных,documents_df := {document_id, document_text}
а такжеkeywords_df := {keyword}
, Мы хотели бы присоединиться к двум фреймам данных и вернуть результирующий фрейм данных с{document_id, keyword}
пары, используя критерии, по которым ключевое слово keyword_df.keyword появляется в строке document_df.document_text.
Например, в PostgreSQL мы могли бы достичь этого, используя предложение ON в форме:
document_df.document_text ilike '%' || keyword_df.keyword || '%'
Однако в PySpark я не могу заставить работать любой синтаксис соединения. Кто-нибудь достиг такого ранее?
С наилучшими пожеланиями,
Будет