Результаты поиска по запросу "apache-spark-sql"

1 ответ

Попробуй это. Вы применяете пересечение по оригинальным s1 и S2, а не по разделенным.

я есть два строковых столбца, разделенных запятыми (sourceAuthors а такжеtargetAuthors). val df = Seq( ("Author1,Author2,Author3","Author2,Author3,Author1") ).toDF("source","target")Я хотел бы добавить еще один столбецnCommonAuthors ...

2 ответа

Сортировка требует, чтобы все данные для данного "n" или набора "n" находились в одном разделе.

парк определяет количество разделов после использованияorderBy? Я всегда думал, что результирующийspark.sql.shuffle.partitions, но это не похоже на правду val df = (1 to 10000).map(i => ...

1 ответ

Нет, ошибки нет, просто не так, как она работает.

делил данные в HDFS. В какой-то момент я решил обновить его. Алгоритм: Читайте новые данные из темы кафки.Узнайте новые имена разделов данных.Загрузите данные из разделов с этими именами, которые есть в HDFS.Объединить данные HDFS с новыми ...

ТОП публикаций

2 ответа

передать значение столбца в качестве параметра функции

отаю с PySpark над огромным набором данных, где я хочу отфильтровать фрейм данных на основе строк в другом фрейме данных. Например, dd ...

2 ответа

с простым sql это невозможно

ел бы отсортировать DataFrame на основе столбца с моим собственным компаратором. Это можно сделать в Spark SQL? Например, предположим, что у меня есть DataFrame, зарегистрированный как таблица «MyTable» со столбцом «Day», тип которого ...

2 ответа

спасибо, это сработало.

ичок на спарк, у меня есть датафрейм df: +----------+------------+-----------+ | Column1 | Column2 | Sub | +----------+------------+-----------+ | 1 | 2 | 1 | +----------+------------+-----------+ | 4 | null | null ...

1 ответ

@AltShift; как кто-то, кто столкнулся с той же ошибкой, имеет ли смысл в любом случае уже создавать вопрос, чтобы у остальных из нас было место, где мы могли бы следить за прогрессом в этом вопросе?

ти уверен, что об этом уже спрашивали, нопоиск через ...

1 ответ

Преобразование между spark.SQL DataFrame и pandas DataFrame [дубликат]

На этот вопрос уже есть ответ: Требования для преобразования кадра данных Spark в кадр данных Pandas / R [/questions/30983197/requirements-for-converting-spark-dataframe-to-pandas-r-dataframe] 1 ответ Возможно ли это конвертировать из в ...

1 ответ

Как включить декартово присоединение к Spark 2.0? [Дубликат]

На этот вопрос уже есть ответ: spark.sql.crossJoin.enabled для Spark 2.x [/questions/38999140/spark-sql-crossjoin-enabled-for-spark-2-x] 3 ответа Мне нужно соединить два кадра данных в Spark 2.0. Я столкнулся с ошибкой ниже: Пользовательский ...

2 ответа

В чем разница между SparkSession и SparkContext? [Дубликат]

На этот вопрос уже есть ответ: Разница между SparkContext, JavaSparkContext, SQLContext и SparkSession? [/questions/43802809/difference-between-sparkcontext-javasparkcontext-sqlcontext-and-sparksession] 3 ответа Я знаю только разницу в версии, ...