Результаты поиска по запросу "apache-spark-sql"

2 ответа

с простым sql это невозможно

ел бы отсортировать DataFrame на основе столбца с моим собственным компаратором. Это можно сделать в Spark SQL? Например, предположим, что у меня есть DataFrame, зарегистрированный как таблица «MyTable» со столбцом «Day», тип которого ...

2 ответа

передать значение столбца в качестве параметра функции

отаю с PySpark над огромным набором данных, где я хочу отфильтровать фрейм данных на основе строк в другом фрейме данных. Например, dd ...

1 ответ

Нет, ошибки нет, просто не так, как она работает.

делил данные в HDFS. В какой-то момент я решил обновить его. Алгоритм: Читайте новые данные из темы кафки.Узнайте новые имена разделов данных.Загрузите данные из разделов с этими именами, которые есть в HDFS.Объединить данные HDFS с новыми ...

ТОП публикаций

2 ответа

Сортировка требует, чтобы все данные для данного "n" или набора "n" находились в одном разделе.

парк определяет количество разделов после использованияorderBy? Я всегда думал, что результирующийspark.sql.shuffle.partitions, но это не похоже на правду val df = (1 to 10000).map(i => ...

1 ответ

SPARK-27052 - Использование PySpark udf в преобразовании дает значения NULL

transform функция высшего порядка ( https://issues.apache.org/jira/browse/SPARK-23908 [https://issues.apache.org/jira/browse/SPARK-23908]). Есть ли способ использовать его как стандартную функцию (в пакетеorg.apache.spark.sql.functions._)? У ...

0 ответов

, Но я не могу понять, как заставить оконную функцию осознавать себя. Это было бы похоже на скользящую среднюю определенной строки, осведомленной о последней скользящей средней.

м, у меня есть столбец отсортированных временных меток в DataFrame. Я хочу написать функцию, которая добавляет столбец в этот DataFrame, который разрезает временные метки на последовательные временные интервалы в соответствии со следующими ...

1 ответ

Попробуй это. Вы применяете пересечение по оригинальным s1 и S2, а не по разделенным.

я есть два строковых столбца, разделенных запятыми (sourceAuthors а такжеtargetAuthors). val df = Seq( ("Author1,Author2,Author3","Author2,Author3,Author1") ).toDF("source","target")Я хотел бы добавить еще один столбецnCommonAuthors ...

1 ответ

отлично, просто вопрос простой;)

Для кадра данных со схемой id:string Cold:string Medium:string Hot:string IsNull:string annual_sales_c:string average_check_c:string credit_rating_c:string cuisine_c:string dayparts_c:string location_name_c:string market_category_c:string ...

1 ответ

Остается нерешенным вопрос, как предотвратить нежелательное поведение при кэшировании данных. К сожалению, у меня нет готового ответа для этого. Я вполне уверен, что можно использовать пользовательские правила оптимизатора, но это не то, что можно сделать с помощью только Python.

ющий код вызывает исключение «Обнаружено декартово произведение для INNER join»: first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spark.createDataFrame([{"some_value": "????"}, ]) ...

1 ответ

когда я устанавливаю это .enableHiveSupport (), тогда только я вижу эту ошибку.

отаю надSPARK-SQL 2.3.1 и я пытаюсь включить hiveSupport для создания сеанса, как показано ниже .enableHiveSupport() .config("spark.sql.warehouse.dir", "c://tmp//hive")Я побежал ниже команды C:\Software\hadoop\hadoop-2.7.1\bin>winutils.exe ...