Результаты поиска по запросу "apache-spark"
и уверен, что вы знаете, что делаете при изменении кода: ваше редактирование испортило совершенно хороший ответ, в результате чего возникло исключение (восстановленное в оригинале OP) ...
я есть фрейм данных со следующим типом col1|col2|col3|col4 xxxx|yyyy|zzzz|[1111],[2222]Я хочу, чтобы мой вывод был следующего типа col1|col2|col3|col4|col5 xxxx|yyyy|zzzz|1111|2222Мой col4 является массивом, и я хочу преобразовать его в ...
Дата была разделом базы данных красного смещения - в этом случае она не должна требовать сортировки
ружаю большие наборы данных и затем кэширую их для справки по всему коду. Код выглядит примерно так: val conversations = sqlContext.read .format("com.databricks.spark.redshift") .option("url", jdbcUrl) .option("tempdir", ...
Затем вы можете отсортировать столбец «Группа» в любом порядке. Приведенное выше решение почти имеет его, но важно помнить, что row_number начинается с 1, а не с 0.
ьзуя pyspark, я хотел бы иметь возможность сгруппировать фрейм данных spark, отсортировать группу, а затем указать номер строки. Так Group Date A 2000 A 2002 A 2007 B 1999 B 2015Станет Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B 2015 1
Предположим, у нас есть 9 цифр после десятичной дроби, нам действительно нужно указать
ичок в Spark SQL и пытаюсь преобразовать строку во временную метку во фрейме данных spark. У меня есть строка, которая выглядит как'2017-08-01T02:26:59.000Z' в столбце с именем time_string Мой код для преобразования этой строки в метку ...
Кажется, с перерывами. Через некоторое время эта проблема исчезла там, где я был.
я собрал файл scala, используя IntelliJ IDEA, показалась следующая ошибка. Ошибка: scalac: неверная символьная ссылка. Подпись в SQLContext.class ссылается на тип ведения журнала в пакете org.apache.spark, который недоступен. Он может полностью ...
stackoverflow.com/questions/47867743/...
аюсь отфильтровать данные файла в хорошие и плохие данные за дату, поэтому получу 2 файла результатов. Из тестового файла первые 4 строки должны идти в хороших данных и последние 2 строки в плохих данных. У меня 2 вопроса Я не получаю хорошие ...
stackoverflow.com/questions/45707205/...
у несколько сообщений, которые содержат ту же ошибку, что и ошибка, которую я получаю, но ни одна из них не приводит меня к исправлению моего кода. Я использовал этот же код много раз без проблем, и теперь у меня проблемы. Вот ошибка, которую я ...
Примечание: проверьте, что $ HADOOP_HOME / etc / hadoop является правильным в вашей среде. И spark-env.sh также содержит экспорт HADOOP_HOME.
аюсь запустить Spark, используя пряжу, и я сталкиваюсь с этой ошибкой: Исключение в потоке "main" java.lang.Exception: При работе с главной 'yarn' в среде должен быть установлен либо HADOOP_CONF_DIR, либо YARN_CONF_DIR. Я не уверен, где ...
https://github.com/apache/incubator-livy/blob/412ccc8fcf96854fedbe76af8e5a6fec2c542d25/repl/src/test/scala/org/apache/livy/repl/PythonInterpreterSpec.scala#L105
ентация по Apache Livy скудна: можно ли возвращать наборы результатов Spark SQL-запросов как вызовы REST, используя Apache Livy? Вызывающее приложение мобильное и не может использовать odbc / jdbc для подключения. Так что Spark ThriftServer не ...
используется для определения разделов задач фреймворка. обычно применяется для операций RDD.
разница междуspark.sql.shuffle.partitions а такжеspark.default.parallelism? Я пытался установить их обоих вSparkSQL, но номер задачи второго этапа всегда 200.