Результаты поиска по запросу "apache-spark"

1 ответ

df = sqlContext.read \ .., похоже, не работает с spark 2.3.1, даже если я добавлю в кавычки и экранирование.

от вопрос уже есть ответ здесь: Загрузить файл CSV с помощью Spark [/questions/28782940/load-csv-file-with-spark] 11 ответовrdd1=sc.textFile('/user/training/checkouts').map(lambda line:line.split(',')).map(lambda ...

1 ответ

Попытка перезаписи данных напрямую с высокой вероятностью приведет к частичной или полной потере данных.

я есть текстовый файл, где мой первый столбец представлен с именем таблицы, а второй столбец представлен с датой. Разделитель между двумя столбцами представлен пробелом. Данные представлены следующим образом employee.txt organization 4-15-2018 ...

1 ответ

, которая позволяет сохранять информацию о разделении, но она является новой в 2.3 и все еще экспериментальной.

Spark 2.2.0, работает на EMR. У меня большой датафреймdf (40G или около того в сжатых файлах Snappy), который разделен по ключамk1 а такжеk2. Когда я запрашиваюk1 ===v1 или же (k1 ===v1 &&k2 ===v2`), я вижу, что он запрашивает только файлы в ...

ТОП публикаций

1 ответ

эй user9627366, куда ты пошел? почему ты исчез? (Я проголосовал против вас, и вы были в положении поул для получения принятого ответа ..)

ли способ добавитьdataframe горизонтально к другому - при условии, что оба имеют одинаковое количество строк? Это будет эквивалентноpandas concat поaxis=1; result = pd.concat([df1, df4], axis=1)илиR cbind

2 ответа

, но все еще получая ошибку, я попытался, как вы предложили, но еще не решен

чение в потоке "main" java.lang.Error: Неразрешенная проблема компиляции: Несоответствие типов: невозможно преобразовать из Iterator в Iterable в com.spark.wordcount.lession1.WordCount2.main (WordCount2.java:26) SparkConf conf = new ...

2 ответа

https://spark.apache.org/docs/latest/configuration.html#available-properties

дал скрипт pyspark, который прекрасно работает, когда я выполняю его сspark-submit: spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.6 --conf spark.cassandra.connection.host=12.34.56.68 test_cassandra.pyПоскольку ...

3 ответа

да, но я делаю `select (" member_id ") в обоих случаях.

у я получаю разные результаты для..agg(countDistinct("member_id") as "count") а также..distinct.count? Разница такая же, как междуselect count(distinct member_id) а такжеselect distinct count(member_id)?

1 ответ

Самостоятельная заметка для полноты: для добавления всех предыдущих столбцов,

я есть Spark DataFrame, где у меня есть столбец со значениями вектора. Все значения вектора являются n-мерными, то есть одинаковой длины. У меня также есть список имен столбцовArray("f1", "f2", "f3", ..., "fn")каждый соответствует одному элементу ...

1 ответ

@StatsBoy, пожалуйста, примите один из ответов

аюсь подсчитать количество уникальных элементов в каждом столбце в наборе данных искры. Однако кажется, что искра не распознает тали ()k<-collect(s%>%group_by(grouping_type)%>%summarise_each(funs(tally(distinct(.))))) Error: ...

1 ответ

docs.databricks.com/spark/latest/data-sources/...

ема: Я хотел бы использовать соединение JDBC, чтобы сделать пользовательский запрос с использованием искры. Цель этого запроса - оптимизировать распределение памяти на рабочих, поэтому я не могу использовать: ss.read .format("jdbc") ...