Результаты поиска по запросу "apache-spark"

0 ответов

и я не вижу никаких записей внутри писателя. Но единственная аномалия в том, что текущая дата - 2018/05/24, но запись, которую я обрабатываю (ts2), имеет старые даты. Будет ли агрегация / подсчет работать в этом сценарии?

аюсь агрегировать количество записей каждые 10 секунд, используя структурированную потоковую передачу для следующих входящих данных Кафки { "ts2" : "2018/05/01 00:02:50.041", "serviceGroupId" : "123", "userId" : "avv-0", "stream" : "", ...

1 ответ

или же

я есть датафрейм, который содержит записи, идентифицированные ключом. Но может быть случай, когда ключ может стать повторяющимся. Моя цель - объединить все записи на основе этого ключа следующим образом Предположим, что мой входной фрейм данных ...

2 ответа

посмотри здесь

ы можем перезаписать многораздельный набор данных, но только те разделы, которые мы собираемся изменить? Например, пересчет ежедневной работы за последнюю неделю и перезапись только данных за последнюю неделю. Поведение Spark по умолчанию ...

ТОП публикаций

1 ответ

Выход:

от вопрос уже есть ответ здесь: Как отобразить вложенный Dataframe в Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 ответУ меня есть датафрейм в искре, который похож на: column_A | column_B --------- -------- 1 1,12,21 ...

2 ответа

Вы можете сначала сэмплировать разделы, а затем сэмплировать их. Таким образом, вам не нужно полное сканирование таблицы, но она работает только в том случае, если само разбиение является случайным. AFAIK, вам нужно использовать RDD API для этого. Это может выглядеть так (вставьте числа, соответствующие желаемому количеству образцов):

аюсь выполнить простую случайную выборку со Scala из существующей таблицы, содержащей около 100e6 записей. import org.apache.spark.sql.SaveMode val nSamples = 3e5.toInt val frac = 1e-5 val table = ...

1 ответ

список зависимостей

аюсь запустить простую запись данных в пример ElasticSearch. Тем не менее, я продолжаю получать эту ошибку: EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not ...

2 ответа

Вы также можете попробовать это. Это может обрабатывать как пустое / пустое / нулевое

могу заменить пустые значения в столбцеField1 DataFramedf? Field1 Field2 AA 12 BBЭта команда не дает ожидаемого результата: df.na.fill("Field1",Seq("Anonymous"))Ожидаемый результат: Field1 Field2 Anonymous AA 12 BB

2 ответа

Контент представлен в виде json, а framework_id позволяет найти связанных исполнителей и их потребление памяти, использование процессора и т. Д., Приведенные в таблице.

и Mesos Web UI я вижу использование памяти моих исполнителей Spark в виде таблицы. Agents -> Framework -> Executors Существует таблица со списком всех исполнителей для моего драйвера Spark, и их использование памяти указано в столбцеMem (Used / ...

1 ответ

но используйте его на свой страх и риск, и только если вы полностью понимаете гарантии вышестоящего плана выполнения.

могу выполнить сведение приведенного ниже фрейма данных, т. Е. Иметь только одну запись для общего ключа и его значений в виде кортежа и поддерживать порядок значений. Я могу сделать свертку, но не могу поддерживать порядок ...

1 ответ

Также в отношении «Обратите внимание, что фабрика считывателей будет сериализована и отправлена исполнителям, затем будет создан считыватель данных для исполнителей и будет выполняться фактическое чтение». Реализация сокета соблюдает это - просто статическая часть буфера данных сериализуется как часть фабрики и читается.

аюсь написать собственный приемник дляStructured Streaming что будет потреблять сообщения отRabbitMQ. Spark недавно выпущенный [https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html] DataSource V2 API, который кажется очень ...