Результаты поиска по запросу "apache-spark"
Затем вы можете отсортировать столбец «Группа» в любом порядке. Приведенное выше решение почти имеет его, но важно помнить, что row_number начинается с 1, а не с 0.
ьзуя pyspark, я хотел бы иметь возможность сгруппировать фрейм данных spark, отсортировать группу, а затем указать номер строки. Так Group Date A 2000 A 2002 A 2007 B 1999 B 2015Станет Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B 2015 1
https://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.Column.substr
способ получить последний символ из строки в столбце данных и поместить его в другой столбец. У меня есть Spark Dataframe, который выглядит следующим образом: animal ====== cat mouse snakeЯ хочу что-то вроде этого: lastchar ======== t e ...
Можно было бы избежать декартово произведение с
case class Foo1(codes:Seq[String], name:String) case class Foo2(code:String, description:String) val ds1 = Seq( Foo1(Seq("A"), "foo1"), Foo1(Seq("A", "B"), "foo2"), Foo1(Seq("B", "C", "D"), "foo3"), Foo1(Seq("C"), "foo4"), Foo1(Seq("C", "D"), ...
Предположим, у нас есть 9 цифр после десятичной дроби, нам действительно нужно указать
ичок в Spark SQL и пытаюсь преобразовать строку во временную метку во фрейме данных spark. У меня есть строка, которая выглядит как'2017-08-01T02:26:59.000Z' в столбце с именем time_string Мой код для преобразования этой строки в метку ...
В Spark 1.6 вы можете сделать то же самое с
ел бы удалить строки изcol1 которые присутствуют вcol2: val df = spark.createDataFrame(Seq( ("Hi I heard about Spark", "Spark"), ("I wish Java could use case classes", "Java"), ("Logistic regression models are neat", "models") ...
Если у вас есть два приемника, это означает, что у вас есть два запроса. Каждый запрос имеет своего собственного потребителя Kafka и получает данные из Kafka независимо.
пользуем Kafka для структурированной потоковой передачи и записи обработанных данных в s3. Мы также хотим записать обработанные данные в Кафку, продвигаясь вперед, возможно ли сделать это из того же потокового запроса? (искра версия 2.1.1) В ...
stackoverflow.com/questions/47867743/...
аюсь отфильтровать данные файла в хорошие и плохие данные за дату, поэтому получу 2 файла результатов. Из тестового файла первые 4 строки должны идти в хороших данных и последние 2 строки в плохих данных. У меня 2 вопроса Я не получаю хорошие ...
stackoverflow.com/questions/45707205/...
у несколько сообщений, которые содержат ту же ошибку, что и ошибка, которую я получаю, но ни одна из них не приводит меня к исправлению моего кода. Я использовал этот же код много раз без проблем, и теперь у меня проблемы. Вот ошибка, которую я ...
https://github.com/apache/incubator-livy/blob/412ccc8fcf96854fedbe76af8e5a6fec2c542d25/repl/src/test/scala/org/apache/livy/repl/PythonInterpreterSpec.scala#L105
ентация по Apache Livy скудна: можно ли возвращать наборы результатов Spark SQL-запросов как вызовы REST, используя Apache Livy? Вызывающее приложение мобильное и не может использовать odbc / jdbc для подключения. Так что Spark ThriftServer не ...
используется для определения разделов задач фреймворка. обычно применяется для операций RDD.
разница междуspark.sql.shuffle.partitions а такжеspark.default.parallelism? Я пытался установить их обоих вSparkSQL, но номер задачи второго этапа всегда 200.