Analizar CSV como DataFrame / DataSet con Apache Spark y Java

Question

Aug 18, 2014, 02:07 PM

apache-spark apache-spark-sql hdfs java hadoop

Analizar CSV como DataFrame / DataSet con Apache Spark y Java

Soy nuevo en spark, y quiero usar group-by & reduce para encontrar lo siguiente de CSV (una línea por empleado):

  Department, Designation, costToCompany, State
  Sales, Trainee, 12000, UP
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, TN
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, TN 
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, LA
  Marketing, Associate, 18000, TN
  Marketing, Associate, 18000, TN
  HR, Manager, 58000, TN

Me gustaría simplificar el acerca de CSV con group byDepartamento, Designación, Estado con columnas adicionales consum (costToCompany) yTotalEmployeeCount

Debería obtener un resultado como:

  Dept, Desg, state, empCount, totalCost
  Sales,Lead,AP,2,64000
  Sales,Lead,LA,3,96000  
  Sales,Lead,TN,2,64000

¿Hay alguna manera de lograr esto usando transformaciones y acciones? ¿O deberíamos ir para operaciones RDD?

Respuestas a la pregunta(4)

Preguntas populares

0 la respuesta

supervisor saliendo con ENOEXEC

0 la respuesta

obtener un navegador renderizado html + javascript

0 la respuesta

Usando OpenXML para guardar una presentación de PowerPoint como un PDF

0 la respuesta

C # HTML5 Websocket Server

0 la respuesta

UIScrollView - mostrando la barra de desplazamiento

¡Eres muy activo! ¡Es genial!

Analizar CSV como DataFrame / DataSet con Apache Spark y Java

Respuestas a la pregunta(4)

Su respuesta a la pregunta

Preguntas populares