Regex Java ou Pig para remover valores da string UserAgent
Preciso remover o terceiro e os valores subsequentes no componente 'entre parênteses' da sequência do agente do usuári
Para obter
Mozilla / 4.0 (compatível; MSIE 8.0)
a partir d
Mozilla / 4.0 (compatível; MSIE 8.0; Windows NT 6.0; Trident / 4.0; GTB6; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.5.30729; WinTSI 06.12.2009; .NET CLR 3.0 .30729; .NET4.0C)
Eu uso com sucesso o comando sed
sed 's/(\([^;]\+; [^;]\+\)[^)]*)/(\1)/'
Preciso obter o mesmo resultado emApache Pig com um regex Java. Alguém poderia me ajudar a reescrever a expressão regular sed acima em Java?
Algo como
new = FOREACH userAgent GENERATE FLATTEN(EXTRACT(userAgent, 'JAVA REGEX?') as (term:chararray);