Solr: usando o fragmentador Regex para extrair parágrafos

Question

Dec 12, 2008, 11:01 PM

Solr: usando o fragmentador Regex para extrair parágrafos

Publiquei esta mensagem na lista de emails do Solr, mas também estou tentando aqui, caso haja um especialista do Solr à espreita.

Estou tentando usar o fragmentador regex e estou tendo dificuldades para obter os resultados desejados. Estou tentando obter fragmentos que começam com um caractere de palavra e terminam com pontuação, mas, por alguma razão, os fragmentos que estão sendo devolvidos para mim parecem ser muito inflexíveis, apesar de eu ter fornecido uma grande mancha. Aqui estão os parâmetros relevantes que estou usando, talvez alguém possa ajudar a apontar onde errei:

<str name="hl.fragsize">500</str>
<str name="hl.fragmenter">regex</str>
<str name="hl.regex.slop">0.8</str>
<str name="hl.regex.pattern">[\w].*{400,600}[.!?]</str>
<str name="hl">true</str>
<str name="q">chinese</str>

Deve corresponder entre 400 e 600 caracteres, começando com um caractere de palavra e terminando com um de.!?. Aqui está um exemplo de um resultado típico:

. Confira essas fotos. Nove filhotes de panda em exibição pela primeira vez quinta-feira no sudoeste da China. Eles têm menos de um ano de idade. Eles recentemente pararam de mamar. Restam apenas 1.600 desses indivíduos nas florestas montanhosas do centro da China, outros 120 em criadouros e zoológicos chineses. E são cerca de 20 que vivem fora da China em zoológicos. Eles existem quase inteiramente em bambu. Eles podem viver até os 30 anos de idade. E esses pequenos vão eventualmente ficar muito maiores. Eles vão crescer

Como você pode ver, ele começa com um ponto final e termina com um caractere de palavra! É quase como se os fragmentos estivessem saindo como desejariam e o regex não estivesse fazendo nada, mas os resultados são diferentes quando eu uso o fragmentador de lacunas. No resultado acima, não vejo nenhuma razão para que ele não deva ter sido retirado do período anterior e, nas duas últimas palavras, há muito espaço no slop e no padrão regex. Por favor, ajude-me a descobrir o que estou fazendo de errado ...

Muito obrigado,

Marca