indexando todos los documentos en la carpeta doc en solr FileListEntityProcessor

Question

Apr 20, 2012, 10:04 PM

indexando todos los documentos en la carpeta doc en solr FileListEntityProcessor

http://wiki.apache.org/solr/ExtractingRequestHandler no proporciona mucha información sobre cómo configurar este controlador en una aplicación web que tiene su propio contexto y desea utilizar solr como funciones del servidor como solder embebdedd. ¿Puede por favor proporcionar alguna información sobre cómo cargar los documentos para solr y buscar contenido de esos documentos? He configurado DIH como en solrConf.xml

<code><requestHandler name="/dataimport" 
   class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
        <str name="config">tika-data-config.xml</str>
    </lst>
  </requestHandler>
</code>

y tika-data-config.xml parece

<code><dataConfig>
    <dataSource type="BinFileDataSource" name="bin" />
    <document>
      <entity name="sd"
        processor="FileListEntityProcessor"
        newerThan="'NOW-30DAYS'"
        filenName=".*\.(DOC)|(PDF)|(pdf)|(doc)|(docx)|(ppt)"
        baseDir="G:/workspace/FacetedSearch/src/solr/docs"
        recursive="true"
        rootEntity="false"
          >
            <field column="fileAbsolutePath" name="path" />
            <field column="fileSize" name="size" />
            <field column="fileLastModified" name="lastmodified" />
            <field column="fileAbsolutePath" name="text" />  
            <!-- <field column="fileName" name="text" /> -->
            <field column="baseDir" name="text" />

        <!-- <entity name="tika-test" processor="TikaEntityProcessor" 
          url="${sd.fileAbsolutePath}" format="text" dataSource="bin">
         -->
         <entity name="tika-test" 
                 dataSource="bin"  
                 processor="TikaEntityProcessor" 
                 url="G:/workspace/FacetedSearch/src/solr/docs" 
                 format="text" >
          <field column="Author" name="author" meta="true"/>
          <field column="Content-Type" name="title" meta="true"/>
          <field column="title" name="title" meta="true"/>
          <field column="text" name="text"/>

        </entity>


    </entity>
  </document>

</dataConfig>
</code>

El directorio G: / workspace / FacetedSearch / src / solr / docs contiene muchos archivos pdf y html, algunos de ellos son tutorial.pdf ...... index.pdf

después de esta configuración cuando construyo el objeto solrQuery como

<code>    CoreContainer.Initializer initializer = new CoreContainer.Initializer();
    CoreContainer coreContainer = initializer.initialize();
    EmbeddedSolrServer solrServer = new EmbeddedSolrServer(coreContainer, "");  
    SolrQuery solrQuery = new SolrQuery();
    solrQuery.addField("literal.id");   
    solrQuery.setQuery("index.pdf");
    QueryResponse queryResponse = null ;
    try{
    queryResponse = (QueryResponse) solrServer.query(solrQuery);
    }catch(Exception e){
    System.out.println("exception occured while processing the solrQuery "+ 
    e.getMessage() +"stack trace " + e + solrQuery.toString()); 
    }
    out.println(queryResponse);
</code>

No obtengo ningún resultado (aquí queryResponse es nulo). Tengo el schema.xml distribuido por solr 3.5 y agregué algunos campos como

<code><field name="path" type="text_general" indexed="true" stored="true" />   
<field name="lastmodified" type="date" indexed="true" stored="true" />
</code>

Tengo preguntas como: ¿los documentos en "G: / workspace / FacetedSearch / src / solr / docs" serán indexados por solr en solr startup? Si estos están indexados, ¿cómo puedo obtener el resultado?

¿Alguien por favor me deja saber dónde estoy haciendo mal?

Por favor, hágame saber si necesito más información de mi para obtener mis respuestas.