indeksowanie wszystkich dokumentów w folderze doc do solr FileListEntityProcessor

Question

Apr 20, 2012, 10:04 PM

indeksowanie wszystkich dokumentów w folderze doc do solr FileListEntityProcessor

http://wiki.apache.org/solr/ExtractingRequestHandler nie dostarcza wiele informacji na temat konfigurowania tej obsługi w aplikacji webowej, która ma własny kontekst i chce używać solr jako funkcji serwera jako embebdedd solr. Czy możesz podać informacje na temat przesyłania dokumentów do solr i wyszukiwania niektórych treści z tych dokumentów? Skonfigurowałem DIH jak w solrConf.xml

<code><requestHandler name="/dataimport" 
   class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
        <str name="config">tika-data-config.xml</str>
    </lst>
  </requestHandler>
</code>

i wygląda na tika-data-config.xml

<code><dataConfig>
    <dataSource type="BinFileDataSource" name="bin" />
    <document>
      <entity name="sd"
        processor="FileListEntityProcessor"
        newerThan="'NOW-30DAYS'"
        filenName=".*\.(DOC)|(PDF)|(pdf)|(doc)|(docx)|(ppt)"
        baseDir="G:/workspace/FacetedSearch/src/solr/docs"
        recursive="true"
        rootEntity="false"
          >
            <field column="fileAbsolutePath" name="path" />
            <field column="fileSize" name="size" />
            <field column="fileLastModified" name="lastmodified" />
            <field column="fileAbsolutePath" name="text" />  
            <!-- <field column="fileName" name="text" /> -->
            <field column="baseDir" name="text" />

        <!-- <entity name="tika-test" processor="TikaEntityProcessor" 
          url="${sd.fileAbsolutePath}" format="text" dataSource="bin">
         -->
         <entity name="tika-test" 
                 dataSource="bin"  
                 processor="TikaEntityProcessor" 
                 url="G:/workspace/FacetedSearch/src/solr/docs" 
                 format="text" >
          <field column="Author" name="author" meta="true"/>
          <field column="Content-Type" name="title" meta="true"/>
          <field column="title" name="title" meta="true"/>
          <field column="text" name="text"/>

        </entity>


    </entity>
  </document>

</dataConfig>
</code>

katalog G: / workspace / FacetedSearch / src / solr / docs zawiera wiele plików pdf i html, niektóre z nich to tutorial.pdf ...... index.pdf

po tej konfiguracji, gdy buduję obiekt solrQuery jako

<code>    CoreContainer.Initializer initializer = new CoreContainer.Initializer();
    CoreContainer coreContainer = initializer.initialize();
    EmbeddedSolrServer solrServer = new EmbeddedSolrServer(coreContainer, "");  
    SolrQuery solrQuery = new SolrQuery();
    solrQuery.addField("literal.id");   
    solrQuery.setQuery("index.pdf");
    QueryResponse queryResponse = null ;
    try{
    queryResponse = (QueryResponse) solrServer.query(solrQuery);
    }catch(Exception e){
    System.out.println("exception occured while processing the solrQuery "+ 
    e.getMessage() +"stack trace " + e + solrQuery.toString()); 
    }
    out.println(queryResponse);
</code>

nie otrzymuję żadnego wyniku (tutaj queryResponse ma wartość null). Mam plik schema.xml dystrybuowany przez solr 3.5 i dodałem kilka pól jako

<code><field name="path" type="text_general" indexed="true" stored="true" />   
<field name="lastmodified" type="date" indexed="true" stored="true" />
</code>

Mam pytanie, czy dokumenty w „G: / workspace / FacetedSearch / src / solr / docs” będą indeksowane przez solr podczas uruchamiania solr? Jeśli są indeksowane, jak mogę uzyskać wynik?

Czy ktoś może mi powiedzieć, gdzie się mylę?

Daj mi znać, jeśli potrzebuję ode mnie więcej informacji, by zdobyć moje odpowiedzi.