Linux安全网 - Linux操作系统_Linux 命令_Linux教程_Linux黑客

会员投稿 投稿指南 本期推荐:
搜索:
您的位置: Linux安全网 > Linux编程 > » 正文

Apache Solr索引富文本(html word pdf)(4)

来源: 未知 分享至:
        query.setParam(\"hl.fl\"\"content\");  
  •   
  •         QueryResponse ret = server.query(query);  
  •   
  •         System.out.println(ret);  
  •     }  
  • }  
  •  

    solrj要成功运行,需要导入下列包才行

    From /dist:

    apache-solr-solrj-3.1.0.jar

    From /dist/solrj-lib: 
    commons-codec-1.4.jar 
    commons-httpclient-3.1.jar 
    jcl-over-slf4j-1.5.5.jar 
    slf4j-api-1.5.5.jar

    下面这个包需要去官方下载,因为本人在solr3.1中是没发现这个jar包的,估计是在低版本中有
    slf4j-jdk14-1.5.5.jar

    solr从1.4版本开始,将apache Tika合并进来,Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。solr中利用这个工具可以很简单实现对pdf、word等富文本的提取

     

    我的是3.1版,在实现过程中,走了很多弯路,终于还是自己解决了,下面分享一下

    view plain
    1. package test;  
    2.   
    3. import java.io.File;  
    4. import java.io.IOException;  
    5. import org.apache.solr.client.solrj.SolrServer;  
    6. import org.apache.solr.client.solrj.SolrServerException;  
    7.   
    8. import org.apache.solr.client.solrj.request.AbstractUpdateRequest;  

    Tags:
    分享至:
    最新图文资讯
    1 2 3 4 5 6
    验证码:点击我更换图片 理智评论文明上网,拒绝恶意谩骂 用户名:
    关于我们 - 联系我们 - 广告服务 - 友情链接 - 网站地图 - 版权声明 - 发展历史