Lucen入门使用

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。

通用小说爬虫思路及JAVA实现

想弄一个通用的小说爬虫,经过我的构想,觉得还是用正则匹配才行。首先用正则提取了正文,记过我在多个网站的测试,已经差不多可以适配大多数了贴下正则
博客
分类
标签
归档
关于