自定义查询-
最近学习了es的视频,感觉这个产品对于查询来说非常方便,但是如何应用到我们自己的 产品中来呢。因为我们的产品数据更新太快,其实不太适合用es做主力存储。并且我们的业务还没有到那种巨量级别,产品的服务器容量也有限,所以我打算根据es的倒排索引的原理,自己写一个查询的组件。
我的理解是这样的,有大量的文字需要进行模糊查询,在mysql中,如果使用like的话是非常合适的,目前我就是采用这种方式查询的,因为数据量还未到千万级别,速度也还行,不过马上要突破了,所以要考虑优化的事情了。所以我的思路是这样的:
1 首先将数据库中的大段文字和标题都提取出来。
2 这些文字都对应了主键。
3 使用jcseg分词将一段文字进行分词,然后将分好的词语主键保存到redis中去。
4 为了节省空间,只分重要的业务关键字,其他无关的分词都不需要。
5 因为数据量巨大,在进行数据提取的时候,采用了线程池,优化了采集速度。
使用的代码如下:
package com.liandyao.caop.caopdata.service.impl.ESearch;
import cn.hutool.core.util.StrUtil;
import com.liandyao.caop.caopdata.entity.CaiCaop;
import com.liandyao.caop.caopdata.mapper.CaiMapper;
import com.liandyao.caop.utils.ChineseSegment;
import com.liandyao.caop.utils.async.AsyncManager;
import com.liandyao.caop.utils.redis.RedisUtil;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;
import org.springframework.transaction.annotation.Transactional;
import java.util.List;
import java.util.TimerTask;
import java.util.concurrent.atomic.AtomicInteger;
/**
* 倒排索引的研究
* @author liandyao
* @date 2022年6月24日
*/
@Service
public class CaiInvertedIndex {
/**
* 原子类型的数字
*/
public static AtomicInteger atomic = new AtomicInteger();
/**
* 每页查询多少条
*/
public static int SIZE = 1000 ;
/**
* KEY
*/
public static String REDIS_KEY = "INVD_INDX:MYSQL_DATA:CAOPU";
@Autowired
CaipMapper caopMapper;
@Autowired
RedisUtil redisUtil ;
/**
* 同步数据到redis
*/
@Transactional
public void sysnCaopDataToRedis(int pages){
System.out.println(pages);
//每页显示1000条
int startRows = (pages - 1) * SIZE ;
List<CaiCaop> listCaop =caopMapper.selectListByPage(startRows,SIZE);
System.out.println("查询的条数:"+listCaop.size());
listCaop.forEach(caop->{
//加入到redis中
redisUtil.leftPush(REDIS_KEY,caop);
//最后一个执行的id,因为多线程的原因可能不是最后一个,这里只是记录一下
redisUtil.set(REDIS_KEY+"LAST_ID",caop.getId());
});
}
/**
* 加入分词信息
*/
public void segCaopData(){
long caopSize = redisUtil.lGetListSize(REDIS_KEY);
System.out.println("正在处理,共有:"+caopSize+"条数据");
int i = 0;
while(i<caopSize){
//运行一次增加1
i++;
AsyncManager.me().execute(new TimerTask() {
@Override
public void run() {
CaiCaop caop = (CaiCaop) redisUtil.rightPop(REDIS_KEY);
if(caop!=null){
String content = caop.getContent()+" "+caop.getAddress();
List<String> typeNames = StrUtil.split(caop.getTypeName(),",");
//先将种类作为倒序索引加入redis
typeNames.forEach(str->{
if(StrUtil.isNotBlank(str)){
redisUtil.zsetAdd(REDIS_KEY+":"+str,caop.getId(),caop.getUpdateDate().getTime());
}
});
//再进行分词
List<String> list = ChineseSegment.segment(content);
list.forEach(segWord->{
redisUtil.zsetAdd(REDIS_KEY+":"+segWord,caop.getId(),caop.getUpdateDate().getTime());
});
System.out.println("处理成功:"+caop.getId());
}
}
});
}
}
public static void main(String[] args) {
}
}


