Linux安全网 - Linux操作系统_Linux 命令_Linux教程_Linux黑客

会员投稿 投稿指南 本期推荐:
搜索:
您的位置: Linux安全网 > Linux集群 > Architecture > » 正文

索引由原先的128位的跳跃表,更改为二分法查找

来源: sealbird 分享至:
交谈中请勿轻信汇款、中奖信息、陌生电话,勿使用外挂软件。

开心延年-alipay<myn@163.com>  10:18:56
风车车(54343885)  10:18:36
用多台内存服务器不行么


肯定可以啦 
风车车(54343885)  10:19:14
现在内存这么便宜
开心延年-alipay<myn@163.com>  10:19:21
不是啦 存储的就是ID的值  
风车车(54343885)  10:19:26
放内存,效率应该很快咯
lykke.lm(715356603)  10:19:32
你对id 进行md5?
lykke.lm(715356603)  10:19:41
然后呢 索引??
开心延年-alipay<myn@163.com>  10:19:47
很多网站ID的值存储的就是 MD5  所以尽量模拟真实情景啦
开心延年-alipay<myn@163.com>  10:20:02
你可以存储任何值
lykke.lm(715356603)  10:20:18
很多网站的id 是url 的md5 不错大多数是 content的md5
bruce_yang(782506462)  10:20:27
lucene
bruce_yang(782506462)  10:20:42
一亿索引才8G 多啊?
lykke.lm(715356603)  10:20:52
你这个 能开源一下么  开心
bruce_yang(782506462)  10:21:06
开心你做的搜索引擎?
bruce_yang(782506462)  10:21:21
会员魔法表情:《无聊》播放  回复  收藏
lykke.lm(715356603)  10:21:21
我现在数据量 上亿条 但是 搜索速度很慢
开心延年-alipay<myn@163.com>  10:21:27
当然可以啦
开心延年-alipay<myn@163.com>  10:21:30
业余爱好而已
bruce_yang(782506462)  10:21:32
开心 说说
bruce_yang(782506462)  10:21:33
这个
bruce_yang(782506462)  10:21:38
是啥啊
bruce_yang(782506462)  10:21:42
改写lucene的?
高调-失业中(13574798)  10:21:42
开心NC
xiaolong(312210901)  10:21:58
每条数据有多大呢?  
开心延年-alipay<myn@163.com>  10:22:14
每条数据有多大呢?      MD5 32长度
xiaolong(312210901)  10:22:57
。。。很多  
开心延年-alipay<myn@163.com>  10:23:23
呵呵  要源码的 留email
风车车(54343885)  10:23:38
everhow@163.com
kwee(836232886)  10:23:41
ikweesung@gmail.com
kwee(836232886)  10:23:48

风(51263)  10:23:51
squallzhong@gmail.com
lykke.lm(715356603)  10:23:56
715356603@qq.com

bruce_yang(782506462)  10:23:59
yangfuchao2010@gmail.com
bruce_yang(782506462)  10:24:02
开心
bruce_yang(782506462)  10:24:10
感恩节 记得发源码
越测越开心(19730953)  10:24:14
panluhai@gmail.com
bruce_yang(782506462)  10:24:14

kwee(836232886)  10:24:16

越测越开心(19730953)  10:24:21
感恩 哈哈
伟大的小白(439297317)  10:24:20
什么东西
伟大的小白(439297317)  10:24:25
那么多人留有向
kelo_北京(13581754)  10:24:30
13581754@qq.com
lykke.lm(715356603)  10:24:32
你们也不搞搜索 凑设呢们热闹呢
匿-新媒(670906880)  10:24:34
670906880@qq.com
开心延年-alipay<myn@163.com>  10:24:38
其实源码改动量很小啦
bruce_yang(782506462)  10:24:54
先说说吧
bruce_yang(782506462)  10:24:58
你这个是啥
bruce_yang(782506462)  10:25:01
改的lucene?
bruce_yang(782506462)  10:25:04
改的哪儿

zzy - Anchora(251547518)  10:25:06
同求 251547518@qq.com
开心延年-alipay<myn@163.com>  10:25:19
索引更改点
1. 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
2. Term压缩方式由原先,存储上一条记录的差异,存储关键点的差异(这样会照成压缩比降低,但是二分法必须这样做)
3.如果索引二分查找文档差异<128则,保留原先链表顺序查找,调用scan方法(这样做尽管读的次数增多,但考虑磁盘的物理特点,结合文件缓冲区,速度会比不断的seek快,物理硬盘适合读取连续的数据)(深入阅读缓冲区源码后,发现lucene对seek有优化,这步优化多余)
4. 由于norms同样非常消耗内存,这里创建索引的时候禁用norms,待以后改进此处

开心延年-alipay<myn@163.com>  10:25:57

伟大的小白(439297317)  10:25:57
lucene?
开心延年-alipay<myn@163.com>  10:26:05
只改动了这几个类
lykke.lm(715356603)  10:26:25
发源码吧 开心
伟大的小白(439297317)  10:26:34
跳跃表的性能 > 二分法吧
kelo_北京(13581754)  10:26:41
是呀,开心
云 - 华(46249327)  10:26:50
单机 lucene能够支持十亿级别索引的查询  
lykke.lm(715356603)  10:27:05


我也觉得不可能
开心延年-alipay<myn@163.com>  10:27:18
代码给你  自己测试下就知道啦
bruce_yang(782506462)  10:27:23
改了建立索引的 java代码?
lykke.lm(715356603)  10:27:23
我现在的索引大约10个g 单机 根本不行
伟大的小白(439297317)  10:27:34
难 追求速度 需要内存全加载
bruce_yang(782506462)  10:27:42
10G 多少条数据啊
bruce_yang(782506462)  10:27:44
lm
伟大的小白(439297317)  10:27:46
那多坑跌阿
bruce_yang(782506462)  10:27:47
luykke
lykke.lm(715356603)  10:27:55
我那个 是网页
翟光亚(304428768)  10:28:01
索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
这个会占用多大内存?
翟光亚(304428768)  10:28:09
感觉没有必要这样的
伟大的小白(439297317)  10:28:30
我一直没搞明白
伟大的小白(439297317)  10:28:41
跳跃表就是为了节约内存设计的
lykke.lm(715356603)  10:28:52
单机可以查10g的搜索并且速度上可以改进的一点就是 将10g的索引 分开目录存储
lykke.lm(715356603)  10:28:59
用MulitSearch
伟大的小白(439297317)  10:29:01
怎么二分法反而内存小 。。。。?why?
伟大的小白(439297317)  10:29:08
ss
开心延年-alipay<myn@163.com>  10:29:09
13581754@qq.com;670906880@qq.com;251547518@qq.com;yangfuchao2010@gmail.com;
开心延年-alipay<myn@163.com>  10:29:14
文件二分法啊
开心延年-alipay<myn@163.com>  10:29:18
文件是定长的
lykke.lm(715356603)  10:29:21
715356603@qq,com
lykke.lm(715356603)  10:29:33
g给我发啊 哥们
kwee(836232886)  10:29:52
ikweesung@gmail.com
越测越开心(19730953)  10:29:53
还有panluhai@gmail.com  支持下阿里兄弟
kelo_北京(13581754)  10:30:02
发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事
332106123(332106123)  10:30:20
332106123@qq.com 
bruce_yang(782506462)  10:30:46
kelo 你眼睛分布式?
在路上(386728737)  10:30:47
同求,386728737@qq.com,
bruce_yang(782506462)  10:30:48
研究
bruce_yang(782506462)  10:30:52
单机 ?
bruce_yang(782506462)  10:30:56
还搞啥分布式
开心延年-alipay<myn@163.com>  10:31:01
我业余时间搞着玩的哈   就修改了几天
bruce_yang(782506462)  10:31:01
知道sensei没
bruce_yang(782506462)  10:31:16
正需要做搜索呢
bruce_yang(782506462)  10:31:20
你那个不是会bug吧?
开心延年-alipay<myn@163.com>  10:31:35
你测试下
开心延年-alipay<myn@163.com>  10:31:45
验证下结果是否正确就知道了
开心延年-alipay<myn@163.com>  10:31:56
邮件中我给出了测试代码
在路上(386728737)  10:32:25
强烈建议开心把源码共享到群
kelo_北京(13581754)  10:32:39
是呀
开心延年-alipay<myn@163.com>  10:33:11
都发给大家了
风(51263)  10:33:50
squallzhong@gmail.com,我也要一份
  • 大小: 11.1 KB
  • 查看图片附件

Tags:
分享至:
最新图文资讯
1 2 3 4 5 6
验证码:点击我更换图片 理智评论文明上网,拒绝恶意谩骂 用户名:
关于我们 - 联系我们 - 广告服务 - 友情链接 - 网站地图 - 版权声明 - 发展历史