交谈中请勿轻信汇款、中奖信息、陌生电话,勿使用外挂软件。
开心延年-alipay<myn@163.com> 10:18:56
风车车(54343885) 10:18:36
用多台内存服务器不行么
肯定可以啦
风车车(54343885) 10:19:14
现在内存这么便宜
开心延年-alipay<myn@163.com> 10:19:21
不是啦 存储的就是ID的值
风车车(54343885) 10:19:26
放内存,效率应该很快咯
lykke.lm(715356603) 10:19:32
你对
id 进行md5?
lykke.lm(715356603) 10:19:41
然后呢 索引??
开心延年-alipay<myn@163.com> 10:19:47
很多网站ID的值存储的就是 MD5 所以尽量模拟真实情景啦
开心延年-alipay<myn@163.com> 10:20:02
你可以存储任何值
lykke.lm(715356603) 10:20:18
很多网站的id 是url 的md5 不错大多数是 content的md5
bruce_yang(782506462) 10:20:27
lucene
bruce_yang(782506462) 10:20:42
一亿索引才8G 多啊?
lykke.lm(715356603) 10:20:52
你这个 能开源一下么 开心
bruce_yang(782506462) 10:21:06
开心你做的搜索引擎?
bruce_yang(782506462) 10:21:21
会员魔法表情:《无聊》播放 回复 收藏
lykke.lm(715356603) 10:21:21
我现在数据量 上亿条 但是 搜索速度很慢
开心延年-alipay<myn@163.com> 10:21:27
当然可以啦
开心延年-alipay<myn@163.com> 10:21:30
业余爱好而已
bruce_yang(782506462) 10:21:32
开心 说说
bruce_yang(782506462) 10:21:33
这个
bruce_yang(782506462) 10:21:38
是啥啊
bruce_yang(782506462) 10:21:42
改写lucene的?
高调-失业中(13574798) 10:21:42
开心NC
xiaolong(312210901) 10:21:58
每条数据有多大呢?
开心延年-alipay<myn@163.com> 10:22:14
每条数据有多大呢? MD5 32长度
xiaolong(312210901) 10:22:57
。。。很多
开心延年-alipay<myn@163.com> 10:23:23
呵呵 要源码的 留email
风车车(54343885) 10:23:38
everhow@163.com
kwee(836232886) 10:23:41
ikwee
sung@gmail.com
kwee(836232886) 10:23:48
风(51263) 10:23:51
squallzhong@gmail.com
lykke.lm(715356603) 10:23:56
715356603@qq.com
bruce_yang(782506462) 10:23:59
yangfuchao2010@gmail.com
bruce_yang(782506462) 10:24:02
开心
bruce_yang(782506462) 10:24:10
感恩节 记得发源码
越测越开心(19730953) 10:24:14
panluhai@gmail.com
bruce_yang(782506462) 10:24:14
kwee(836232886) 10:24:16
越测越开心(19730953) 10:24:21
感恩 哈哈
伟大的小白(439297317) 10:24:20
什么东西
伟大的小白(439297317) 10:24:25
那么多人留有向
kelo_北京(13581754) 10:24:30
13581754@qq.com
lykke.lm(715356603) 10:24:32
你们也不搞搜索 凑设呢们热闹呢
匿-新媒(670906880) 10:24:34
670906880@qq.com
开心延年-alipay<myn@163.com> 10:24:38
其实源码改动量很小啦
bruce_yang(782506462) 10:24:54
先说说吧
bruce_yang(782506462) 10:24:58
你这个是啥
bruce_yang(782506462) 10:25:01
改的lucene?
bruce_yang(782506462) 10:25:04
改的哪儿
zzy - A
nchora(251547518) 10:25:06
同求 251547518@qq.com
开心延年-alipay<myn@163.com> 10:25:19
索引更改点
1. 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
2. Te
rm压缩方式由原先,存储上一条记录的差异,存储关键点的差异(这样会照成压缩比降低,但是二分法必须这样做)
3.如果索引二分查找文档差异<128则,保留原先链表顺序查找,调用scan方法(这样做尽管读的次数增多,但考虑磁盘的物理特点,结合文件缓冲区,速度会比不断的seek快,物理硬盘适合读取连续的数据)(深入阅读缓冲区源码后,发现lucene对seek有优化,这步优化多余)
4. 由于norms同样非常消耗内存,这里创建索引的时候禁用norms,待以后改进此处
开心延年-alipay<myn@163.com> 10:25:57
伟大的小白(439297317) 10:25:57
lucene?
开心延年-alipay<myn@163.com> 10:26:05
只改动了这几个类
lykke.lm(715356603) 10:26:25
发源码吧 开心
伟大的小白(439297317) 10:26:34
跳跃表的性能 > 二分法吧
kelo_北京(13581754) 10:26:41
是呀,开心
云 - 华(46249327) 10:26:50
单机 lucene能够支持十亿级别索引的查询
lykke.lm(715356603) 10:27:05
我也觉得不可能
开心延年-alipay<myn@163.com> 10:27:18
代码给你 自己测试下就知道啦
bruce_yang(782506462) 10:27:23
改了建立索引的 java代码?
lykke.lm(715356603) 10:27:23
我现在的索引大约10个g 单机 根本不行
伟大的小白(439297317) 10:27:34
难 追求速度 需要内存全加载
bruce_yang(782506462) 10:27:42
10G 多少条数据啊
bruce_yang(782506462) 10:27:44
lm
伟大的小白(439297317) 10:27:46
那多坑跌阿
bruce_yang(782506462) 10:27:47
luykke
lykke.lm(715356603) 10:27:55
我那个 是网页
翟光亚(304428768) 10:28:01
索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
这个会占用多大内存?
翟光亚(304428768) 10:28:09
感觉没有必要这样的
伟大的小白(439297317) 10:28:30
我一直没搞明白
伟大的小白(439297317) 10:28:41
跳跃表就是为了节约内存设计的
lykke.lm(715356603) 10:28:52
单机可以查10g的搜索并且速度上可以改进的一点就是 将10g的索引 分开目录存储
lykke.lm(715356603) 10:28:59
用MulitSearch
伟大的小白(439297317) 10:29:01
怎么二分法反而内存小 。。。。?why?
伟大的小白(439297317) 10:29:08
ss
开心延年-alipay<myn@163.com> 10:29:09
13581754@qq.com;670906880@qq.com;251547518@qq.com;yangfuchao2010@gmail.com;
开心延年-alipay<myn@163.com> 10:29:14
文件二分法啊
开心延年-alipay<myn@163.com> 10:29:18
文件是定长的
lykke.lm(715356603) 10:29:21
715356603@qq,com
lykke.lm(715356603) 10:29:33
g给我发啊 哥们
kwee(836232886) 10:29:52
ikweesung@gmail.com
越测越开心(19730953) 10:29:53
还有panluhai@gmail.com 支持下阿里兄弟
kelo_北京(13581754) 10:30:02
发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事
332106123(332106123) 10:30:20
332106123@qq.com
bruce_yang(782506462) 10:30:46
kelo 你眼睛分布式?
在路上(386728737) 10:30:47
同求,386728737@qq.com,
bruce_yang(782506462) 10:30:48
研究
bruce_yang(782506462) 10:30:52
单机 ?
bruce_yang(782506462) 10:30:56
还搞啥分布式
开心延年-alipay<myn@163.com> 10:31:01
我业余时间搞着玩的哈 就修改了几天
bruce_yang(782506462) 10:31:01
知道sensei没
bruce_yang(782506462) 10:31:16
正需要做搜索呢
bruce_yang(782506462) 10:31:20
你那个不是会bug吧?
开心延年-alipay<myn@163.com> 10:31:35
你测试下
开心延年-alipay<myn@163.com> 10:31:45
验证下结果是否正确就知道了
开心延年-alipay<myn@163.com> 10:31:56
邮件中我给出了测试代码
在路上(386728737) 10:32:25
强烈建议开心把源码共享到群
kelo_北京(13581754) 10:32:39
是呀
开心延年-alipay<myn@163.com> 10:33:11
都发给大家了
风(51263) 10:33:50
squallzhong@gmail.com,我也要一份

- 大小: 11.1 KB