网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

开源大数据索引项目hive-solr的示例分析

这篇文章主要介绍开源大数据索引项目hive-solr的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

成都创新互联服务项目包括黟县网站建设、黟县网站制作、黟县网页制作以及黟县网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,黟县网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到黟县省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!



最新更新: 
(1)添加了对solrcloud集群的支持 
(2)修复了在反序列时对于hive中null列和空值的处理bug 
(3)优化了在构建索引时对于null值和空值的忽略 

一些测试: 

数据量:约一千二百万,8个字段,其中一个是大文本,2个是分词字段,索引前数据体积约20G 

索引总耗时:约15分钟 

索引后体积:每个shard约6G,共约18G 

Hive:限制最大并发map数为30个,怕影响Hbase服务,注意使用Hive建完索引后,需要手动commit一次,使内存索引flush到磁盘上 

批处理:每个map里面10万数据,批量处理提交一次,不commit,这个值根据情况设定,太大了容易solrcloud容易丢数据,太小了会影响速度 

solrcloud集群版本为5.1使用3台机器,每台一个shard,无副本,jetty的内存给了10G 

CPU:24核,注意大文本分词字段非常耗cpu 

solr的jvm参数调整: 
(1) 调大 SurvivorRatio 区占比,降低survivor区的内存空间 
(2)调小NewRatio区占比,增大新生代的内存空间 
(3)调大永久代MaxPermSize内存至256M 
(4)调整MaxTenuringThreshold=0 ,使大对象加速进入老年代,避免在survivor和eden区来回拷贝,使用YGC次数变多 
其他参数还是默认配置 

solr服务端配置: 
(1)关闭自动commit 
(2)设置ramBufferSizeMB为1000 ,约等1G 
(3)设置maxBufferedDocs等-1,禁用maxBufferDocs 
(4)设置mergeFactor为100 

以上是“开源大数据索引项目hive-solr的示例分析”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注创新互联行业资讯频道!


网页名称:开源大数据索引项目hive-solr的示例分析
本文网址:http://bjjierui.cn/article/gijjcd.html

其他资讯