网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

Hadoop中HDFS小文件产生场景及其处理方案

影响:
    1、文件的元数据存储在namenode中,每个文件的元数据都差不多大,小文件过多会极大的占用namonode
的内存,制约集群的扩展。(主要影响)
    2、在对小文件进行处理的时候,一个小文件对应一个maptask,一个maptask会起一个jvm进程,进程的
开启销毁会严重性能。(jvm复用)

产生场景:
    1、实时处理:比如我们使用 Spark Streaming 从外部数据源接收数据,然后经过 ETL 处理之后存储
       到 HDFS 中。这种情况下在每个 Job 中会产生大量的小文件。
    2、hive中对表执行insert操作,每次插入都在表目录下形成一个小文件。
       创建表结构相同的表,create table t_new as select * from t_old;
       老表根据实际情况可以删除就删除。
    3、hive中执行简单过滤操作,符合过滤条件的数据存在很多block块中,只走map,map输出有很多小文    
       件。 
        开启map端的聚合。       
    4、mapreduce正常执行产生小文件。
        将mapreduce输出不直接写hdfs,而是写入到hbase中。
        设置map端文件合并及reduce端文件合并。
    5、输入数据文件为小文件。
        小文件合并后再计算。
        CombineFileInputFormat: 它是一种新的inputformat,用于将多个文件合并成一个单独的    
                            split,另外,它会考虑数据的存储位置。

通用处理方案:
1、Hadoop Archive
    Hadoop Archive或者HAR,是一个高效地将小文件放入HDFS块中的文件存档工具,它能够将多个小文件
打包成一个HAR文件,这样在减少namenode内存使用的同时,仍然允许对文件进行透明的访问。

2、Sequence file
    sequence file由一系列的二进制key/value组成,如果为key小文件名,value为文件内容,则可以将
大批小文件合并成一个大文件。

底层处理方案:
HDFS-8998:
    DataNode划分小文件区,专门存储小文件。一个block块满了开始使用下一个block。
HDFS-8286:
    将元数据从namenode从内存移到第三方k-v存储系统中。
 HDFS-7240:
    Apache Hadoop Ozone,hadoop子项目,为扩展hdfs而生。

网站标题:Hadoop中HDFS小文件产生场景及其处理方案
转载来源:http://bjjierui.cn/article/ppgisg.html

其他资讯