导语:海量小文件的元数据管理、存储性能以及访问效率等问题是目前学术界和工业界公认的难题。杉岩海量对象存储MOS利用包括小文件聚合功能在内的独特技术,帮助用户应对存储资源浪费、效率低下等诸多挑战,成就大数据与人工智能时代的企业核心竞争力。
海量小文件存储访问带来公认难题
当今世界,互联 、大数据应用迅猛发展,物联 、人工智能、云计算 技术日新月异,随之而来的是各种企业和个人应用持续不断地产生亿级甚至是百亿级的海量小文件。这些小文件的元数据管理、存储性能以及访问效率等问题因而成为学术界和工业界公认的难题。
例如,国内目前最大的电商 站淘宝存储的商品图片超过 200 亿张,这些文件的平均大小仅为 15KB 左右,国外著名的 交 站Facebook 存储的图片总量更是超过了600亿张;在线视频播放服务中,每个视频会被切片服务器分割成 1MB 左右的分片文件,一部动画电影所包含的图片文件可能会超过 500 万张,平均大小为15KB;一些在线阅读图书每页内容均会被扫描成大约几十KB的图片文件……
因此,在购物 站、广电、 络视频等场景下的应用,存储系统中小文件数量众多,其空间占用一般在1M以下,操作特征为一次写入,多次读取。由于每个小文件存储都会执行一次全写流程,操作频繁,使得分布式文件系统的磁盘压力剧增并导致以下两方面的问题:
资源浪费:海量小文件的数据读取时,往往每个小文件的大小都小于一次数据传输的最小块大小。也就是无论真正有用的数据量多大,都会获取固定大小的数据,这使得有用数据占获取数据量比例过低,从而导致内存、带宽的浪费。
高访问延迟:当用户读取大量小文件时,首先选择与元数据服务器交互,当访问过于集中、信息交互过于频繁时,所产生的延迟显而易见。并且,由于很多系统目前并没有提供针对高访问延迟的预取功能,在数据存储中没有考虑文件之间的关联性,因而加剧了延迟问题。
杉岩MOS二大必杀技应对海量小文件存储挑战
针对上述难题,杉岩数据推出了自己的独门绝技,来帮助用户应对典型应用场景下的存储挑战。这其中包括:面向全局存储资源的条带化,确保应用数据的并发写入、读取;提供小文件聚合功能,有效降低小文件写入磁盘次数、减轻写数据压力;提高磁盘使用率,读小文件时将所在对象读入缓存,提高读命中率、缩短读I/O路径。
技术优势一::小文件聚合解决存储性能大难题
首先,杉岩MOS小文件聚合技术将碎片化小文件聚合成一个大文件,在数据读写时提前读取相关数据,提高缓存命中率,使得小文件(128KB以内)读写性能提高100%,读集群性能提高50%。
技术优势二:通过数据预读提高读取速度
杉岩MOS在读取某个目录下的文件时,会顺序预加载该文件后面的几个文件内容到缓存中,以加快其读取速度;此外,还使用多节点并发读操作,以加快预读速度。

同时,在非同步读取目录下的文件时,MOS还会触发对其后续文件的读请求,且这些读请求是异步的,不影响本次用户读操作的返回。如果用户紧接着读取下一个文件,且此操作不是同步操作,那么就可以直接将本地缓存的数据读出,从而避免了与OSD的交互,提高了性能。
与此同时,在预读文件时,若有对该文件的写入操作,MOS会把当前读文件放入到等待读队列中并返回,等写完成后再发信 通知重新读该文件,并将之放入到本地缓存,从而提高用户读取速度。
由于上述独特的技术机制,杉岩海量对象存储产品MOS很好地解决了小文件读写速度慢、访问延迟高、资源浪费等问题,帮助广电、电商、 络视频等用户从容应对海量小文件存储与访问挑战。目前,杉岩数据系统已经在金融、电信、政府、公安、大企业等行业客户中得到广泛应用,充分验证了其领先技术。未来,杉岩MOS软件定义存储将继续引领大数据与人工智能时代的存储技术,为用户增加其企业的核心竞争力不断创新。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!