GridFS:基于MongoDB的分布式文件存储系统详解大数据
简单来说,GridFS通过将文件数据和文件元数据保存在MongoDB里来实现文件系统,通过复制(Replication)来应对故障切换,数据集成,还可以用来做读扩展,热备份或者作为离线批处理的数据源,通过分片来实现自动切分数据,实现大数据存储和负载均衡,通过数据库对集合中文档的管理和查询(包括MapReduce)实现轻量级文件系统接口和搜索与分析。
GridFS的一个基本思想是可以将大文件分成很多块,每一块作为一个单独的文档存储,则有就能存储大文件了。由于MongoDB支持在文档中存储二进制数据,可以最大限度减小块的存储开销。GridFS使用MongoDB的复制,分片等机制来实现分布式文件存储,使用MongoDB进行管理和复杂分析。
GridFS使用两个文档来存储文件,一个用来存储文件本身的块,另外一个用来存储分块的信息和文件的元数据,默认对应的集合分别为fs.chunks和fs.files.
Chunks集合:
{
“_id”: string ,
“files_id”: string ,
“n”: num ,
“data”: binary
}
块集合中文档包含以下属性:chunk_id:块ID。Chunks.files_id:对应files集合中文档的_id。Chunks.n:块的编号,由GridFS管理,从0开始。Chunks.data:文件数据,是BSON二进制类型。
Chunks集合使用files_id和n作为混合索引,files集合:
{
“_id”: ObjectID ,
“length”: num ,
“chunkSize”: num ,
“uploadDate”: timestamp ,
“md5”: hash ,
“filename”: string ,
“contentType”: string ,
“aliases”: string array ,
“metadata”: dataObject
}
Files集合中的文档包含以下属性,应用还可以创建额外任意的属性:files_id:唯一的文件表示。MongoDB的默认值是BOSN ObjectID。 Files.length: 文件的字节数大小。Files.chunkSize:每个块的大小,默认为256KB,GridFS根据这个值将文件分成多个快,files.uploadDate:GridFS第一次存储此文件的时间,类型为ISODate。Files.md5: 文件的md5散列值,是字符串。 Files.filename:可选。人类可读的文件名。Files.contentType: 可选。合法的文件MIME类型。Files.aliases:可选。别名的字符串数组。Files.metadata:可选。自定义存储的文件元数据。
可以通过mongofiles工具或者MongoDB驱动程序来使用GridFS,GridFS主要提供5种操作接口:
List:获取文件列表
Get:获取文件
Put:写入文件
Search:根据文件名搜索文件
Delete:删除文件
因为GridFS文件的元数据存储在files集合中,因此GridFS可以非常方便地进行文件管理,比如根据文件名,上传时间,文件大小或者自定义的文件元数据进行查询,还可以利用MapReduce做复杂数据分析。这是GridFS把传统文件系统和数据库相结合得到的众多好处之一。
对比传统文件系统的优势
分布式:GridFS是基于MongoDB的分布式文件系统,可以直接使用MongoDB Replication和Sharding机制,数据可靠性和水平扩展性都得到保证。GridFS不产生磁盘碎片,因为MongoDB分配数据文件空间时以2GB为一块。
MapReduce:可以进行复杂管理和查询分析。
索引和缓存:元数据存储在MongoDB中,非常方便索引,并且可以对文件和文件元数据进行索引,能提高系统效率。
Checksum: GridFS会为文件产生散列值,可用于校验文件以检查完整性。
开发者友好:利用Grid可以简化需求,减小开发成本。要是已经用了MongoDB,GridFS就可以不需要使用独立文件存储架构,并且使代码和数据真正分离,方便管理。
其他: GridFS可以避免用于存储用户上传内容的文件系统出现的某些问题。例如,GridFS在同一个目录下防止大量的文件是没有任何问题的。GridFS不产生磁盘碎片,因为MongoDB分配数据文件空间时以2GB为一块。
转载请注明来源网站:blog.ytso.com谢谢!
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/9708.html
分布式文件系统,分布式数据库区块链并行处理(MPP)数据库,数据挖掘开源大数据平台数据中台数据分析数据开发数据治理数据湖数据采集相关文章
- MongoDB引领时尚数据库新浪潮(mongodb引擎)
- MongoDB 实现增量数据同步(mongodb增量同步)
- MongoDB: 适合应用于何种场景?(mongodb适用场景)
- 开发MongoDB爬虫开发入门教程(mongodb爬虫)
- MongoDB时间戳:记录数据变动历史(mongodb时间戳)
- MongoDB创建新管理员用户(mongodb添加管理员)
- 数据无处不在:MongoDB导入实践(mongodb导入数据)
- 最新研究MongoDB在数据管理中的应用(mongodb论文)
- MongoDB日志管理系统:实现日志精确追踪(日志系统mongodb)
- 体验MongoDB助力用户体验升级(mongodb用户)
- 什么是MongoDB?(mongodb是什么)
- 快速实现数据存储尝试MongoDB搭建教程(mongodb搭建)
- Mongodb 记录当前时间,时刻掌握数据更新情况(mongodb当前时间)
- MongoDB:高效存储文档的首选数据库方案(mongodb存储文档)
- Mongodb长连接:高效稳定的数据传输方式(mongodb长连接)
- MongoDB数据库压缩技术研究(mongodb压缩)
- 使用MongoDB查看表数据的快捷方式(mongodb查看表数据)
- 化MongoDB格式化:优化数据存储(mongodb格式)
- Efficient Data Cleaning with MongoDB: Tips and Tricks(mongodb清理数据)
- 了解MongoDB的安全性:保护数据的最佳方法(mongodb安全性)
- Mongodb解决中文乱码问题的方法详解(mongodb中文乱码)
- Mongodb异地容灾实现数据可靠性(mongodb 异地容灾)
- 使用C语言操作MongoDB(c语言mongodb)
- Mongodb的新版本发布:未来的NoSQL存储库(mongodb的版本)
- 深入了解MongoDB中文API(mongodb中文api)