爬虫日记(33):爬虫的基本数据库MongoDB
2023-09-14 09:10:04 时间
前面我们学习了不少例子,都是把网页上非结构化的数据转换为结构化的数据保存,演示上基本上都是保存为json文件,没有其它的保存方式了。其实我们需要使用一个数据库来保存,因为爬取的数据多了之后,就需要跨服务器共享,这时再使用文件,就会有点麻烦。当然还是可以使用文件的方式,比如使用FTP来传送。在爬虫看来,最常使用的是 MongoDB数据库,因为MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。如果选择MySQL类型的数据库也是可以的,但是它们往往插入数据的速度非常慢,并且我们得到的数据再使用SQL语句来跨表查询的机会也很少。更何况有很多图片的数据类型,或者不定长的文本类型,比如抓取一些产品的评论。
MongoDB支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
MongoDB安装
相关文章
- [mongodb]数据库备份与还原
- MongoDB学习笔记:MongoDB 数据库的命名、设计规范
- MongoDB凭什么跻身数据库排行前五?
- window上将MongoDB的启动加入到服务中
- Windows下安装MongoDB
- MapReduce with MongoDB and Python[ZT]
- MongoDB PHP数据库查询类
- 大数据时代的数据存储,非关系型数据库MongoDB
- MongoDB详解(五)——MongoDB数据库简单使用
- 不使用spring的情况下用java原生代码操作mongodb数据库的两种方式
- 〖Python 数据库开发实战 - MongoDB篇①〗- MongoDB数据库简介
- MongoDB经典故障系列一:数据库频繁启动失败怎么办?
- 补习系列(17)-springboot mongodb 内嵌数据库
- MongoDB大批量读写数据优化记录
- Node.js使用mongodb.js操作MongoDB数据库
- cassandra mongodb选择——cassandra:分布式扩展好,写性能强,以及可以预料的查询;mongodb:非事务,支持复杂查询,但是不适合报表
- 把 MongoDB 当成是纯内存数据库来使用(Redis 风格)
- 【Python】MongoDB数据库安装和Pymongo操作学习
- MongoDB数据库的备份恢复
- MongoDB数据库增删改查基本使用
- mongodb type