zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

爬虫日记(33):爬虫的基本数据库MongoDB

MongoDB数据库爬虫 基本 日记 33
2023-09-14 09:10:04 时间

前面我们学习了不少例子,都是把网页上非结构化的数据转换为结构化的数据保存,演示上基本上都是保存为json文件,没有其它的保存方式了。其实我们需要使用一个数据库来保存,因为爬取的数据多了之后,就需要跨服务器共享,这时再使用文件,就会有点麻烦。当然还是可以使用文件的方式,比如使用FTP来传送。在爬虫看来,最常使用的是 MongoDB数据库,因为MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。如果选择MySQL类型的数据库也是可以的,但是它们往往插入数据的速度非常慢,并且我们得到的数据再使用SQL语句来跨表查询的机会也很少。更何况有很多图片的数据类型,或者不定长的文本类型,比如抓取一些产品的评论。

 

MongoDB支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。

 

MongoDB安装

打开网页https://www.mongodb.com/try/download/com