爬虫技术成就了这些商业公司的 python网络爬虫小猿人
从98年google以搜索技术起家开始,互联网至今,以提供内容为主的互联网企业每一家都离不开小爬虫的帮助,大到互联网巨头,小到刚成立没几天的创业公司, 在早期没有足够内容来撑住自家网站和app时,都会采取抓取手段来补充内容,让自家产品显得内容满满。
还有好些公司的商业模式就建立在爬虫技术之上的,比如搜索引擎公司、大数据处理公司、网络舆情监控公司,没有数据,他们的公司就没法运转。
另外现如今互联网公司的获客成本上升,出现了增长黑客这个概念,里面的大量运营技巧都是要依赖于爬虫技术的手段来驱动,这里不是指抓数据,而是模仿用户请求,模仿用户操作,自动发贴等手法来新增和激活用户。
接下来老猿就来浅谈几家在这方面做得成功的公司。
1.提到爬虫,必然会说起搜索引擎,它是直接利用爬虫抓取信息来构建底层服务的。简单粗暴,但是直接有效,而如今世界上最大的两家搜索引擎服务公司(google和百度),已分别是7千亿和600亿美金市值。
2.现在已是国民资讯app的今日头条,早期通过抓取数百家机构的新闻源,然后以技术手段来分发给用户,做到千人千面的阅读体验,现在已是中国互联网公司第三极。
这也是一个在早期直接利用爬虫手段而成功的例子,如果不抓取别人的新闻资讯,今日头条根本不可能成功。
3.做职场社交,获得2亿美金投资的脉脉,早期直接抓取微博用户信息,用来弥补自身用户数量的不足,完成了脉脉早期几百万用户积累,不过脉脉抓取微博用户信息已被法院判决为非法,做社交媒体和舆情监控的估计没几家没抓过微博的数据吧。要小心噢。
当下随着国家知识产权法规越来越完善和严格,这种直接抓取别人信息然后直接商业化的行为够你进去蹲几年了。所以要慎重哦!!!
每个时代都有它所谓的企业原罪,8090年代是企业产权不明,要论互联网时代的原罪估计就是企业早期冷启动时抓取的内容是否应该直接商业化吧。
如果现在再做一个类似搜索引擎和今日头条的产品,不解决版权问题,会随时被请喝茶吧。那么现在爬虫抓取的内容就不能商业化了吗?
也不尽然,比如政府公开的数据是可以直接商用的。
4.在企业工商信息查询领域另辟蹊径的天眼查/企查查。 这两家企业把各个省,市的官方几千万家工商信息抓取出来,结构化整合后提供给用户查询,让人眼前一亮。
这个APP已成为创业者,投资人,老板们的标配APP,查询法人信息,企业股权结构等等一目了然。类似的数据还有商标,专利,法院判决文书等等
另外在电商领域抓取各家电商平台做比价网站一直是一个商业模式,比如即将在A股上市的什么值得买,把各家电商网站的商品和价格抓取过来,把他们的价格差异展示出来,方便用户查看哪家网站的便宜,但是后来各家电商网站都把价格信息图片化之后,解析准确价格的难度就加大了不少。
再比如在纳斯达克上市,后又被私有化的去哪儿网,在早期能够崛起成为一个机票和酒店预定的流量入口,就是他的搜索比价模式,实时抓取各家机票和酒店信息,把价格差异展示出来,而这正击中了用户想要买便宜的需求。
用抓取的数据发展成为一个商业模式的例子还有很多,以上举了几个较为知名的,还有老猿了解的很多个人站长,自由职业者都是靠着抓取和整合数据做出了不错的流量和用户,每年有不菲的收入,在面朝大海,春暖花开的地方,吃着火锅,喝着小酒,以后再为大家一一道来。
相关文章
- 【Python】python 日期操作
- 第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求
- linxu 查看python解释器或者c/c++编译器的位置
- python xlwt 设置单元格样式-合并单元格
- Python 字符串_python 字符串截取_python 字符串替换_python 字符串连接
- Atitit nlp自然语言处理类库(java python nodejs c#net) 目录 1.1. Python snownlp1 1.2. NLP.js一个nodejs/javascri
- 【Python基础】python爬虫之异步网络爬虫ǃ
- Python:更改默认启动的python程序及其对应的安装包路径(更改pip的默认安装包的路径)图文教程之详细攻略
- Python:更改默认启动的python程序及其对应的安装包路径(更改pip的默认安装包的路径)图文教程之详细攻略
- Python语言学习:在python中,如何获取变量的本身字符串名字而非其值/内容及其应用(在代码中如何查找同值的所有变量名)
- 已解决2. Set PROTOCOL_BUPFERS_PYTHON_iMPLEMENTATION=python (but this will use pure-Python parsing and w
- 已解决Visit python.org to download an earlier version of Python.
- 〖Python自动化办公篇⑥〗- word文件自动化 - word操作与读取word文件
- 〖Python 数据库开发实战 - Python与MySQL交互篇⑩〗- 创建新闻管理系统的具体python文件
- 〖Python 数据库开发实战 - Python与MySQL交互篇⑫〗- 项目实战- 实现新闻管理模块
- 【Python成长之路】python并发学习:多进程与多线程的用法及场景介绍
- 【自然语言处理】Python基于逻辑回归模型进行电影评论情感分析项目实战
- python版的安卓base64
- python爬虫模块之HTML解析模块
- python爬虫多线程编程
- 【华为OD机试 2023】士兵过河(C++ Java JavaScript Python)
- Python: yield, python 实现tail -f
- python 元组
- Python标准库:内置函数help([object])
- Python Unit Test - 5 mock-1
- 【Python基础】python爬虫之异步网络爬虫ǃ
- 【python】Python实现网络爬虫demo实例
- Python基于OpenCV&ORB和特征匹配的双视频图像拼接(源码&部署教程)