首页
技术小册
AIGC
面试刷题
技术文章
MAGENTO
云计算
视频课程
源码下载
PDF书籍
「涨薪秘籍」
登录
注册
爬虫概述
爬虫能做什么
爬虫开发技术概述
Python的安装和运行
整数、浮点数和变量
python中的变量
字符串、列表、元组
数据的读取
切片操作
拼接与修改
Python中的字典
Python中的集合
if条件语句
and和or的短路效应
多重条件判断
使用字典实现多重条件控制
Python中的for循环
Python中的while循环
跳过本次循环与退出循环
使用Python获取网页源代码
requests介绍与安装
使用requests获取网页源代码
多线程爬虫
开发多线程爬虫
爬虫的常见搜索算法
实战案例——小说网站爬虫开发
模拟登录知乎
使用Selenium模拟登录
使用Cookies登录
登录验证码-肉眼打码
登录验证码-自动打码
当前位置:
首页>>
技术小册>>
Python爬虫入门与实战开发(上)
小册名称:Python爬虫入门与实战开发(上)
1.2.1 收集数据 爬虫可以用来收集数据。这也是爬虫最直接、最常用的使用方法。由于爬虫是一种程序,程序的运行速度极快,而且不会因为做重复的事情就感觉到疲劳,因此使用爬虫来获取大量的数据,就变得极其简单和快捷了。 由于现在99%以上的网站都是基于模板开发的,使用模板可以快速生成相同版式、不同内容的大量页面。因此,只要针对一个页面开发出了爬虫,那么这个爬虫也能爬取基于同一个模板生成的不同页面。这种爬虫称为定向爬虫,也是本书所要讲到的爬虫类型。 请看图1-1和图1-2,这是起点中文网的“玄幻频道”和“奇幻频道”页面。 ![](/uploads/images/20231209/ebd1fa93dc566a5569f4fceb66ea5cd1.png) 图1-1和图1-2所示的这两个版面除了内容不一样外,其他地方完全一样。只要爬虫能爬取“玄幻频道”,那么就能爬取“奇幻频道”。假设要把这两个页面的内容都获取下来,如果人工来操作,就需要对两个页面进行复制及粘贴,做很多重复的工作。而如果使用爬虫,那么只需要开发“玄幻频道”的爬虫就能实现既能爬取“玄幻频道”又能爬取“奇幻频道”的目标。 正是由于现在的网站大量使用了模板来生成页面,所以爬虫才能够有用武之地。 1.2.2 尽职调查 所谓的尽职调查,一般是指投资人在投资一个公司之前,需要知道这个公司是否如他们自己所描述的一样尽职尽责地工作,是否有偷奸耍滑、篡改数据、欺骗投资人的嫌疑。在过去,尽职调查一般通过调查目标公司的客户或者审计财务报表来实现。而有了爬虫以后,要做尽职调查就方便很多了。 例如调查一个电商公司,想知道他们的商品销售情况。该公司自己声称每个月销售额几亿元。如果使用爬虫爬取了该公司网站所有商品的销量情况,那么就可以计算出该公司的实际总销售额。而且,如果爬取了所有的评论并进行分析,还可以发现该网站是否出现了刷单的行为。 数据不会说谎,特别是数据量极大的数据,人工伪造的总会和自然生成的存在区别。而在以前,对于数据量极大的数据进行搜集是一件非常困难的事情,但现在有了爬虫的帮助,很多欺骗行为都会赤裸裸地暴露在阳光下。 1.2.3 刷流量和秒杀 刷流量是爬虫天然自带的功能。当爬虫访问了一个网站时,如果这个爬虫隐藏得很好,网站不能识别这一次访问来自于爬虫,那么就会把它当成正常访问。于是,爬虫就“不小心”地刷了网站的访问量。 除了刷流量外,爬虫也可以参与各种秒杀活动,包括但不限于在各种电商网站上抢商品,抢优惠券,抢机票和火车票。目前,网上有不少人专门使用爬虫来参加各种活动,并从中盈利。这种行为一般称为“薅羊毛”,这种人被称为“羊毛党”。不过使用爬虫来“薅羊毛”进行盈利的行为实际上游走在法律的灰色地带,希望读者不要轻易尝试。
上一篇:
爬虫概述
下一篇:
爬虫开发技术概述
该分类下的相关小册推荐:
Python合辑12-面向对象
Python编程轻松进阶(五)
Python合辑3-字符串用法深度总结
Python合辑13-面向对象编程案例(上)
Python编程轻松进阶(四)
Python与办公-玩转Word
Python机器学习实战
Python机器学习基础教程(上)
Python编程轻松进阶(三)
剑指Python(万变不离其宗)
Python面试指南
Python合辑1-Python语言基础