小小世界

山不过来,我便过去


  • 主页

  • 关于

  • 标签

  • 分类

  • Search

爬虫Day12-代理请求

Posted on 2019-08-11 | In Python爬虫
前言我们在爬虫的过程中会遇到一些反爬手段,例如封IP、封用户账号等行为,我们可以通过使用代理IP或者代理池进行代理访问,预防被反爬。如何学会代理请求是爬虫工程师必须会的技能噢~ 必须点满 代理的原理我们常称呼的代理实际上指的就是代理服务器,英文叫做 ProxyServer,它的功能是代理网络用 ...
Read more »

网络编程Day4-并发并行与同步异步

Posted on 2019-08-10 | In 网络编程
并发与并行的区别 并发:是指系统具有处理多个任务的能力。 单个CPU可以通过高频率的切换达到并发效果。 并行:是指系统具有 同时 (唯一的时间节点)处理多个任务的能力。 多核CPU能实现并行效果。 并行是并发的一个子集,并行一定是并发,而并发不一定是并行。 虽然当任务量小时,并发给我们 ...
Read more »

网络编程Day3-子线程

Posted on 2019-08-10 | In 网络编程
前言之前我们讨论了进程与线程,网络编程Day1-进程线程概念,那么,在python中如何调用呢?今天这一篇,就是介绍如何创建子线程进行调用的。并且在学习如何创建子线程之后,子进程的创建也就会了,因为他们的 API 接口都是一样的。 创建子线程创建线程有两种方法: ① 使用python替我们封装好 ...
Read more »

网络编程Day2-socket原理

Posted on 2019-08-10 | In 网络编程
前言之前我们在 计算机网络系列中提到过,应用都是依靠传输层协议进行通信的,并且,不同的网络应用使用端口号进行区分。我们知道IP层的ip地址可以唯一标识主机,而TCP协议和端口号可以唯一标示主机的一个进程。本地进程通讯中我们可以使用PID来唯一标示一个进程,但PID只在本地唯一,网络中的两个进程PID ...
Read more »

爬虫Day11-Selenium魔法师 Vs bilibili

Posted on 2019-08-06 | In Python爬虫
前言B站可谓是个资源丰富的地方,对我来说,它就是一个学习网站,里面啥都有。。。我们今天使用selenium 爬取B站信息,实现 关键词 抓取 的需求。 对于selenium 我们之前已经介绍过: 爬虫Day8-Selenium魔法师 实战url = https://www.bilibili ...
Read more »

网络编程Day1-进程线程概念

Posted on 2019-08-05 | In 网络编程
前言网络编程很重要,在实际开发环境中,很多地方会用到, 举个例子,当我们的爬虫速率太慢了,我们可以开多进程多线程进行爬取;遇到 I/O 密集型任务,我们可以采用多线程处理。 今天介绍的进程线程是理论基础,应该熟练掌握。不熟悉进程线程概念的同学,认真理清其中的区别噢~ 操作系统还记得我们之前说过 ...
Read more »

爬虫Day10-Ajax异步请求

Posted on 2019-08-04 | In Python爬虫
Ajax引言:有时候我们在用 Requests 抓取页面的时候,得到的结果可能和在浏览器中看到的是不一样的,在浏览器中可以看到正常显示的页面数据,但是得到的 Response 并没有相应的内容。 这其中的原因是 Requests 获取的都是原始的 HTML 文档,而浏览器中的页面则是页面又经过 Ja ...
Read more »

爬虫Day9-requests实战

Posted on 2019-08-04 | In Python爬虫
前言之前介绍requests 这个库的时候在文尾说过要做一篇实战的文章,今天突然想起,然后就写一下咯。 爬虫Day5-requests介绍 今天的主题是——使用 requests请求库 和 re 解析库进行爬取当当网热门top 500书籍。 url = http://bang.dangdang ...
Read more »

吐槽下环境部署

Posted on 2019-08-02 | In 蓝水星
前言今天,用了大半天的时间,部署了爬虫环境。 历经千辛万苦,终于全部搞定了。现在是晚上十一点,有些感概,对于这么一套流程,有一些思考,于是有了写下来的冲动。 鬼知道我经历了什么不夸大的说,今天遇到的BUG,已经超出了十几个,这么debug过来,一个又一个新的问题又爆出来。有时候,并不是那么顺风顺水 ...
Read more »

爬虫Day8-Selenium魔法师

Posted on 2019-07-31 | In Python爬虫
前言久违的爬虫Day 系列!! 自从计算机网络系列更新完之后,我又把目光投到爬虫系列来了hhh… 今天介绍的技术可厉害了,在外人眼中,这近乎是“魔法”,那就是——selenium 同时,这也是我目前最为喜欢的爬取工具。 Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作, ...
Read more »
1…4567

67 posts
10 categories
8 tags
友情链接
  • github
  • hexo
© 2020
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4
访客数 人 总访问量 次