零落闲拾
Playwright的使用 Playwright的使用
Playwright的使用介绍Playwright 是微软推出的自动化测试工具,能实现 Selenium 的同步模式和 Pyppteer 的异步模式,功能强大. 官方文档 环境配置第三方包下载 pip install playwright
2022-06-29
Pyppeteer的使用 Pyppeteer的使用
Pyppeteer介绍Puppeteer是基于Node.js的一个开发工具,Pyppeteer是其民间的Python版本.和Selenium类似,其也需要一个浏览器的内核,Pyppeteer使用的是Chromium浏览器.其支持async,
2022-05-16
Splash的使用 Splash的使用
Splash的使用Splash是一个JS渲染服务,本质是一个轻量级浏览器.建议Splash通过Docker安装. Lua脚本进入Splash,能看见这样一段代码: function main(splash, args) assert(s
2022-05-08
Selenium的使用 Selenium的使用
Selenium的使用Selenium是一个自动化测试工具,借助浏览器驱动可以模拟用户对浏览器的操作.因此,爬虫也可以直接使用它爬取渲染好的结果,不需要去分析加密方式.官方文档 浏览器对象初始化from selenium import we
2022-05-07
异步爬虫学习 异步爬虫学习
异步爬虫相关库 asyncio: 实现协程的库 aiohttp: 发送请求的第三方库,和requests,urllib这些爬虫库的区别是该库的请求方法都是异步请求方法协程知识协程和多线程类似,对于共用数据的使用也需要加锁等待,具体细节参照多
2022-04-05
Ajax的爬取 Ajax的爬取
ajax介绍ajax全成Asynchronous JavaScript and XML称为异步的js和XML,是一种异步加载信息的方法.在获取了原始HTML后,对于其中的数据是通过发送Ajax请求获取的,这样能减轻渲染网页的工作量. aja
2022-03-13
python与CSV文件存储 python与CSV文件存储
写入csv文件的写入需要通过writer类构造一个对象进行写入,该类构造方法需要一个file对象,另外可以通过delimiter参数自定义分隔符 import csv with open('data.csv','w') as csvfil
2022-02-08
parsel库的使用 parsel库的使用
parselparsel的API和Scrapy选择器的API高度相似,因为Scrapy选择器的是二次封装了parsel,类似于request和urllib. parsel可以解析XML和HTML,支持Xpath和CSS选择器对内容的提取,同
2022-02-03
pyquery的使用 pyquery的使用
PyqueryPyquery是一个类似css选择器的东西,在解析HTML文本的时候需要先将其初始化为PyQuery对象. 初始化字符串初始化直接将HTML的内容当作初始化参数. from pyquery import PyQuery as
2022-02-03
Xpath的使用 Xpath的使用
Xpath常用规则 符号 描述 nodename 选取此节点的所有结点 / 选取当前结点的子节点 // 选取当前结点的子孙(子和孙)结点 . 选取当前节点 .. 选取当前节点的父节点 /* 选取所有结点 @
2022-02-02
httpx的使用 httpx的使用
HTTPX的使用有些网站使用的是http/2.0的协议,这种情况下,urllilb和requests模块是不能爬取数据的,这个时候就要使用httpx.官方文档 基本使用httpx和requests很像,但是httpx有一个Client类,可
2022-01-18
1 / 2