Category: 爬虫学习 | 零落闲拾

Post Categories
爬虫学习 17 机器学习 10 数学建模 7 编程语言学习 1 面向对象 4 logism 1 正则表达式 1 操作系统 9 cpp 1
                            
                            Playwright的使用
                        
                                Playwright的使用介绍Playwright 是微软推出的自动化测试工具,能实现 Selenium 的同步模式和 Pyppteer 的异步模式,功能强大.
官方文档
环境配置第三方包下载
pip install playwright

                                2022-06-29
                            
                                    爬虫学习
                                
                            python
                        
                            playwright
                        
                            Pyppeteer的使用
                        
                                Pyppeteer介绍Puppeteer是基于Node.js的一个开发工具,Pyppeteer是其民间的Python版本.和Selenium类似,其也需要一个浏览器的内核,Pyppeteer使用的是Chromium浏览器.其支持async,
                            
                                2022-05-16
                            
                                    爬虫学习
                                
                            python
                        
                            pyppeteer
                        
                            Splash的使用
                        
                                Splash的使用Splash是一个JS渲染服务,本质是一个轻量级浏览器.建议Splash通过Docker安装.
Lua脚本进入Splash,能看见这样一段代码:
function main(splash, args)
  assert(s
                            
                                2022-05-08
                            
                                    爬虫学习
                                
                            python
                        
                            Lua
                        
                            splash
                        
                            Selenium的使用
                        
                                Selenium的使用Selenium是一个自动化测试工具,借助浏览器驱动可以模拟用户对浏览器的操作.因此,爬虫也可以直接使用它爬取渲染好的结果,不需要去分析加密方式.官方文档
浏览器对象初始化from selenium import we
                            
                                2022-05-07
                            
                                    爬虫学习
                                
                            python
                        
                            selenium
                        
                            异步爬虫学习
                        
                                异步爬虫相关库
asyncio: 实现协程的库
aiohttp: 发送请求的第三方库,和requests,urllib这些爬虫库的区别是该库的请求方法都是异步请求方法协程知识协程和多线程类似,对于共用数据的使用也需要加锁等待,具体细节参照多
                            
                                2022-04-05
                            
                                    爬虫学习
                                
                            python
                        
                            Ajax的爬取
                        
                                ajax介绍ajax全成Asynchronous JavaScript and XML称为异步的js和XML,是一种异步加载信息的方法.在获取了原始HTML后,对于其中的数据是通过发送Ajax请求获取的,这样能减轻渲染网页的工作量.
aja
                            
                                2022-03-13
                            
                                    爬虫学习
                                
                            python
                        
                            python与MySql存储
                        
                                2022-02-08
                            
                                    爬虫学习
                                
                            python
                        
                            MySql
                        
                            python与CSV文件存储
                        
                                写入csv文件的写入需要通过writer类构造一个对象进行写入,该类构造方法需要一个file对象,另外可以通过delimiter参数自定义分隔符
import csv

with open('data.csv','w') as csvfil
                            
                                2022-02-08
                            
                                    爬虫学习
                                
                            CSV
                        
                            python
                        
                            parsel库的使用
                        
                                parselparsel的API和Scrapy选择器的API高度相似,因为Scrapy选择器的是二次封装了parsel,类似于request和urllib.
parsel可以解析XML和HTML,支持Xpath和CSS选择器对内容的提取,同
                            
                                2022-02-03
                            
                                    爬虫学习
                                
                            python
                        
                            parsel
                        
                            pyquery的使用
                        
                                PyqueryPyquery是一个类似css选择器的东西,在解析HTML文本的时候需要先将其初始化为PyQuery对象.
初始化字符串初始化直接将HTML的内容当作初始化参数.
from pyquery import PyQuery as 
                            
                                2022-02-03
                            
                                    爬虫学习
                                
                            python
                        
                            pyquery
                        
                            Xpath的使用
                        
                                Xpath常用规则

符号
描述

nodename
选取此节点的所有结点

/
选取当前结点的子节点

//
选取当前结点的子孙(子和孙)结点

.
选取当前节点

..
选取当前节点的父节点

/*
选取所有结点

@
                            
                                2022-02-02
                            
                                    爬虫学习
                                
                            Xpath
                        
                            httpx的使用
                        
                                HTTPX的使用有些网站使用的是http/2.0的协议,这种情况下,urllilb和requests模块是不能爬取数据的,这个时候就要使用httpx.官方文档
基本使用httpx和requests很像,但是httpx有一个Client类,可
                            
                                2022-01-18
                            
                                    爬虫学习
                                
                            python
                        
                            spider