Category: 爬虫学习 | 零落闲拾

零落闲拾

Post Categories

爬虫学习 17 机器学习 10 数学建模 7 编程语言学习 1 面向对象 4 logism 1 正则表达式 1 操作系统 9 cpp 1

                            
                            urllib的使用
                        
                                前言这是python自带的爬虫相关模块,但市面上有更好的BeautifulSoup模块和requests模块.如果是速成爬虫直接学习那两个模块用法即可,但requests模块是使用urllib搭建而成,如果时间不急,可以从底层看起.
url
                            
                                2022-01-16
                            
                                    爬虫学习
                                
                            python
                        
                            spider
                        
                            Requests的使用
                        
                                Requests的应用Get请求import requests

### 添加params
data = {
    'name':'admin',
    'password':'passward'
}
### 添加h
                            
                                2022-01-16
                            
                                    爬虫学习
                                
                            python
                        
                            spider
                        
                            爬虫基础
                        
                                一、爬虫的基本原理概述爬虫就是假装浏览器爬取网页并获取信息.
爬取数据类型
最常见的就是爬虫能爬取JSON形式的HTML代码.
对于js,css等文件,需分析源代码后台Ajax接口,或者使用Selenium,Splash,Pyppeteer
                            
                                2022-01-16
                            
                                    爬虫学习
                                
                            spider
                        
                            http基础
                        
                                HTTP基本原理1. URI  和  URL URI = URL(统一资源定位符,需要有路径) + URN(统一资源名称,只需要独一无二,例如ID card)URL 统一格式:scheme://[username:password@]hos
                            
                                2022-01-16
                            
                                    爬虫学习
                                
                            spider
                        
                            响应状态码
                        
状态码
状态码英文名称
中文描述

100
Continue
继续。客户端应继续其请求

101
Switching Protocols
切换协议。服务器根据客户端的请求切换协议。只能切换到更高级的协议，例如，切换到HTTP的新
                            
                                2022-01-16
                            
                                    爬虫学习
                                
                            http

            
2 / 2