怎么样爬qq好友空间?怎么样爬qq好友空间的留言?
文章目录
(资料图片仅供参考)
前言一、分析1.获取cookie2.分析含留言内容的url 二、代码与效果1.源代码2.效果展示 总结
前言
今天讲一下怎么样爬qq好友空间的留言
提示:以下是本篇文章正文内容,下面案例可供参考
一、分析
1.好友空间需要登陆才能获取,所以我们需要一个cookie 2.然后才能进行我们的一个爬虫
1.获取cookie
QQ空间登陆链接 进入后先摁下F12,再扫码或者账号密码登录空间。 进入空间后点击先Network,选择All,将滚轮滑到最上面,点击第一个含有你qq号的链接,右边出来以后往下滑找到cookie这里的cookie就是我们需要的了。
2.分析含留言内容的url
cookie有了我们就来分析好友留言板的链接。 进入好友空间,并点击留言板,摁下F12,选择XHR,然后把网页滑到最下面点击第二页加载完成后点击第三页然后右边name下就会出现类似的几个网页,这里我们需要的留言内容在一个get_msgb开头的链接下。 然后再回过头来比较他们的url,这里选择三个相邻的url来作比较。 这里呢我找到两个不同的地方,但是我发现第二个r=后面一串数字好像不加上也没问题,一样请求能得到响应。 那么就来看这第一个不同的地方,这一看是成倍数增长的,那么就可以确定他是(页数-1)*10得来的。
二、代码与效果
1.源代码
代码如下(示例):
# -!- coding: utf-8 -!-import reimport timeimport requestsfrom threading import Thread #多线程class Qqspider: def __init__(self): self.url = "https://user.qzone.qq.com/proxy/domain/m.qzone.qq.com/cgi-bin/new/get_msgb?uin=#这里是你自己的账号#&hostUin=#好友的账号#&num=10&start={}&hostword=0&essence=1&iNotice=0&inCharset=utf-8&outCharset=utf-8&format=jsonp&ref=qzone&g_tk=1453454822&g_tk=1453454822" #这里的start一定要={}!!!记得复制粘贴的一定要修改!!! self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36", "cookie":"写入自己空间的cookie",} self.lis = [] self.f = open("content1.txt","w",encoding="utf-8") #写入一个txt文本 #请求函数 def get_html(self,url): response = requests.get(url=url,headers=self.headers) return response #数据解析函数 def parse_html(self,regex,html): content = regex.findall(html) for i in content: item = {} item["qq"] = i[0] item["name"] = i[1] item["content"] = i[2] self.f.write(i[1]+" >>> "+i[2]+"\n") print(item) #数据提取函数 def crawl(self,i): while self.lis: response = self.get_html(self.lis.pop(0)).text regex = re.compile(""uin":(.*?),.*?"nickname":"(.*?)",.*?"capacity":.*?,.*?"htmlContent":".*?",.*?"ubbContent":"(.*?)",",re.S) self.parse_html(regex,response) print("{}完成一個!".format(i)) time.sleep(0.2) # 创建多线程 def job(self): jobs = [] for i in range(16): a = Thread(target=self.crawl,args=(i,)) jobs.append(a) a.start() [i.join() for i in jobs] #主函数 def run(self): for i in range(158): #空间留言的页数 self.lis.append(self.url.format(i*10)) self.job() self.f.close()if __name__ == "__main__": spider = Qqspider() spider.run()
2.效果展示
一共1575条留言,一条不差
总结
大家有什么不懂得地方可以私信我哦。要是有什么不对的地方还望大佬指出。 谢谢大家的点赞与阅读,
标签: 留言内容
相关推荐:
最新新闻:
- 磁盘被写保护怎么解除?c盘哪些文件可以删除?
- kernelupadate.exe是什么程序?提示已停止工作的解决方法
- chkdsk工具怎么运行?chkdsk工具使用方法命令
- ie打开后自动关闭是怎么回事?ie打开后自动关闭的解决方法
- 弹出winlogon.exe应用程序错误怎么办?弹出winlogon.exe应用程序错误原因分析及解决方法
- 品牌机和组装机有什么区别?品牌机和组装机区别介绍
- 世界滚动:第二章Python入门2.1环境安装 Python详情介绍
- Vagaa搜索不到资源是怎么回事?介绍Vagaa搜索设置技巧及解决方法
- 超级本是什么意思?超级本与笔记本有什么区别?
- 怎么样爬qq好友空间?怎么样爬qq好友空间的留言?
- XP系统支持多大的内存?XP可以支持4G以上的内存吗?
- 不用光盘怎么重装系统?重装系统的详细步骤
- 手机白屏是怎么一回事?诺基亚手机很卡怎么办?
- 电驴未连接到服务器怎么办?电驴现在还能用吗?
- 哪些华硕笔记本电脑的性价比最高?华硕笔记本大全
- 笔记本电池第一次充电要充满吗?笔记本电池怎么取下来?
- 数据寄存器是什么?它的作用有哪些?
- 传奇黑屏补丁怎么用?传奇进去之后黑屏怎么办?
- 语言栏消失如何修复?语言栏消失修复方法
- 百度网盘下载慢怎么办?百度网盘下载慢解决方法
- 遇到d3dx9_42.dll文件丢失该怎么办?遇到d3dx9_42.dll文件丢失解决方法步骤
- 打印机什么牌子好用?打印机品牌推荐 焦点信息
- SWAP是什么?SWAP信令特点介绍
- 手机显示单卡双模什么意思?单卡双模手机特点及分辨方法
- 每日速看!机房设备如何维护?机房日常维护的八点措施
- XP系统工作组计算机无法访问怎么解决?无法访问的解决技巧
- 如何查看电信宽带用时方式流程?查宽带上网时间的方式
- 如何解除dnf的红字?解除dnf红字的方法步骤
- 《使命召唤16》及战区迎来万圣节限时活动 迅游加速器助力流畅体验
- 热文:《红色警戒3:起义时刻》游戏介绍 红色警戒3起义时刻配置要求
- egui.exe是什么进程?如何创建主键?
- 昱怎么读?昱的拼音是什么?昱的含义|动态焦点
- 中国电脑品牌排行榜:联想电脑销售量世界第一_每日视讯
- 每日速看!【设计函数】1010一元多项式求导(25分)设计解析
- Photoshop中overlay方式是什么?Photoshop中的overlay模式:环球时快讯
- 全球动态:三星i408是多少钱?三星i408报价及详细测评介绍
- 环球速看:看图软件哪个好?看图工具那个好?
- 开源社区网:FileillaClient3.5.2正式版发布|全球快报
- 奇兔刷机怎么用?奇兔刷机使用教程
- 手机tf卡哪个牌子好?选购的注意事项有哪些?|新视野
- 如何判断浮子上升?压力水位传感器原理及六种方法
- 诺基亚X7-00如何插入存储卡?插入存储卡的方法
- 什么是指纹识别?在笔记本电脑中的应用有哪些? 焦点快看
- 阿里旺旺无法登陆怎么办?阿里旺旺无法登陆的解决措施
- hold是什么意思?hold住的简单介绍|全球资讯
- 全球焦点!elo触摸屏显示器多少钱?elo触摸屏显示器品牌介绍
- 斗牛怎么玩?QQ斗牛作弊器怎么用?|每日视点
- 主机"键鼠狗"被制裁!育碧将推出《彩虹六号:围攻》键鼠反作弊
- 《惊声尖叫6》发布终极预告:再次直面鬼脸杀手!|天天观察
- iPhone 15真机边框曝光 苹果保密工作越来越差:焦点播报
- 《命运2》新增隐藏异域武器任务 可获Vex偃月
- 美国两架飞机相撞坠入湖中:至少1人死亡 飞机残骸漂浮画面曝光
- 调整人才结构聚焦供需错配,找工呀为汽车行业蓝领人才困境提供解决方案
- iPhone 15真机曝光 直角边框有弧度了
- 当前看点!追觅吸尘器女神节抖音专场:解放双手,追求更好的自己
- R7-7735HS神U加持!粉色限定色迷你主机低至2499元
- iPhone 14黄色版开箱:香蕉黄外观不错
- 世界动态:instead和insteadof的区别是什么?instead和insteadof的含义
- 光纤宽带的电话线是怎么用的?光纤宽带和ADSL宽带有什么区别? 环球播资讯
- Sta和Stakeholder是什么意思?Sta和Stakeholder有什么区别?
- 什么是OTS?阿里云飞天分布式系统之上的数据库 微动态
- 今日热议:【技术】设备控制用通讯协定——GEM&Control
- 十进制数如何转换为浮点数?十进制数转换为浮点数的方法
- 全球观点:Cosmos-1-理论知识全解析 gumptlu.work/Cosmos-pdf下载教程
- 如何在搜寻数据库时快速找到档案?locate命令用法举例
- METER功能信号的分类及频谱分析
- 案例分享:感染Synaptics蠕虫病毒的360安全卫士
- find命令详解 linux下find命令的使用方法
- 什么是Oops?linux之Oops原理及解析|动态
- 天天实时:CAP为什么没有明确考虑收敛性?分布式系统中的收敛性
- 密锣紧鼓地开发年度盛典 BigoLive前端营收组同比更佳|当前热文
- ExcelOOP函数怎么使用?Excel中VLOOKUP函数的详细用法
- 用比特彗星如何下载?路由器端口映射教程
- javascript_initialize构造函数 子类的构造函数|世界独家
- Unlocker解锁VMwareWorkstation虚拟机