Python爬虫:动态爬取QQ说说并生成词云,分析朋友状况

Python爬虫:动态爬取QQ说说并生成词云,分析朋友状况

今天我们要做的事情是使用动态爬虫来爬取QQ空间的说说,并把这些内容存在txt中,然后读取出来生成云图,这样可以清晰的看出朋友的状况。

这是好友的QQ空间10年说说内容,基本有一个大致的印象了。

爬取动态内容因为动态页面的内容是动态加载出来的,所以我们需要不断下滑,加载页面切换到当前内容的frame中,也有可能不是frame,这里需要查看具体情况获取页面源数据,然后放入xpath中,然后读取代码语言:javascript复制 # 下拉滚动条,使浏览器加载出动态加载的内容,

# 我这里是从1开始到6结束 分5 次加载完每页数据

for i in range(1,6):

height = 20000*i#每次滑动20000像素

strWord = "window.scrollBy(0,"+str(height)+")"

driver.execute_script(strWord)

time.sleep(4)

# 很多时候网页由多个或