一年前看过某个公众号的某个文章,但是我忘了…

写在前边

1)先说问题:大概去年某个时间在微信上看过一篇文章,当时候觉得有意思,但是没有收藏;只记得几个关键字,想用微信直接搜,结果又太多了;就…「想得却不可得,你奈人生何?」
2)好在搜狗可以搜微信文章,大概是这样,就想试着用程序爬一下:
3)结论:方法是成功了,结果却没有拿到,原因在于搜狗搜索貌似没有检索到这篇文章(叹气),就简单记录下爬取的方法吧。

代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
import sys
import time
import re
from bs4 import BeautifulSoup
from selenium import webdriver
import pandas as pd

# 登陆, 不然只能查 10 页的搜索结果
driver = webdriver.Firefox() # 这里一定要用火狐的驱动,chrome 的登陆后会被识别...
url = 'https://weixin.sogou.com'
driver.get(url)
time.sleep(5)
driver.find_element_by_id('loginBtn').click()
time.sleep(10)

# 翻页,并且获取每页的公众号和链接(貌似只返回 100 页)
df = pd.DataFrame(columns = ['name', 'link'])
keyword = '南京 买房 规划局'
for page_number in range(0, sys.maxsize):
print(page_number)
time.sleep(10)
url = 'https://weixin.sogou.com/weixin?query='+keyword+'&s_from=input&_sug_=y&type=2&page='+str(page_number)+'&ie=utf8'
driver.get(url)
soup = BeautifulSoup(driver.page_source, "html.parser")
contents = soup.find_all(class_ = "txt-box")
for content in contents:
content_dict = dict()
link_and_name = content.find_all('a')
link = link_and_name[0]['href']
name = link_and_name[1].text
content_dict['name'] = name
content_dict['link'] = link
df = df.append(content_dict, ignore_index = True)

# 然后去看有没有自己想要的公众号;

写在后边

1)上边的脚本还是有些问题,比如如果短时间翻页太多,会让你输验证码;拿到的链接其实不是真实公众号文章的链接,需要再做一下处理,时间关系,我就没有实现,相应的一些解决办法在参考链接里;
2)看到好的文章,句子啊,记得平时做好记录;

参考链接

https://blog.csdn.net/m0_46521785/article/details/113776386
https://www.pythonf.cn/read/129313
https://segmentfault.com/a/1190000023622107

(✪ω✪)