又过去一年,写了个脚本抓取2024年吾爱破解论坛公众号历史文章阅读量前10的文章,导出的excel数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数等。
部分golang代码:
[Python] 纯文本查看 复制代码
client := &http.Client{} reqest, err := http.NewRequest("GET", url, nil) if err != nil { panic(err) } response, _ := client.Do(reqest) defer response.Body.Close() bResp, _ := io.ReadAll(response.Body) content := string(bResp) var voiceids = regexp.MustCompile(`data-voiceid="(.*)"`).FindAllStringSubmatch(content, -1) var titles = regexp.MustCompile(`data-title="(.*)" data-voiceid`).FindAllStringSubmatch(content, -1) fileName := "wechat.txt" fileContent, _ := ioutil.ReadFile(fileName) var voice_urls = regexp.MustCompile(`\n`).Split(string(fileContent), -1) var f2 *os.File for k, v := range voiceids { if InArray(voice_urls, "https://res.wx.qq.com/voice/getvoice?mediaid="+v[1]) { continue } res, _ := http.Get("https://res.wx.qq.com/voice/getvoice?mediaid=" + v[1]) f, _ := os.Create(titles[k][1] + ".mp3") io.Copy(f, res.Body) if Exists(fileName) { f2, _ = os.OpenFile(fileName, os.O_APPEND, 0666) } else { f2, _ = os.Create(fileName) } defer f2.Close() _, _ = f2.WriteString("https://res.wx.qq.com/voice/getvoice?mediaid=" + v[1] + "\n")

2024年发布文章101篇,阅读数10万+只有一篇2024年3月8日发布的 《【开放注册公告】吾爱破解论坛2024年3月13日十六周年开放注册公告》
留言最多的文章是2024年11月12日发布的《光棍节开放注册四小时共注册44107人》 ,有317条留言 。
赞赏人数最多的文章是2024年3月14日发布的《十六周年开放注册四小时共注册46677人》,有46人赞赏。
所有文章合成的pdf文件大小180MB,分享给论坛的小伙伴,网盘地址 https://pan.quark.cn/s/0d070e15ca8c
转载声明:本站发布文章及版权归原作者所有,转载本站文章请注明文章来源!