Github热门仓库爬虫更新了

名称: ConnectAI-E/githubTrendData

地址: https://github.com/EricLULU/githubTrendData

开发语言: python

简介: Github 热门趋势排行榜爬虫                                                                                   

今天使用爬虫抓取 Github 热门仓库的时候,发现竟然不能使用了!
经过一番检查后,发现原来是 Gihub 修改了仓库标题节点的属性值。

将标题由h1 class=“h3 lh-condensed”> 改为了h2 class=“h3 lh-condensed”> 

这样就导致了脚本不能获取仓库的名字,如下图的第一个框所示。

同时,为了更好地获取仓库的名字,选择直接从 a 标签的 href 属性中直接读取,不再读取 a 标签内的文本。如第二个和第三个框所示。

 

Github 热门仓库爬虫更新了

最终相关的代码做如下的修改。

1. 查找标题的标签

repo = article.find(‘h1’, {‘class’: ‘lh-condensed’})

修改成

repo = article.find(‘h2’, {‘class’: ‘lh-condensed’})

2. 获取仓库的名字
repo_text = replaces(repo_a.text)

修改成

repo_text = replaces(repo_a.get(‘href’))

 

有正在使用当前爬虫的小伙伴,请及时更新代码,保证爬虫可用,爬虫获取地址:

https://github.com/ConnectAI-E/Feishu-OpenAI

© 版权声明

☆ END ☆
喜欢就点个赞吧
点赞0 分享
图片正在生成中,请稍后...