Github 爬虫更新!
点击上方 壹家大数据,关注后发现更多精彩内容
数据来源:https://github.com/trending,后台回复 230101,获取 github 爬虫

免费提供 github 热搜历史数据,后台回复 邮箱 即可

昨天,一直使用的好好的爬虫脚本,突然不能使用了,一直提示抓取失败,难道 Github Trending 页面又更新了?


打开后台,查看报错日志,可以看到是数组越界了。定位到出问题的代码行数,可以看到现在是不能获取开源的项目的 start forks 了。


Github 爬虫更新!

到这里基本可以确定是 GitHub 的 Trending 页面修改了 forksstart 的属性或者是其他的元素。


接下来就好办了,看看 Trending 网页的 start forks 元素现在是什么样子不就清楚了。


打开 F12, 使用左上角的 选择元素进行检查 的工具,定位到 start forks 元素,然后查看 class 属性


Github 爬虫更新!

可以看到现在的 class 的属性是 Link Link–muted d-inline-block mr-3。

然后打开脚本,发现爬虫脚本中定位元素使用的是 Link–muted d-inline-block mr-3。


Github 爬虫更新!


对比之后,可以看到,Gtihub Trending 页面修改了 class 属性,新增加了一个Link ,那就在脚本中也新增加一个 Link 属性就好了。


添加完毕后,运行爬虫脚本,就能继续正常干活了。


Github 爬虫更新!


爬虫脚本的最新修改已经上传到 Github,请及时更新保证脚本可用。

后台回复 230101 获取脚本下载地址。

© 版权声明

☆ END ☆
喜欢就点个赞吧
点赞0 分享
图片正在生成中,请稍后...