功能强大的社交媒体网络爬虫,免费使用

这期给大家介绍一款开源网络爬虫,可以爬取社交媒体上的图片、视频、评论,适用于微博,小红书,抖音,B 站等 。

这个网络爬虫项目开源不到 10 个月,就收到 14k stars 和 4k forks。由于热度太高,就有人偷了代码,在网上卖钱用于商业行为,所以作者不得不写了一个免责声明,同时提醒大家不要上当受骗:

功能强大的社交媒体网络爬虫,免费使用

功能强大的社交媒体网络爬虫,免费使用



   项目简介        

MediaCrawler 是一个开源免费的自媒体爬虫解决方案,使用 Python 语言编写,支持多个自媒体平台,包括某书、某音、某博、B 站、某手。
做到了开箱即用,使用 Python 原生协程模式进行开发,方便实现二次开发以及实现高并发爬虫的模型,亦可使用同样的解决方案去规避一些逆向难度高的网站。
功能强大的社交媒体网络爬虫,免费使用

   项目特点      
  1. 开箱即用、
  2. 适用于主流的媒体网站,比如小红书,抖音等
  3. 支持多种数据保存方式,如 mysql , csv,json 等

   安装        
1. 下载代码
2. 创建 python 虚拟环境
# 进入项目根目录cd MediaCrawler
# 创建虚拟环境# 注意 python 版本需要 3.7 - 3.9 python -m venv venv
# macos & linux 激活虚拟环境source venv/bin/activate
# windows 激活虚拟环境venvScriptsactivate

3. 安装依赖

pip3 install -r requirements.txt

4.安装 playwright 浏览器驱动

playwright install

   运行爬虫程序        

执行下面的命令,就可以运行爬虫,抓取指定网站的信息:

# 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论python main.py --platform xhs --lt qrcode --type search
# 从配置文件中读取指定的帖子 ID 列表获取指定帖子的信息与评论信息python main.py --platform xhs --lt qrcode --type detail
# 打开对应 APP 扫二维码登录 # 其他平台爬虫使用示例,执行下面的命令查看python main.py --help

   小结一下       

大模型时代,数据就是 AI 的燃料。我自己也在维护一个 Github 爬虫,每天爬一下 Github 热门仓库,跟踪开源热点。

但是使用爬虫时,我们需要遵守网站的 robots.txt 协议和相关的法律法规,避免触碰数据合规红线,否则真的应了那句话“爬虫玩得好,某饭吃到饱”。

这里顺便推荐一个整理了所有中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规的开源仓库,供大家参考学习:

https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China

更多详细内容,可以到项目仓库查看,项目仓库地址:

https://github.com/NanmiCoder/MediaCrawler
© 版权声明

☆ END ☆
喜欢就点个赞吧
点赞0 分享
图片正在生成中,请稍后...