这期给大家介绍一款开源网络爬虫,可以爬取社交媒体上的图片、视频、评论,适用于微博,小红书,抖音,B 站等 。
这个网络爬虫项目开源不到 10 个月,就收到 14k stars 和 4k forks。由于热度太高,就有人偷了代码,在网上卖钱用于商业行为,所以作者不得不写了一个免责声明,同时提醒大家不要上当受骗:
项目简介

-
开箱即用、 -
适用于主流的媒体网站,比如小红书,抖音等 -
支持多种数据保存方式,如 mysql , csv,json 等
# 进入项目根目录
cd MediaCrawler
# 创建虚拟环境
# 注意 python 版本需要 3.7 - 3.9
python -m venv venv
# macos & linux 激活虚拟环境
source venv/bin/activate
# windows 激活虚拟环境
venvScriptsactivate
3. 安装依赖
pip3 install -r requirements.txt
4.安装 playwright 浏览器驱动
playwright install
执行下面的命令,就可以运行爬虫,抓取指定网站的信息:
# 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论
python main.py --platform xhs --lt qrcode --type search
# 从配置文件中读取指定的帖子 ID 列表获取指定帖子的信息与评论信息
python main.py --platform xhs --lt qrcode --type detail
# 打开对应 APP 扫二维码登录
# 其他平台爬虫使用示例,执行下面的命令查看
python main.py --help
小结一下
大模型时代,数据就是 AI 的燃料。我自己也在维护一个 Github 爬虫,每天爬一下 Github 热门仓库,跟踪开源热点。
但是使用爬虫时,我们需要遵守网站的 robots.txt 协议和相关的法律法规,避免触碰数据合规红线,否则真的应了那句话“爬虫玩得好,某饭吃到饱”。
这里顺便推荐一个整理了所有中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规的开源仓库,供大家参考学习:
更多详细内容,可以到项目仓库查看,项目仓库地址:
© 版权声明
博主的文章没有高度、深度和广度,只是凑字数。利用读书、参考、引用、抄袭、复制和粘贴等多种方式打造成自己的纯镀 24k 文章!如若有侵权,请联系博主删除。
喜欢就点个赞吧