如何用Python爬取社交网络(如微博)?
问题描述如下:
python小白…打算从爬取社交网络开始学习,想法是
1.爬取>10k的用户以及他们的互粉信息
2.建社交网络图
想问下具体需要哪些工具和那些学习,谢谢
参考答案如下:
我是如何找到在知乎上我距离 @vczh 、 @OnlySwan 的距离的?
(P.S. 转载自我的博客:http://xlzd.me/2016/01/31/python-crawler-09)
首先考虑这个问题的解决方案以及与爬虫的关系吧。一个比较可行的方案是,抓取所有人的关注列表及被关注列表,然后通过一个有向图连接起来,找两个人的最短关联关系,实际上就是就图中两个节点的最短路径。考虑到我希望得到的是仰望型的关系图,即从一个较有名气的人的关注列表出发,能否在他的关注链上游找到自己(举例:我关注轮子哥很正常,但是轮子哥没有关注我,不过他的关注链上有我,我希望借此找到这个链上的所有人)。所以,这个问题还可以得到进一步的简化:只是抓取每个人的关注列表而忽略粉丝列表,存储下这个人(Node)及与关注列表每个人的对应关系(Relationship)。
那么,对应的实现应该如何解决呢?首先要知道知乎的用户很大,即使刚才的方案干掉了所以没有任何人关注的用户,但是有至少一个人关注的用户依旧很多,所以不建议自己维护这样一个很大的图,Graph Database 是一个不错的选择,这篇博客中,我将使用 neo4j 来存储节点及其关系。而对应的用户及抓取列表,将使用Mongo存储。
既然找到了解决方案,那么上手开始吧。关于 neo4j 的安装及基本使用,以及cypher( neo4j 使用的操作语法)的入门介绍,这里将一笔略过,如果你没有 neo4j 的使用经验,请读者自行去 neo4j 的官网阅读学习。
现在,我们将任务进一步细化:
1. 从知乎的某个用户 x 开始,得到他的关注列表
2. 将 x 与其关注列表中的每个人 each 建立关系: x --FOLLOWING--> each
3. 将关注列表还没有抓取关注列表的用户放入 Mongo 中
4. 如果 Mongo 中还有未抓取关注列表的人,重复 1
然后,对于需要查询某两个人之间的最短路径,只需要在 neo4j 的 web 终端里使用对应的 cypher 语句即可。
分析部分至此结束,这里并不打算一步一步写出代码,代码可以参考博客中的内容。。
最后,在这里贴两张图片吧,分别对应着轮子哥的关注链上我的位置和四万姐的关注列表上我的位置:


由图容易看出,轮子哥与我只间隔了一个人,而四万姐与我之间间隔了最少两个人。
参考答案如下:
微博没有抓过,知乎倒是抓过。最近仍然在抓(微博受了某位大大的邀请最近也在准备抓,等抓了再来补充一下回答)。
那么先说一下知乎吧,一下根据题主的问题描述回答。
问题一:1.爬取>10k的用户以及他们的互粉信息
如果你想通过自己的努力去得到这些信息,建议用点时间去学习一下python爬虫。当然如果你只需要数据只是想用来分析,你可以花点钱去买这方面的资源。
关于学习爬虫你可以用十天时间学习入门:如何学习Python爬虫[入门篇]? - 知乎专栏
有了爬虫的知识,相信抓10k的用户信息都很简单,中间你可能遇到一些反爬虫的限制,没关系,网络上有很多解决方法。勤于使用搜索引擎。

2.建社交网络图
如何用 Python 爬取社交网络(如微博)? - xlzd 的回答
对于第二点,目前尚未尝试过。参考这个回答,受益匪浅。
查看评论 回复
"如何用Python爬取社交网络(如微博)?"的相关文章
- 上一篇:Python之禅
- 下一篇:不懂技术的人不要对懂技术的人说这很容易实现