根据统计用户动态数据分析知乎用户使用习惯

在2016年7月6号(大概),我成功开坑了一个项目,就是知乎的爬虫项目。灵感来源是这个知乎专栏,虽然看这个专栏作者也是受其他人启发的。在这里作者提供了一个Demo网址,并不提供源代码,而且这几个月一直没有抓取新用户的数据(这是最气的)。于是本着自己做的才是最好的的理念,正式开坑,准备着手做这个爬虫(虽然现在看起来不完全是爬虫)项目。

当然,什么事情都是开坑了之后,才知道自己之前是多么的naïve,以至于填坑填到醉死。第一天顺利做完整个爬虫的爬取逻辑,分析了知乎在个人信息页的Ajax请求并顺利模仿取到了用户的动态时间戳。然而由于我之前的设想还有一个小小的绘制图表……嗯,这个就有些尴尬了。由于我要画一个能看的图表,所以相当多的绘图库就直接被我pass了,于是我想到了之前似乎用过的Chart.js。然而这货是个前端东西,我需要有后端来爬取数据发给前端,于是两个大坑就此挖成。后端正好就用Django了,处理完的数据直接扔到前面去就不用管了;至于前端,鉴于好看方便原则,采用Ajax,毕竟输个用户名就要刷新整个网页的用户体验实在糟糕。第二天的晚上主要就是在吐血学习这些东西,至于模板直接套用博客模板,毕竟拿来就能用,还挺简约,非常适合这个风格。此处省略2000字,要说我能说一天……

于是,知乎系列爬虫的第一个正式项目现在已经上线了,理论上讲应该正常使用不会出什么问题。(flag已立)
好了,废了这么多话,网站传送门。笔记什么的,明天过两天再写。主要会记录一下爬虫遇到的新坑、Django配置、uwsgi配置和Chart.js使用等内容。



blog comments powered by Disqus
本作品采用知识共享署名-相同方式共享 3.0 未本地化版本许可协议进行许可。
Theme by [Codepiano], First Modified Version by [pengx17], Latest Modified Version by [iHamsterball]