Java互联网食腐2 - banlist网易博客使用者相片

或者说,网易网志使用者相片食腐是我自学python年来写的第二个食腐,或者说彼时懒,而后爬完Lofter后觉得有必要总结一下,因此就有了首篇食腐网志。现在暂时梦想成真了,准备把网易的那个也补齐。

嘿嘿,既然优先选择爬网易网志,那总之是有需求的,这也是自学的主要动力之一,要说,是雷蛇。sina使用者多数网志都是包涵相片的,而且是Biagio居多,单个相片的较少。

为了避免侵权行为,本文以生前网志litreily为例表明整个banlist过程,虽然相片较少,质量较高,但banlist方案是绝对ok的,使用时只要换个使用者ID就能了。

分析sina公交站点

以获取使用者ID

在banlist前,他们须要知道的是每个使用者都有两个使用者名,而两个使用者名又对应两个唯一的auth数字ID,近似于学生的序号,生前的是2657006573。再者是不是根据使用者名去以获取ID,有以下两种方法:

进入待banlist使用者网页,在应用程序邮箱栏中方可看见一串数据,那是使用者IDCtrl-U查看待banlist使用者的源代码,搜索"uid,特别注意是单引号

或者说是能在已知使用者名的情况下通过食腐自动以获取到uid的,但是我彼时算数python,并没有考虑充分,因此后面的源代码是以使用者ID作为输入模块的。

相片储存模块导出

使用者大部份的相片都被存放至这样的路径下,真的是大部份相片哦!!!

https://weibo.cn/{uid}/profile?filter={filter_type}&page={page_num} # example https://weibo.cn/2657006573/profile?filter=0&page=1 uid: 2657006573 filter_type: 0 page_num: 1

特别注意,是weibo.cn而不是weibo.com,再者我是是不是找到那个页面的,说实话,我也忘了。。。

镜像中包涵3个模块,uid, filter_mode 以及 page_num。其中,uid是前面提及的使用者ID,page_num也较好认知,是巨集的当前页数,从1开始增加,那么,那个filter_mode是什么呢?

不着急,他们先来看一看页面↓

Java互联网食腐2 - banlist网易博客使用者相片(图1)

能看见,低通滤波器类型filter_mode指的是甄选条件,一共三个:

filter=0 全部网志(包涵纯文档网志,转发网志)filter=1 创作者网志(包涵纯文档网志)filter=2 相片网志(必须含有相片,包涵转发)

我通常会优先选择创作者,因为我并不希望banlist结果中包涵转发网志中的相片。总之,大家依照自己的须要优先选择方可。

图链导出

好了,模块来源都知道了,他们回过头看一看那个页面。页面是不是感觉是个科熊?毫无css痕迹,说实话,网易本来就没打算把那个页面主动呈现给使用者。但对于食腐而言,这却是极佳的,为什么这么说?原因如下:

相片齐全,没有陈述,是个建模的资料库式样少,页面简单,省流量,banlist快动态页面,巨集储存,所见即所得源代码包涵了大部份网志的由博胡和Biagio镜像

这样的页面用来展枝再合适不过。但要特别注意的是上面第4点,什么是由博胡和Biagio镜像呢,较好认知。全篇网志可能包涵数张相片,那是Biagio,但该页面只显示网志的第三张相片,即所谓的由博胡,Biagio镜像指向的是储存着该Biagio大部份相片的邮箱。

由于生前网志没Biagio,因此此处以赵薇网志为例,表明单图及Biagio的图链文件格式