vczh是谁?

vczh是谁?,第1张

Vczh者,陈梓瀚也,以其自谓“造轮者”,故世称“轮兄”。Vczh于大学时即实习于微软,及出师乃履正职。初工于沪,辄转京城微软亚研院。现居西雅图,其妻陈萌萌,原属百度,随vczh之灯塔,工于google。Vczh,岭南人也,诞于1987。学于华南皇家理工。其母精于外文,喜爱雅乐,尤善教学,方三十许闻名岭南。其父亦爱雅乐,然运途数转,以其明是非善赏罚,虽中道失意,终得重任,其酬尝高于vczh。Vczh其家学渊源,天赋异禀,尚在襁褓即闻乐止泣,稍长,能识音律,虽不能言,然随乐哼唱,亦有章法,父母甚异。

因为他答题很真诚和热情,后来发现他有一个大v朋友,然后顺带关注了白如冰,然后从白如冰处关注了曾博,最后发现曾博和轮子哥千私万缕的关系,就关注了轮子哥,然后身体就一天不如一天了。8年了,原来我认识vczh整整8年了。那还是07年的时候,上大学的我也玩cppblog,经常看他的技术文章。今天才知道vczh已经在知乎如此有人气。

最近爬取了知乎1000万的用户数据,耗时一周。

使用 ElasticSearch + Kibana 实现数据存储,可视化。

数据爬取时间为 2019年7月 (3-9)日

抓到的数据大部分都是资料不完善,以下分析会过滤掉资料为空的那部分。

涉及到性别:-1:未知,0:女, 1;男

本文思路参考 这里

可以看到北京上海用户数量领跑其它城市,所有城市都是男用户稍占多一点。出现了深圳,深圳市 还有 广州,广州市,因为在知乎的个人资料中,居住地这个选项是手动填写而不是选择。

(这里由于kibana用的不熟,暂时不知道怎么把合并,欢迎知道的朋友告知)

可以看出互联网行业一骑绝尘,领先第二名一倍;而第二名计算机软件也是兄弟行业。比较有意思的是以行业划分的话,有比较多行业女性数量占优(高等教育、临床医学、创意艺术、财务、法律、基础教育、教育、广播电视、广告、培训)。而反观计算机软件、电子游戏、机械设备、电子电器、计算机硬件这些行业男性数量大幅占优。比较意外的是有这么多人从事电子游戏行业,超过了很多传统行业(当然有可能这个职业的人在知乎上比较活跃)。

有了行业分布,我们顺便再看看按照职业划分如何。与参考文章不同的是,现在知乎上学生占比最多,可能是知乎当前目标群体为学生,加大校园推广力度。这里我理解是资本入股后的营收压力,使知乎选择了这样的战略。(另外软件工程师,前端,程序员和算法工程师那夸张的男女比例是什么鬼=.=)

可以看到各高校间的差距并不是特别明显,跟现居城市相对应,北京的清北在前三占据两个席位。杭州在城市中排第三,浙大的学子功不可没。比较有意思的是 克莱登大学(“克莱登大学”原本是钱钟书先生小说《围城》里虚构的骗子学校),另外 中国传媒大学 是前50里边唯一女生数量比男生多的学校。

看完学校,我们最后来看一下专业分布。计算机相关行业占据绝对优势,我想到原因有二:近年来市场对计算机相关人才需求巨大;同时计算机相关人员玩知乎占比较大。法学在前排是让我比较意外的。

看了那么多各种类型的分布,我们来关注一些不一样的

这里列出了关注者数量前30的用户,第一知乎日报应该是知乎官方推荐的账号,张佳伟,丁香医生紧随其后。刘看山也是知乎官方账号,关注者数量似乎还在猛涨,从拉取数据到我写此文几天时间,关注数量涨了20w。轮子哥惊人的22k+回答数显得格外活跃(或许是机器人回答的,谁知道呢。另外经统计轮子哥是目前知乎上回答数量最多的)。

再来看一下被赞的数量最多的有哪些人

可以看到张佳伟,丁香医生还是前排,轮子哥屈居第三。后面又好多用户回答数量并不多,同样收获了好多赞。看看这里面有没有你关注的人吧~

再来对比一下哪些高校被赞数量最多。可以看出清北,浙大,复旦,上交,武大等Top N 学校影响力还是比较大的。另外克莱登大学很顽皮的排到的第三。

看了那么多柱状图,搞个饼图来看一下被关注者数量分布,看看自己在知乎属于什么水平

可以看到大部分知乎用户是没人关注的,如果你拥有一个以上关注者,那么恭喜你打败了75.37%的知乎用户。看来还是很多人跟我一样,是一个知乎小透明~

来一个具体的表格

数据里边有个is_active字段,看起来是一个时间戳。我猜这个字段记录的是用户最后一次登录时间,就这么拿来用咯。

这里从红色开始,逆时针依次是10天,一个月,三个月,半年,一年,两年,三年以上。

可以看出三个月内活跃用户大概占比30%,另外有30%用户近三年没登录过了。

最后我们以一张词云结束本文,大伙可以看看自己专业在图中什么位置

截止目前抓取了 9433740 条数据。今天7小时抓了不到5k条数据,数据增长已经非常缓慢了。带宽占用有10M左右,说明还是在不停的爬取,只是爬到的重复率已经很高了。余下的用户可能在不同的一片森林里,与目前爬取数据没有交集,或者根本就是0关注;也有可能数据接近爬完了。目前程序占了6G内存。今晚再观察一下,如果增长速率还是如此缓慢,明天就把它停掉了~

想了解更多爬取心路历程 请看这篇

这是我第一次搞数据爬取,不足之处 请各大神多多指导 。另外关于数据分析,各位可以想想更多不同的维度,得更有多有趣的内容。结尾附上一条抓取的数据样本。

以上,完...


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/yw/11476295.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-16
下一篇 2023-05-16

发表评论

登录后才能评论

评论列表(0条)

保存