您的当前位置:首页>新品 > 正文

爬取网络上的海量数据有哪些?爬取网络上的海量数据如何正确选取?-全球热闻

来源:CSDN 时间:2023-03-16 15:25:50


(资料图)

要想获得不同社交网络上的用户数据,现行的普遍方法就是网络爬虫(或直接下载)。抛开直接下载这一简单粗暴的方式来讲,爬取网络上的海量数据不失为一种不错的方式。然而,对爬取数据的正确选取对成功分析数据起到至关重要的作用。主要原因如下:

选取有意义的数据。若爬取的数据包含信息量小,或者爬取的不同社交网络上的数据没有重合属性,那么这些数据的意义并不大。目前通过推理得到的匹配结果一个是慢,另一个也不能保证准确率。选取好获取的数据。如果数据难以获取或者网页上反爬虫机制高端,那么爬取数据的速度和难度可想而知。无法在短时间获取大量数据,就无法体现大数据的魅力与功效,因而不值得推崇。选取自己了解的数据。如果一个人不熟悉他要爬取的数据,就要额外花时间进行数据的阅读与理解。以及筛选有用数据。

可能的数据:

CSDN:开始打算爬取这方面的数据,因为对其很熟悉。然而,其不能直接看到博主的所有粉丝(只能看到6个),也没有博客专家的排名,不便获取用户的链接。此外,很多用户在信息填写方面留有很多空白,大多数都没填写个人信息。因此,放弃之。领英:注册了领英账号,发现其要求填写真实姓名、联系电话等较为真实的信息。然而,领英具有较好的反爬虫机制(网上这样说),而且领英上有很多外国人,不符合实验对中国用户进行研究的设定。但是领英也有好处,那就是其信息基本都是真实的,对于人的姓名、工作经历、教育经历等都是有质量保证的。简书:和CSDN类似的数据,有与CSDN相同的问题:大多数人都没填写个人信息。但是,简书可以显示更多的粉丝(网传900个),也有热点话题,因此可以爬取一定数量的信息。但属性信息和真实度相对来说不能保质保量。人人网:好处就是应该比较好爬,有现成的代码。里面的信息也较为真实。缺点就是信息过于陈旧,可能是多年前风靡一时的时候填写的资料。58同城:像是中国版的领英。有很多求职信息,姓名、工作经历、教育经历等相对真实。可以作为爬取的一个信息来源。

经过上述分析,考虑先尝试爬取58同城上的相关信息。人人网也可以考虑作为爬取的内容之一(毕竟之前风靡校园,像我一样的同学人人都有账号)。简书中包含的属性信息还是太少,且真实性没法保证,付出与回报不成正比,暂不考虑。

标签:

最新新闻:

新闻放送
Top