基于微博APl的分布式抓取技术

doi:10.3969/j.issn.1000-0801.2013.08.025

电信科学 ›› 2013, Vol. 29 ›› Issue (8): 146-150.doi: 10.3969/j.issn.1000-0801.2013.08.025

基于微博APl的分布式抓取技术

陈舜华¹,王晓彤¹,郝志峰¹,蔡瑞初¹,肖晓军²,卢字²

¹ 广东工业大学计算机学院广州 510006
² 广州优亿信息科技有限公司广州 510630

出版日期:2013-08-15 发布日期:2017-06-21

A Distributed Data-Crawling Technology for Microblog API

Shunhua Chen¹,Xiaotong Wang¹,Zhifeng Hao¹,Ruichu Cai¹,Xiaojun Xiao²,Yu Lu²

¹ School of Computers,Guangdong University of Technology,Guangzhou 510006,China
² Guangzhou Useease Information Technology Co.,Ltd.,Guangzhou 510630,China

Online:2013-08-15 Published:2017-06-21

摘要/Abstract

摘要：

随着微博用户的迅猛增长，越来越多的人希望从用户的行为和微博内容中挖掘有趣的模式。针对如何对微博数据进行有效合理的采集，提出了基于微博API的分布式抓取技术，通过模拟微博登录自动授权，合理控制API的调用频次，结合任务分配控制器高效地获取微博数据。该分布式抓取技术还结合时间触发和内存数据库技术实现重复控制，避免了数据的重复爬取和重复存储，提高了系统的性能。本分布式抓取技术具有可扩展性高、任务分配明确、效率高、多种爬取策略适应不同的爬取需求等特点。新浪微博数据爬取实例验证了该技术的可行性。

关键词: 新浪微博, 爬取策略, 分布式爬取, 微博API

Abstract:

As more and more users begin to use microblog,people eagerly want to dig interesting patterns from the microblog data.How to efficiently collect data from the service provider is one of the main challenges.To address this issue,a distributed crawling solution based on microblog API was present.The distributed crawling solution simulates microblog login,automatically gets authorized,and control the invoked frequency of the API with a task controller.A time trigger method with memory database was also proposed to avoid extra trivial data duplication and improve efficiency of the system.In the distributed framework,the crawling tasks can be assigned to distributed clients independently,which ensures the high scalability and flexibility of the crawling procedure.The feasibility of the crawler technology according to Sina microblog instance was verified.

Key words: Sina microblog, crawling strategy, distributed crawl, microblog API

陈舜华,王晓彤,郝志峰,蔡瑞初,肖晓军,卢字. 基于微博APl的分布式抓取技术[J]. 电信科学, 2013, 29(8): 146-150.

Shunhua Chen,Xiaotong Wang,Zhifeng Hao,Ruichu Cai,Xiaojun Xiao,Yu Lu. A Distributed Data-Crawling Technology for Microblog API[J]. Telecommunications Science, 2013, 29(8): 146-150.

图/表 5

参考文献 10

1	王亮 . SNS社交网络发展现状及趋势. 现代电信科技， 2009（6）
2	王娟 . 微博客用户的使用动机与行为. 山东大学硕士学位论文， 2010
3	李保秀 . 微博社交网络舆情监测指标体系构建. 科技广场， 2012（4）
4	漆晨曦 . 电信企业大数据分析、应用及管理发展策略. 电信科学， 2013（3）
5	唐波 . 网络爬虫的设计与实现. 电脑知识与技术， 2009,11（5）:2867～2868
6	王晶，朱珂，汪斌强 . 基于信息数据分析的微博研究综述. 计算机应用， 2012,32（7）:2027～2029,2037
7	新浪接口约束.
8	廉捷，周欣，曹伟等. 新浪微博数据挖掘方案. 清华大学学报， 2011,51（10）:1300～1305
9	周鑫，彭斯俊，罗熹 . 基于新浪微博开放平台的用户数据挖掘. 中国科技论文在线，
10	李军，陈震，黄霁威 . 微博影响力评价研究. 信息网络安全， 2012,3（7）

	微博数	用户数	转发	评论	粉丝	好友
公共微博（3台机器）	9 984 524	8 825 623	×	×	×	×
用户维度爬取（3台机器）	226 801	75 142（输入）	×	×	2 204 260	1 582 644
微博维度爬取（3台机器）	75 420（输入）	×	186 059	85 619	×	×

基于微博APl的分布式抓取技术

A Distributed Data-Crawling Technology for Microblog API

在线阅读

PDF下载

可视化

摘要/Abstract

引用本文

使用本文

图/表 5

参考文献 10

相关文章 0

Metrics

推荐阅读 0