Skip to content

Latest commit

 

History

History
12 lines (9 loc) · 384 Bytes

README.md

File metadata and controls

12 lines (9 loc) · 384 Bytes

web-scraping

对爬虫和网页数据抓取工作的代码积累,主要使用的工具

  • scrapy
  • BeautifulSoup
  • mongoDB

子目录介绍

  • weibo 新浪微博爬虫(主要爬取三部分:网络拓扑(fan/follow),用户信息,微博内容)
  • chinasize chinaz 网站信息
  • alexa alexa 网站信息