-
Notifications
You must be signed in to change notification settings - Fork 1
HannahCC/Sina_Crawler
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
备注:所有文件数据的分割都使用“\\t” ;“※”开头表示程序;“=”开头表示目录;“-”开头表示文件 程序运行步骤 爬取程序部分依次执行 利用JnaTest_NLPIR对微博进行分词,得到Weibos_Participle文件夹 ======================================================文件夹初始状态===================================================================================================== =Config -Config.txt 存放程序运行的相关配置 -SinaAccount.txt 存放了用来爬取微博的用户名及密码,每行一个账号 -ExpandID0.txt 第一层用户的ID,即ExpandID0_Annotated中所有ID ======================================================爬取程序===================================================================================================== ※Main_Crawler:爬取程序运行后 =Config -SinaAccount.txt : 存储用于模拟登陆的账号密码 -UserNotExist.txt : 存储账号不存在的用户(未去重) -ExpandIDX.txt : 存储第X层用户ID。(第X+1层的ID是第X层用户的好友的ID)(未去重,但程序读取时会自动去重) -UserInfoX.txt : 存储ExpandIDX.txt中ID对应的个人用户信息。【数据格式解释见下方:JSON.USER】(如果用户存在,且不再UserInfoX.txt中,则可能存在于UserInfoY.txt中,X>Y) -UserInfoOfEnterpriseX.txt : 存储ExpandIDX.txt中ID对应的企业用户信息。【数据格式解释见下方:JSON.USER】 -UidInfo_followsX.txt : 存储第X层用户ID的关注用户ID。(最多保存500个ID,超过500按500个保存)(企业用户的好友ID没有进行爬取)(如果低层UidInfo_follows(X-N).txt中已经获取了用户的好友,则不会在这一层中再次获取)【数据格式解释见下方:JSON.UID】 -UidInfo_friendsX.txt : 存储关注第X层某用户ID的各个用户ID。(最多保存500个ID,超过500按500个保存)(企业用户的好友ID没有进行爬取)(如果低层UidInfo_follows(X-N).txt中已经获取了用户的好友,则不会在这一层中再次获取)【数据格式解释见下方:JSON.UID】 =Weibos:用户微博(一个用户对应该目录下一个文件,文件名为用户ID)【数据格式解释见下方:JSON.WEIBO_COMMENT】 ※Main_GetAtRec:获取用户@的相关信息 =Weibos_At:从用户微博【Weibos/uid.txt】文件中提取出的“@ 用户关系” 文件 -uid.txt :【*因为用户更改用户名或注销用户,所以有时通过用户名不能查到ID,统一用“-1”表示】 被@用户ID 被@次数 回复次数 被@用户名 1761552360 1 0 生活情感大爆炸 -1 1 0 我姓S名安妮 ※Main_ClearComment:清除用户微博中的垃圾评论(包含某些词语的评论,如:互粉、明星同款等等<词语写死在程序了>) =Weibos_BeforeCleared :清除垃圾评论之前的微博文件夹 =Weibos:清除垃圾评论后的微博文件夹 -Config\CommentClearedUserID.txt :记录了清除了垃圾评论的用户(便于检查效果) 用户ID 该行有评论被清除 1564143145 13 ※Main_GetWeiboCon:获取单纯的微博文本(只存储微博内容,并且去除了此前包含的形如 \\@ 转发内容,以及内容中存在的链接,“转发微博”,空行) =WeibosCon:只包含微博文本的文件夹 ======================================================爬取程序=====================================================================================================
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published