2020年2月

一、数据来源:
1.时间:
  以武汉市2020年1月23日封城起,至2020年2月22止。采用微信api接口时间戳相同的时区。

2.城市:
  本次数据分析,拟选取2019年4月恒大研究院发布的 “2019年中国城市发展潜力排行榜” 前50名城市作为研究对象,选取这个排行榜最主要原因为,该排行榜为城市的排名提供了对应的分数,可以作后续数据对比的因子;缺点是排行榜研究的出发点以房地产为主,相对本次研究的内容可能略有偏差。
  具体依次为:
    深圳, 北京, 上海, 广州, 成都, 南京, 武汉, 重庆, 天津, 杭州,
    郑州, 长沙, 苏州, 西安, 东莞, 佛山, 济南, 厦门, 青岛, 合肥,
    无锡, 宁波, 福州, 温州, 大连, 石家庄, 珠海, 昆明, 南昌, 常州,
    太原, 中山, 贵阳, 南通, 哈尔滨, 沈阳, 泉州, 兰州, 徐州, 南宁,
    嘉兴, 烟台, 长春, 海口, 金华, 绍兴, 乌鲁木齐, 镇江, 唐山, 潍坊。

3.公众号:
  取城市名+发布为数据来源公众号,以北京为例,选取的公众号为:北京发布。
  其中天津、东莞、福州、沈阳、烟台、长春、太原、乌鲁木齐,未发现对应公众号,或对应公众号文章内容较少,或非官方认证,因此不纳入分析范围,最终参与的城市共42个。注:广州选取的公众号为:中国广州发布。

二、采集方法:
  通过python + selenium采集,使用新建图文素材中,超链接的引用其他公众号文章的接口来进行采集。考虑到微信有反爬虫的措施,初期采集是通过设置两页间隔时间来防止反爬虫检测,采集进度较慢,改进后,通过多个微信公众号轮换使用的方式解决,能显著加快采集速度,总页面数在1800页左右,预计采集时间约为30-60分钟。

三、分析方向:
1.分词