Browse Source

update 每周更新

master
王伟梁 9 months ago
parent
commit
47311084dd
  1. 329
      README.md

329
README.md

@ -0,0 +1,329 @@
# yelp
#### 评论/舆情数据量
- 200w+
#### 店铺所有图片是否可爬
- 是
#### 进度
- yelp 第二轮已爬取40000个用户到过的所有店铺(预估很多不在范围内的),目前先爬取已确定的用户
#### 获取数据的方法
- 第0轮 官网api
第1轮 网站后台api
第2轮 scrapy框架
#### 范围
- 超出预定范围
#### 是否使用代理IP池
- 是
#### 是否需要购买账号
- 否
#### 购买账号的原因
- 无
# tripadvisor
#### 评论/舆情数据量
- 200w+
#### 店铺所有图片是否可爬
- 是
#### 进度
- tripadvisor 第二轮开始爬取restaurants、shopping第二轮数据
#### 获取数据的方法
- 第0轮 selenium
第1轮 selenium
第2轮 selenium
#### 范围
- 超出预定范围
#### 是否使用代理IP池
- 否
#### 是否需要购买账号
- 否
#### 购买账号的原因
- 无
# twitter
#### 评论/舆情数据量
- 100+
#### 店铺所有图片是否可爬
- 是
#### 进度
- 每日更新twitter数据
#### 获取数据的方法
- 第1轮 selenium+后台api
第2轮 selenium+后台api
#### 范围
- 范围正常
#### 是否使用代理IP池
- 否
#### 是否需要购买账号
- 是
#### 购买账号的原因
- 历史数据需要学术账号获取
获取年限 2006
数据量 不限量
学术账号单价8000(价格可以谈)
# Instagram
#### 评论/舆情数据量
- 2000+
#### 店铺所有图片是否可爬
- 是
#### 进度
- 今日重新开始爬取Instagram数据
#### 获取数据的方法
- 第1轮 后台api
第2轮 后台api
#### 范围
- 范围正常
#### 是否使用代理IP池
- 否
#### 是否需要购买账号
- 是
#### 购买账号的原因
- 由于Instagram后台接口需要要用户cookie才能获取
# 微博
#### 评论/舆情数据量
- 120w+
#### 店铺所有图片是否可爬
- 是
#### 进度
- 每10天更新一次
#### 获取数据的方法
- 第1轮 后台api
第2轮 后台api
#### 范围
- 范围正常
#### 是否使用代理IP池
- 是
#### 是否需要购买账号
- 否
#### 购买账号的原因
- 无
# 马蜂窝
#### 评论/舆情数据量
- 17w+
#### 店铺所有图片是否可爬
- 否
#### 进度
- 已爬取完所有历史数据
#### 获取数据的方法
- 第0轮 selenium
第1轮 selenium
#### 范围
- 范围正常
#### 是否使用代理IP池
- 否
#### 是否需要购买账号
- 否
#### 购买账号的原因
- 无
# 携程——>(大众点评)
#### 评论/舆情数据量
- 50w+
#### 店铺所有图片是否可爬
- 否
#### 进度
- 已爬取完所有历史数据
#### 获取数据的方法
- 第1轮 selenium
#### 范围
- 范围正常
#### 是否使用代理IP池
- 否
#### 是否需要购买账号
- 否
#### 购买账号的原因
- 无
# 高德地图
#### 评论/舆情数据量
- 20w+
#### 店铺所有图片是否可爬
- 否
#### 进度
- 已爬取完所有历史数据
#### 获取数据的方法
- 第0轮 官网api
第1轮 后台api
#### 范围
- 范围正常
#### 是否使用代理IP池
- 是
#### 是否需要购买账号
- 否
#### 购买账号的原因
- 无
# 本周重点 2021-10-29
#### twitter
#### Instagram
# 地区数量预估
- Hudson Yerds 200w
- ICONSIAM 200w
- Miami Design District Associates 200W
- 徐汇滨江 200W
- 北外滩片区 150W
- 前滩片区 150W
- 徐家汇中心片区 200W
- 华润深圳湾 150W
- 湖滨银泰-君悦 100W
- 太古里-IFS 100W
Loading…
Cancel
Save