You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
王伟梁 47311084dd update 每周更新 8 months ago
README.md update 每周更新 8 months ago
徐汇数据进度表.xls update 徐汇项目进度 每日更新 8 months ago

README.md

yelp

评论/舆情数据量

  • 200w+

店铺所有图片是否可爬

进度

  • yelp 第二轮已爬取40000个用户到过的所有店铺(预估很多不在范围内的),目前先爬取已确定的用户

获取数据的方法

  • 第0轮 官网api 第1轮 网站后台api 第2轮 scrapy框架

范围

  • 超出预定范围

是否使用代理IP池

是否需要购买账号

购买账号的原因

tripadvisor

评论/舆情数据量

  • 200w+

店铺所有图片是否可爬

进度

  • tripadvisor 第二轮开始爬取restaurants、shopping第二轮数据

获取数据的方法

  • 第0轮 selenium 第1轮 selenium 第2轮 selenium

范围

  • 超出预定范围

是否使用代理IP池

是否需要购买账号

购买账号的原因

twitter

评论/舆情数据量

  • 100+

店铺所有图片是否可爬

进度

  • 每日更新twitter数据

获取数据的方法

  • 第1轮 selenium+后台api 第2轮 selenium+后台api

范围

  • 范围正常

是否使用代理IP池

是否需要购买账号

购买账号的原因

  • 历史数据需要学术账号获取 获取年限 2006 数据量 不限量 学术账号单价8000(价格可以谈)

Instagram

评论/舆情数据量

  • 2000+

店铺所有图片是否可爬

进度

  • 今日重新开始爬取Instagram数据

获取数据的方法

  • 第1轮 后台api 第2轮 后台api

范围

  • 范围正常

是否使用代理IP池

是否需要购买账号

购买账号的原因

  • 由于Instagram后台接口需要要用户cookie才能获取

微博

评论/舆情数据量

  • 120w+

店铺所有图片是否可爬

进度

  • 每10天更新一次

获取数据的方法

  • 第1轮 后台api 第2轮 后台api

范围

  • 范围正常

是否使用代理IP池

是否需要购买账号

购买账号的原因

马蜂窝

评论/舆情数据量

  • 17w+

店铺所有图片是否可爬

进度

  • 已爬取完所有历史数据

获取数据的方法

  • 第0轮 selenium 第1轮 selenium

范围

  • 范围正常

是否使用代理IP池

是否需要购买账号

购买账号的原因

携程——>(大众点评)

评论/舆情数据量

  • 50w+

店铺所有图片是否可爬

进度

  • 已爬取完所有历史数据

获取数据的方法

  • 第1轮 selenium

范围

  • 范围正常

是否使用代理IP池

是否需要购买账号

购买账号的原因

高德地图

评论/舆情数据量

  • 20w+

店铺所有图片是否可爬

进度

  • 已爬取完所有历史数据

获取数据的方法

  • 第0轮 官网api 第1轮 后台api

范围

  • 范围正常

是否使用代理IP池

是否需要购买账号

购买账号的原因

本周重点 2021-10-29

twitter

Instagram

地区数量预估

  • Hudson Yerds 200w
  • ICONSIAM 200w
  • Miami Design District Associates 200W
  • 徐汇滨江 200W
  • 北外滩片区 150W
  • 前滩片区 150W
  • 徐家汇中心片区 200W
  • 华润深圳湾 150W
  • 湖滨银泰-君悦 100W
  • 太古里-IFS 100W