You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
wangweiliang2022 09666ce807 update 3 months ago
README.md update 3 months ago

README.md

数据调整

1、comment 
	1、对字段名称统一
	2、确定个别字段的含义
	3、对缺失的数据进行补充
	4、对数据进行去重
2、poi     
	1、对官网数据进行整合,尽可能的放在一张表中
	
3、publish
	1、补充抖音 publish 表
	2、检查publish 的所有表
	
4、user
	1、对字段名称统一
	2、确定个别字段的含义
	3、对缺失的数据进行补充
	4、对数据进行去重
5、degreehead
	新增一张表,把degreehead_westbund_xxx表,整合到一张表中,名称为degreehead_westbund
	网红指数来源网站1 https://explodingtopics.com
	网红指数来源网站2 https://trends.google.com
	

数据表中各字段含义

location         地区名称
work_id          作品或视频id 在tiktok、抖音、小红书中出现
user_id          用户id
user_name        用户名称
head_photo       用户头像url
hid              用户头像url hash 得到的值,和other_face 头像识别表中的uid 对应
date	         用户发布日期
level            用户等级
like_count       用户点赞数量,评论中还有评论,回复,点赞等
comment_count    评论数量
share_count      转发数量
comment          评论内容
id               评论表中的唯一主键
gid              poi表中的唯一主键
rating			 用户评分
shop_id          店铺id
shop_name  		 店铺名称
title            用户发布评论的标题
reply            店铺人员对用户评论的回复
address          店铺地址

comment_douyin_cr1

问题1
like_count  comment_count  share_count 三个字段的具体含义
like_count: 每条评论的喜欢点赞人数
reply_count: 原本字段名称comment_count,已修改为reply_count,每条评论的回复数量
share_count: 每条评论的转发数量,但在手机端和网页端都没有看到此参数,建议删除

comment_dzdp_cr1

1、补充shop_id
2、发现comment 字段中出现大量的幼字,可能是脚本有问题
3、头像url hash 之后的字段为hid
4、已补充部分shop_id 字段

comment_gaode_cr1

1、user_id 为空则表示 虚拟用户或者用户不存在
2、删除quality_score、aos_tag_score字段,原因:两个字段是高德平台给出的,但无法运用到项目中

comment_googlemap_cr1

1、share_count  都为0 建议删除
2、review_id_hash 字段建议删除,用户头像id 都统一使用头像url hash 之后得到的值
3、category  建议删除,都为Null
4、cale_date  值为2022-02-24,表示没有推算出真正的评论发布日期
5、建议删除id,修改new_id字段名为id
6、建议删除category 值为两种,一种为空 一种为Null
7、sid 不明确具体含义,
8、comment 存在大量为空的现象

comment_mfw_cr1

1、补录马蜂窝景点评论
2、user_id 为空则表示此用户为虚拟用户或已注销
3、source 评论来源,分两种,一种是用户在店铺下发布的评论,一种是用户在主页中编写的游记
4、已更改 用户头像 url  hash 之后得到的值为hid,可以通过hid提取用户头像

comment_tiktok_cr1

1、stick_position 为无效字段
2、share_count  网页中未出现此字段,建议删除
3、cid、sec_uid为无效字段
4、unique_id  为用户主页显示的用户名称,user_name 为评论列表中显示的用户名称

comment_xiaohongshu_cr1

1、targetnoteid 和work_id  重复,可删除
2、rid 表示一条评论id,具有唯一性
3、reply_list 中包含\
4、reply_list字段修改名称为reply

comment_yelp_cr1

1、user_photo_count 存在100条左右为Null
2、hid 为空则表示该图片未下载

comment_trip_cr1

1、shopping 表中contributions 字段存在为空的现象,
2、things 表中reply 字段建议删除
3、alias字段为店铺url中的一部分
4、删除shopping 表中时间为0001-01-01 BC的数据
5、shopping表 字段value值为无修改为空
6、shopping表中 存在comment 字段,原因是shopping类 店铺列表中,每一个店铺,会显示一条评论
7、restaurants表中head_photo 字段出现Null
8、shopping 表 head_photo 字段出现 nan
9、like_count  出现负数,是因为此条评论被举报,每举报一次,like_count 则会减1
10、user_name 存在为空的现象,但从user_id 字段查找规律,发现user_id 是由 user_name 组成的,已修复
11、shopping表中 contributions 字段存在Null值
12、shopping 表中字段存在为'无'的值,去除,为空
13、visit_type 存在为空的现象,表示此评论不属于任何一类,Business、Friends、Family、Solo、Couples

poi_mdd_hudsonyards_website

1、修改字段名hourse 修改为hour

publish_instagram_cr1

1、comment_list 中出现\
2、category 为两类 tags location
3、code、client_cache_key 为该作品的秘钥,可不必理会
4、code、clent_cache_key等一些字段为Null的是之前爬取的数据,目前无法补充之前的字段
5、uid 为头像url hash 之后得到的
6、inst_desc  为作品简介
7、pk_id 无具体作用,可删除

publish_tiktok_cr1

1、like_count share_count  为Null的字段无法补充
2、location  除bd 之外都删除
3、play_count 具体含义
4、删除location bd_31、bd_32、bd_33 之外的数据
5、修改context字段内容,把{ 替换为 [ ,context中的文字为在放视频过程中,出现的悬浮文字
6、play_count  为此作品的播放量

publish_xiaohongshu_cr1

1、有2000条左右的数据,context字段为空
2、category 包含两类,normal、video ,normal 则表示为图文,获取的图片有多张,video 则是一段视频,只能获取一张图片,即视频中的某一个画面截图
3、collects_count  收藏的数量
4、location 和 search 对应失败,已修改
5、删除苏州地区的数据

publish_weibo_cr1

1、search 和 location 的对应关系错误   

user_tiktok_cr1

1、author_id  修改为 user_id,  author_id 修改为 user_name

user_weibo_cr1

1、存在某些字段的值为Null原因:是因为存在两种不同的类别,tags、location
2、hid 存在为空,已修改
3、create_user 创建账号的日期
4、friends_count,pagefriends_count,video_status_count,favourites_count 为Null,已填充为0
5、gender 只有两个值,m、f
6、follow_count 关注数量  在 0~5729 之间
7、friends_count 好友总数 在 0~1464之间
8、pagefriends_count  展示的好友页数 在 0~43 之间
9、statuses_count  发布的作品总数 在 0 ~ 147669
10、video_status_count  发布的视频总数 在0~5425之间
11、favourites_count  最喜欢的数量 在 0 ~ 110653 之间
12、followers_count  粉丝数量 在 0~141000000

user_xiaohongshu_cr1

1、level_image 和 level_name 为Null,原因:有的用户等级为普通用户,所以没有配饰挂载头像上
2、gender 有三个值 0、1、2,但具体哪个数字代表男,哪个数字代表女 暂时无法区分
3、notes_count 表示用户发布的视频或作品数量
4、fans_count  表示用户的粉丝数量
5、follows_count  为关注数量
6、address 为用户的注册地,不是详细地址,精确到市一级
7、user_name相同,但其他用户信息不同

去重的表

1、comment_trip_cr1_restaurants
2、publish_instagram_cr1
3、publish_twitter_cr1
4、publish_xiaohongshu_cr1

poi 整合

1、poi_trip_cr1_xxx 中的表整合为一张表,表名为poi_trip
2、poi_westbund官网爬取的数据 如 poi_mdd_hudsonyards_website、poi_qtapp、poi_cdtgl
3、poi_gaode、poi_gaode_hjbh、poi_mfw 整合到一张表 poi_shop
4、degreehead_westbund_exploding_topics、degreehead_westbund_google 网红指数整合到一张表中 表名:degreehead_westbund

无法更改删除字段名的表

comment_googlemap_cr1
删除的字段:share_count、review_id_hash、category,id
修改字段名,new_id --> id
publish_instagram_cr1
修改字段名: inst_photo_name_has_list --> photo
comment_douyin_cr1
删除的字段:share_count
comment_gaode_cr1
删除的字段:quality_score、aos_tag_score



注:对无效字段可不必删除

整理的思路

1、根据comment 、 publish、poi、user、degreehead 进行整理,从上至下
2、对数据表中存在不合理或与页面中比对不一致的字段则删除
3、后台api 获取的,但无法使用的字段删除
4、根据相同类别中的数据进行比对,尽可能的统一字段