请教各位高手,我是用的网络爬虫程序采集的网页数据,如何进行数据清洗?

要把广告信息清洗掉,只留下有用的,放入MY SQL数据库中。请解答一下,希望是详细过程,本人是菜鸟,拜谢!!!

采集过程中不太好清洗,除非你能精确分析出广告信息的特征,再加上语义判断规则才可以精确清洗。建议先把数据采集下来,后期在mysql中用sql语句进行清洗。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2021-07-29
预处理阶段

第一步:缺失值清洗

1、确定缺失值范围

2、去除不需要的字段

3、填充缺失内容

4、重新取数

第二步:格式内容清洗

1、时间、日期、数值、全半角等显示格式不一致

2、内容中有不该存在的字符

3、内容与该字段应有内容不符

第三步:逻辑错误清洗

1、去重
2、去除不合理值
3、修正矛盾内容

第四步:非需求数据清洗
第五步:关联性验证
第2个回答  2013-04-18
用正则语法,将采集结果中的广告代码删除掉即可。应该不难的追问

可是我需要采集到的数据量比较大,还有就是怎样放入数据库中呢?麻烦详细解释一下,谢谢

第3个回答  2013-04-18
论坛版主招聘 团队组建招人 www zuovw com 手机类论坛招人啦
相似回答