由于考虑到以后可能由本项目带来的巨大存储压力,我们经过慎重考虑后决定停止本项目。感谢您对本项目的支持!本文的话….暂时不删除吧,留个纪念
这是一个极为无用的项目,仅仅是闲的没事干而开发的(而且还挤占我本来不多的服务器空间) ,前端(网页提交及快照展示)使用php编写 ,后端(网站评分及快照创建)使用Python编写(另外前端框架使用超好看的MDUI)
1.关于抓取
本项目的蜘蛛使用UA为UnknownSpider,预计每次创建快照将会爬取页面5次(前三次其实可以合并成1次的,但是我就是懒,23333
第一次:验证是否可以访问
第二次:检测robots.txt中是否允许抓取
第三次:获取网站js执行后的源代码(5秒未响应直接Pass)
第四次:对网站进行测速
第五次:如果对网站评分达到一定标准进行截图收录
2020/3/25更新:robots.txt检测已被暂时禁用
由于实在懒,懒得写robots.txt解析的轮子,直接引用了现成的轮子‘urllib.robotparser’,这个轮子请求的时候不支持自定义UA,所以请求robots.txt时,使用的UA是‘Python-urllib/X.X’。这个UA容易被某些网站的防火墙所屏蔽,所以…如果被屏蔽了,程序默认为无限制(别喷我,我只是懒得写轮子)
但是,请放心,本蜘蛛不是那种暴力的蜘蛛,本蜘蛛采用单线程(其实是懒得搞多线程抓取),不会对您的源站服务器造成太大影响,也不会消耗您过多的流量。所以…..请不要限制我们
2.评分标准
2.1.自动评分
1.速度
本蜘蛛对速度要求比较严格,响应时间超过4000ms直接pass,以下为详细评分标准:
0-50ms:自动判断程序错误直接跳过
50-1000ms:10分
1000-2000ms:8分
2000-3000ms:5分
3000-40000ms:3分
大于4000ms:0分
如果你想知道您的站点在本蜘蛛测试时的访问速度,请使用本API的V2版本测速:网页链接
2.关键词
为减少收录到一些违反法律或擦边球的网站,我们对页面中的关键词进行检测;每个触犯的关键词扣0.5分
3.广告
为提高用户体验,我们对页面中放置的广告进行检测;每个广告链接0.2分(我只是单纯的想提高用户体验…我个人也不反对挂广告赚钱,毕竟很多网站都不是靠爱发电的)
4.内容字数
为了收录更加有意义的页面,我们决定对网页字数进行评定,每1000字1分,超过10分按10分记录、
5.URL及标题长度
我个人比较喜欢URL和标题较短的网站…所以…我设定了这个,满分6分;以下为评定标准
URL长度:
0-30字符:3分
30-45字符:2分
45-60字符:1分
60及其以上:0分
标题长度:
0-15字符:3分
15-25字符:2分
25-45字符:1分
45字符以上:0分
以上总分超过20即可自动收录
另外….这个评分机制写的不是很好,望大神轻喷…
2.2.手动评分
如果您对自动评分的结果并不满意,您可以向apple#mr-wu.top(#替换为@)发送邮件,邮件标题请设置为’我希望手动评分’;邮件中需包含您的URL,我们将会为您进行手动评分,并且将评分结果回复给您
3.快照创建频率
为了节省服务器空间,我们每个URL创建的评论都是不一样的,以下为创建频率设置标准:
1.分数
20分及其以下:2个月创建一次
20-25分:1个月创建一次
25分以上:半个月创建一次
2.是否为首页
由于非首页内容变动是很少的,所以,如果非首页,在1的标准上增加2个月
4.其他
1.支持的功能
1.Robots.txt识别
2.简易网站评分
3.网站创建图片快照
2.预计未来添加的功能
1.进行源码快照
2.对网站源码进行快照
3.网站时光机主站地址
网页链接:网页链接
4.请求删除或停止对您的网站创建快照
请通过邮箱(apple#mr-wu.top,#替换为@)给我发送邮件,并附上你要删除的网站URL或需要停止创建快照的URL,我们将会手动对您提交的URL进行屏蔽(操作预计在3个休息日内完成
5.给我提意见
欢迎到本博客留言板或我的邮箱(apple#mr-wu.top,#替换为@)给我提意见
主节点服务器配置:
类型:QEMU虚拟机 宿主机4H4G100M入口 60MB出口
CPU:1核心
内存:768MB
磁盘:10G SSD+40G 内网SMB
宽带:100MB入口 30MB出口
数据库使用:
内网MySQL、1H 1G内存、低性能版
很寒酸吧,欢迎给我赞助,,,宿主机内存和硬盘真的很吃紧
2020/4/2补充:关于为何禁用robots.txt识别
虽然这是很不道德的事情,但是我还是厚着脸皮注释掉了robots.txt识别的代码
因为如果被大部分大网站的robots.txt屏蔽,本站将失去存在的意义,所以目前暂时注释掉robots.txt识别模块,如果不需要被抓取的,请通过邮箱联系我
2020/4/7补充:
特别鸣谢:感谢@Rain提供的快照备份空间!
目前已经3节点从主节点自动备份快照,保证快照安全!
主节点:浙江台州节点
节点1:Rain提供的备份空间
节点2:坚果云免费空间
节点3:OneDrive个人版5G
节点4:百度网盘自动同步(非常不稳定,可以当作没有)
当然,也欢迎您赞助我或给我提供备份节点
2020/4/17日更新:https://www.wunote.cn/article/2833/