吴先森的笔记
为退烧而生!
吴先森的笔记
网站时光机项目正式上线
网站时光机项目正式上线

由于考虑到以后可能由本项目带来的巨大存储压力,我们经过慎重考虑后决定停止本项目。感谢您对本项目的支持!本文的话….暂时不删除吧,留个纪念

这是一个极为无用的项目,仅仅是闲的没事干而开发的(而且还挤占我本来不多的服务器空间) ,前端(网页提交及快照展示)使用php编写 ,后端(网站评分及快照创建)使用Python编写(另外前端框架使用超好看的MDUI)

1.关于抓取

本项目的蜘蛛使用UA为UnknownSpider,预计每次创建快照将会爬取页面5次(前三次其实可以合并成1次的,但是我就是懒,23333

第一次:验证是否可以访问
第二次:检测robots.txt中是否允许抓取
第三次:获取网站js执行后的源代码(5秒未响应直接Pass)
第四次:对网站进行测速
第五次:如果对网站评分达到一定标准进行截图收录

2020/3/25更新:robots.txt检测已被暂时禁用

由于实在懒,懒得写robots.txt解析的轮子,直接引用了现成的轮子‘urllib.robotparser’,这个轮子请求的时候不支持自定义UA,所以请求robots.txt时,使用的UA是‘Python-urllib/X.X’。这个UA容易被某些网站的防火墙所屏蔽,所以…如果被屏蔽了,程序默认为无限制(别喷我,我只是懒得写轮子)

但是,请放心,本蜘蛛不是那种暴力的蜘蛛,本蜘蛛采用单线程(其实是懒得搞多线程抓取),不会对您的源站服务器造成太大影响,也不会消耗您过多的流量。所以…..请不要限制我们

2.评分标准

2.1.自动评分

1.速度

本蜘蛛对速度要求比较严格,响应时间超过4000ms直接pass,以下为详细评分标准:
0-50ms:自动判断程序错误直接跳过
50-1000ms:10分
1000-2000ms:8分
2000-3000ms:5分
3000-40000ms:3分
大于4000ms:0分
如果你想知道您的站点在本蜘蛛测试时的访问速度,请使用本API的V2版本测速:网页链接

2.关键词

为减少收录到一些违反法律或擦边球的网站,我们对页面中的关键词进行检测;每个触犯的关键词扣0.5分

3.广告

为提高用户体验,我们对页面中放置的广告进行检测;每个广告链接0.2分(我只是单纯的想提高用户体验…我个人也不反对挂广告赚钱,毕竟很多网站都不是靠爱发电的)

4.内容字数

为了收录更加有意义的页面,我们决定对网页字数进行评定,每1000字1分,超过10分按10分记录、

5.URL及标题长度

我个人比较喜欢URL和标题较短的网站…所以…我设定了这个,满分6分;以下为评定标准

URL长度:
0-30字符:3分
30-45字符:2分
45-60字符:1分
60及其以上:0分

标题长度:
0-15字符:3分
15-25字符:2分
25-45字符:1分
45字符以上:0分

以上总分超过20即可自动收录

另外….这个评分机制写的不是很好,望大神轻喷…

2.2.手动评分

如果您对自动评分的结果并不满意,您可以向[email protected]发送邮件,邮件标题请设置为’我希望手动评分’;邮件中需包含您的URL,我们将会为您进行手动评分,并且将评分结果回复给您

3.快照创建频率

为了节省服务器空间,我们每个URL创建的评论都是不一样的,以下为创建频率设置标准:

1.分数

20分及其以下:2个月创建一次
20-25分:1个月创建一次
25分以上:半个月创建一次

2.是否为首页

由于非首页内容变动是很少的,所以,如果非首页,在1的标准上增加2个月

4.其他

1.支持的功能

1.Robots.txt识别
2.简易网站评分
3.网站创建图片快照

2.预计未来添加的功能

1.进行源码快照
2.对网站源码进行快照

3.网站时光机主站地址

网页链接:网页链接

4.请求删除或停止对您的网站创建快照

请通过邮箱([email protected])给我发送邮件,并附上你要删除的网站URL或需要停止创建快照的URL,我们将会手动对您提交的URL进行屏蔽(操作预计在3个休息日内完成

5.给我提意见

欢迎到本博客留言板或我的邮箱([email protected])给我提意见


主节点服务器配置:

类型:QEMU虚拟机 宿主机4H4G100M入口 60MB出口

CPU:1核心
内存:768MB
磁盘:10G SSD+40G 内网SMB
宽带:100MB入口 30MB出口

数据库使用:

内网MySQL、1H 1G内存、低性能版

很寒酸吧,欢迎给我赞助,,,宿主机内存和硬盘真的很吃紧


2020/4/2补充:关于为何禁用robots.txt识别

虽然这是很不道德的事情,但是我还是厚着脸皮注释掉了robots.txt识别的代码
因为如果被大部分大网站的robots.txt屏蔽,本站将失去存在的意义,所以目前暂时注释掉robots.txt识别模块,如果不需要被抓取的,请通过邮箱联系我


2020/4/7补充:

特别鸣谢:感谢@Rain提供的快照备份空间!

目前已经3节点从主节点自动备份快照,保证快照安全!

主节点:浙江台州节点
节点1:Rain提供的备份空间
节点2:坚果云免费空间
节点3:OneDrive个人版5G
节点4:百度网盘自动同步(非常不稳定,可以当作没有)

当然,也欢迎您赞助我或给我提供备份节点


2020/4/17日更新:https://www.wunote.cn/article/2833/

吴先森

文章作者

为退烧而生!

发表评论

textsms
account_circle
email

吴先森的笔记

网站时光机项目正式上线
由于考虑到以后可能由本项目带来的巨大存储压力,我们经过慎重考虑后决定停止本项目。感谢您对本项目的支持!本文的话....暂时不删除吧,留个纪念 这是一个极为无用的项目,仅仅是…
扫描二维码继续阅读
2020-03-21