站点https化和新浪死链处理经验分享
站点https化会对流量产生负面影响?百度是这么说的
今年5月中旬,百度完成了全站https化。随后,以维基百科为首的多家网站也表示将实现全面HTTPS化。HTTPS是以安全为目标的HTTP通道,简单讲是HTTP的安全版。百度曾在5月下旬的公告中明确表示“百度视同一个域名的http版和https版为一个站点,优先收录https版。”因而越来越多的站点也开始考虑Https化问题,但仍有不少站长担心“网站https化对站点流量是否会产生负面影响、怎样才能避免这种影响?”等问题。
对此,百度是如何回复的呢?
问:对于http和https,Baiduspider会不会区别对待?
答:不会区别对待。说得再全整专业一些:Baiduspider在对于http和https站点的调度和解析方面没有任何区别。至于建索引库,年初的时候百度进行过升级,目前对https站点也是全力支持的。
问:Baiduspider可以抓取https网站吗?站点https以后应该做些什么?
答:在抓取方面,Baiduspider完全支持https链接的抓取。站长需要注意的一点是要保证http链接到https链接良好的重定向(使用301或302),这样百度可以做到无缝切换。另外可以使用链接提交工具提交https链接,尽快通知百度。
问:站点切换https以后,新产生的https页面,百度会将其视为新页面重新收录?重新计算排名?
答:不是的,不涉及重新收录的问题。
问:https以后可以使用改版工具向百度提交http与https的对应关系吗?
答:http站和https站会被百度视为同一个站点,不属于改版,不适用改版工具。
问:https以后,排序有可能发生什么变化?
答:在rank方面,现在对两种链接无区别对待,从安全性考虑,以后可能会优待https的链接。
新浪死链处理经验分享
新浪稳座国家级门户头把交椅,谁还敢说自己网站结构的复杂程度可以超越新浪。于是我们请王久明分享一下新浪在死链处理和死链预防(重要页面因修改而产生死链)方面的经验。
一、在以下背景下会较多产生死链:
1、时政新闻的敏感性;
2、来自监管的删除需求;
3、频道(编辑)自身删改的需求;
4、搜索方期望资源方主动优化和定期清除的需求
二、死链分类:
由于系统架构、历史遗留问题、多业务系统交叉影响等多方面因素,新浪存在如下三种死链:
1、协议死链,服务器端返回HTTP状态码404;
例如:‘谁在伪善’http://news.sina.com.cn/movie/music/1999-06-15/2965.shtml
2,内容死链,服务器端返回HTTP状态码200,无法设置为404;
例如:http://news.sina.com.cn/c/2015-04-23/184531753084.shtml
3,页面需要用户和蜘蛛可以正常访问,但由于删改或误操作导致反复上下线形成协议死链或内容死链。
例如:http://news.sina.com.cn/2015-12-05/doc-ifxmhqaa9933763.shtml
上线后又下线,后又上线,甚至反复多次。由于下线期间存在协议死链或内容死链的情况,导致百度认为该页面应该被删除,不被收录,且即使后续重新上线也无法恢复收录。对于这种情况,应加以预防。
三、解决方案:
1、协议死链,这个最符合HTML标准处理方式,站点方面无须多做什么,如果需要百度快速处理可以通过百度站长平台的死链提交工具(http://zhanzhang.baidu.com/college/courseinfo?id=267&page=4#h2_article_title18)进行主动提交
2,无法设置协议死链接,仅主体内容文本被删除的内容死链死链,新浪的处理方法是:
1)走事先之制定好的《死链标准流程》:用站内标准内容死链模板页面(告诉用户该页无法找到)覆盖需要删除的页面,5秒后跳转到统一的全站导航页,以减少用户流失。
2)根据需要,比如根据特定关键词圈定一批最终需要处理为协议死链的敏感页面,将这些页面链接放到一个文件里,由专人在服务器端修改成协议死链。通过百度站长平台工具进行死链提交
3,针对反复上下线导致百度误判为死链的情况,新浪的预防办法是:
1)制度上:系统后台设置提醒,提醒编辑上线后除非特殊情况不要下线;
2)功能上:这种情况在专题运营中最常见,且影响比单篇新闻页要大,由于我站点运营规定是不能删除页面的,因此在系统后台将“删除专题(对编辑来说就是删除该专题)”和“将专题调整为不对外显示(对编辑来说不是删除,而是暂时下线,调整为外网用户无法访问,可随时再次重新上线)”两个功能严格区分开,并提供回收功能。针对“将专题调整为不对外显示”这种情况,不再将页面更新为内容死链(页面无法找到),以免被百度误判。专题页面仍可访问,只是站点不设置入口、不进行推广,用户没有访问来源而已。