背景
今天,爬取一个https地址的时候,发现如下问题,从浏览器打开该地址,显示正常的json格式。但通过curl访问却返回类似乱码一样的内容,一开始以为是https协议安全机制导致的异常。进过细究后发觉不可能,后来查证是因为服务端对数据做了gzip压缩,因此客户端如果要获取到正确的数据,需要对数据做解压,在curl中,增加参数–compressed。如果是node的request模块,则在其配置相中设置gzip: true即可。
gzip
gzip 是服务端为了节省流量,对数据做压缩的一种方案。特别是在针对某些数据量特别大的接口,压缩可以大大减少网络带宽的消耗,但同时也会增加服务器CPU的压力,因此只有在接口数据量特别巨大,确实有必要的时候才用。服务端使用了gzip压缩,客户端获取到数据后就必须对数据做解压。浏览器会自动处理解压操作,而其他客户端一般需要某些设定或依赖其它的工具才能完成解压的工作。
https原理与运行流程
1.客户端的浏览器向服务器传送客户端 SSL 协议的版本号,加密算法的种类,产生的随机数,以及其他服务器和客户端之间通讯所需要的各种信息。
2.服务器向客户端传送 SSL 协议的版本号,加密算法的种类,随机数以及其他相关信息,同时服务器还将向客户端传送自己的证书。
3.客户利用服务器传过来的信息 验证服务器的合法性,服务器的合法性包括:证书是否过期,发行服务器证书的 CA 是否可靠,发行者证书的公钥能否正确解开服务器证书的“发行者的数字签名”,服务器证书上的域名是否和服务器的实际域名相匹配。如果合法性验证没有通过,通讯将断开;如果合法性验证通过,将继续进行第四步。
4.用户端随机产生一个用于后面通讯的“对称密码”,然后 用服务器的公钥(服务器的公钥从步骤②中的服务器的证书中获得)对其加密,然后将加密后的“预主密码”传给服务器。
5.如果服务器要求客户的身份认证(在握手过程中为可选),用户可以建立一个随机数然后对其进行数据签名,将这个含有签名的随机数和客户自己的证书以及加密过的“预主密码”一起传给服务器。
6.如果服务器要求客户的身份认证,服务器必须检验客户证书和签名随机数的合法性,具体的合法性验证过程包括:客户的证书使用日期是否有效,为客户提供证书的CA 是否可靠,发行CA 的公钥能否正确解开客户证书的发行 CA 的数字签名,检查客户的证书是否在证书废止列表(CRL)中。检验如果没有通过,通讯立刻中断;
7.如果验证通过,服务器将用自己的私钥解开加密的“预主密码”,然后执行一系列步骤来产生主通讯密码(客户端也将通过同样的方法产生相同的主通讯密码)。
8.服务器和客户端用相同的主密码即“通话密码”,一个对称密钥用于 SSL 协议的安全数据通讯的加解密通讯。同时在 SSL 通讯过程中还要完成数据通讯的完整性,防止数据通讯中的任何变化。
9.客户端向服务器端发出信息,指明后面的数据通讯将使用的步骤⑦中的主密码为对称密钥,同时通知服务器客户端的握手过程结束。
10.服务器向客户端发出信息,指明后面的数据通讯将使用的步骤⑦中的主密码为对称密钥,同时通知客户端服务器端的握手过程结束。
SSL 的握手部分结束,SSL 安全通道的数据通讯开始,客户和服务器开始使用相同的对称密钥进行数据通讯,同时进行通讯完整性的检验。
从上面的流程可以看出(加粗字体),SSL通信在握手阶段使用的是非对称加密,在数据的传输阶段使用的是对成加密。