《Google SRE工作手册》系列读书分享之多云环境下SRE工程的思考(视频+文字版)

作者:SRE专委会 时间:2023-05-13
本期分享主题是多云环境下SRE工程的思考,本期分享内容为SRE在云上的变革、SRE在云上的思考、云上SRE的未来、云上SRE的福利。

引言

本期分享主题是多云环境下SRE工程的思考,本期分享内容为SRE在云上的变革、SRE在云上的思考、云上SRE的未来、云上SRE的福利。

 

一、SRE在云上的变革-Elastic弹性

Site Reliability Engineer = Software Engineer + Systems Enthusiast (Fans)

站点可靠性工程师 = 软件工程师 + 系统爱好者

According to Tammy Butow, SRE Manager at Dropbox

SREs are Software Engineers who specialize in reliability.

SREs apply the principles of computer science and engineering to the design and development of computer systems: generally, large distributed ones.

SRE 是专注于可靠性的软件工程师。SRE 将计算机科学和工程原理应用于计算机系统的设计和开发:通常是大型分布式系统。

通过自动化消除人工交互,SRE 使系统更加可靠。因此,从本质上讲,SRE 的工作就是让自己从工作中自动化。


二、SRE在云上的思考-熵增

SRE在云上的思考-熵增


三、云上SRE的未来

◆ Operational Excellence Pillar  机遇和挑战

◆ Security Pillar  机遇和挑战

◆ Reliability Pillar   提高和挑战

◆ Performance Efficiency Pillar  改善和极大改进

◆ Cost Optimization Pillar  挑战

◆ Sustainability Pillar  机遇

云上SRE的未来

Amazon ECS on EC2


四、云上SRE的福利

Six advantages of cloud computing

1、固定费用换取可变费用

Trade fixed expense for variable expense 

2、受益于巨大的规模经济

Benefit from massive economies of scale

3、停止猜测容量

Stop guessing capacity

4、提高速度和敏捷性

Increase speed and agility

5、停止花钱运行和维护数据中心

Stop spending money running  and maintaining data centers

6、几分钟内走向全球

Go global in minutes 

 

◆  Operational Excellence Pillar 容量规划==》弹性、监控==》可观测性、系统设计 ==〉AWS Build Culture

◆  Security Pillar  安全性 配置管理    ==》  IaC

◆  Reliability Pillar 可用性 、故障排除、灾难恢复 ==〉(系统分层,责任共担)

◆  Performance Efficiency Pillar 性能效率、自动化  ==》 IaC,编排

◆  Cost Optimization Pillar  成本优化 ==》FinOps/CFM ?

◆  Sustainability Pillar  新支柱    ==〉?

 

五、互动答疑(Q& A)

董金(雨生)

董老师

现某上市公司IT总监

雨生“我们一起重新定义Cloud Computing”;雨生服务出海云计算领域,自媒体。雨生云计算。FinOps-CFM;为企业出海咨询,规划,降本增效。 从业20年,CFM/FinOps SaaS创业失败者。现某上市公司IT总监,整合营销计算广告15年。


Q1: 从企业上云的角度来看,多云是否是必要的?走向多云是否是未来发展的必然趋势,为什么?

A1: 总结一下,雨生认为多云不是必要的,但是它确实有一些优势。虽然我们有一个梦想,就是回到单一云的时代,那时的情形很棒,但是现实是单一云不够强大。事实上,多云的出现是为了弥补单一云的不足。由于多云可以提供更多的资源和更灵活的部署方式,因此在商业角度来看,多云确实有优势。同时,随着科技的不断进步,未来的趋势也将是多云。因此,虽然多云不是必要的,但是它是未来的趋势,而且也带来了一些优势。总之,多云是值得考虑的一种部署方式。

在多云 SRE 的背景下,了解不同云部署模型(包括单云和多云)的优缺点非常重要。 如前所述,多云可以提供更多的资源和灵活性,但也增加了云环境管理的复杂性。 因此,在考虑多云方法时权衡利弊非常重要。

要成为优秀的多云 SRE,必须保持学习和成长的心态,不断提高技能并适应新技术。 思考未来的发展方向和自己的价值所在也很重要,这样才能更好地适应变化,为公司创造价值。 除了强烈的责任感和团队合作精神,积极参与公司的业务和项目对于公司的成功至关重要。

此外,多云SRE必须具备云计算、容器化、自动化运维、网络安全等多种技术能力。 在这些方面,需要不断学习和掌握最新技术,了解行业趋势和变化,为公司的业务和项目提供更好的支持和解决方案。

最后,作为多云SRE,更重要的是要有开放创新的精神,不断探索新的技术和方法,寻求更高效优化的解决方案,为公司的业务和项目提供更多有价值的支持和贡献。


Q2: 现在很多企业采用私有云或混合云模式。在这种情况下,无论未来走向何方,SRE技能都能发挥重要作用吗?

A2:首先,雨生可以从广度方面看到,SRE面临的问题更加复杂。雨生认为SRE领域,谷歌提出了Know-what,而我们要普及Know-How,探索和应对Know-Why。

Know-What」意为基本概念的知识,我们从学校学习的知识大多属于这类。

「Know-How」意为展开行动的知识,当我们出了社会、进入职场,就开始学习如何将学校所学的知识应用在工作场景中;或者,做与学校所学无关的工作,从基本概念重新学起。

除了「Know-What」与「Know-How」之外,还有第三种学习方式,就是「Know-Why」的学习,也就是为什么会这样、为什么要这样做的知识。

以SRE为例,以前只需要解决问题A,现在不仅要解决A,还要解决BCDE等等问题。从商业角度来看,这个领域变得更加广泛了。然后我们再来看深度,深度带来了很大的挑战,因为当你足够广泛时,你不可能足够深入。如果你对问题不熟悉,就要慎重考虑。否则,你将面临很多类似于问题B的挑战。但是,SRE可以帮助企业管理和维护无论是云上还是云下甚至多云的服务质量,降低风险,因为SRE工程理念就是提高可靠性、可用性和稳定性。虽然这个领域还有很多扩展,但总的来说,SRE的市场价值正在提升。


Q3: SRE在GCP、AWS等大型云计算厂商中得到了高度认可和深度应用,但是对于规模较小的国内企业,无论是云计算企业还是互联网公司,您认为SRE最佳实践或框架能否发挥很大的优势呢?

A3:首先,雨生可以进一步说明一下DevOps。实际上,它与SRE有相似的应用。不论是大公司、中公司,还是小公司,在相同的SRE场景下,都可能面临相似的挑战和问题。这是因为它们都是技术或者延伸出来的理论,一个是偏软一些,一个是偏硬的,但我认为它们都适用。它不仅适用于大公司,也适用于小公司,还可以适应中型公司。SRE是一套通用的方法,通过实施一些工程上的理念、方法,甚至是软件,可以提高这些公司的稳定性和可靠性,降低风险,提升效率。最终的结果是提供更好的服务,即客户体验更好。但是从价值角度来看,要看公司关注的价值是什么。例如,像SaaS、ERP就非常关注SRE,甚至像国内的一些民生设施,如买票、打车,它们的影响实际上是非常大的,这些影响可能不只是经济影响,还可能是社会影响。因此,可以采用商学院的PEST模型,从多个角度去评估它的影响。SRE可以提升这方面的改善,并降低这方面的影响,最终为客户提供更好的服务。因此,我认为这个理论是适用的,只是适应的宽度和幅度不同。但是,我认为挑战在于市场供应人才太少了。例如,雨生第一次接触SRE理念是在2015年,当时某家外资企业在国内招聘时才知道的。因此,这些东西基本上都与国外的企业有关系。这是一个特点。如今,国内一些大厂都会意识到,原来这种可靠性工程如此重要。当墨菲定律发生时,对企业的商业影响是灾难性的。很多时候不能只看钱或者可能性影响,它的很多影响实际上与PEST模型有重大联系。因此,从这个角度看,SRE所看到的范围,我认为目前还不完全清晰。很多地方谈得不太明确,越是不明确,SRE潜在的价值就越有可能存在,因为它是关于Quality、Availability和最佳实践的,真正能够让企业高层意识到的重要事项。这就带来了另一个问题,像我们国家的基础设施、民营设施的可靠性特别好,几乎很难停电。我记得我刚入行的时候,一堆大佬都告诉我,这个云就跟水电煤一样,只要用就可以了。但是停过电吗?我记得我停电还是在儿时。没有停过吧,几乎不可能,或者停了之后立刻恢复,对吧?但是云上还远没有达到这种程度,这个问题还是任重道远,不是那么简单。我认为基本上回答这个问题,大厂通常会做得更好一些。越到后面,例如折扣,他为你提供这种低价格的服务的时候,干嘛有那么高的要求?你买的是一辆性价比很高的车,要知道我们传统口语中的性价比(性能和价格比),这里面那个可能没有可靠性的要求。因此,看自己的选择是什么,是选择租/买北京二环房子还是五环房子抑或河北燕郊的房子?你是选择住市区的房子还是郊区还是挨着北京/上海/深圳的房子?从选择的角度其实都可以的,但作为从业者要明白自己想要的是什么。你不能说,我想要一个2万块钱的手机,但我只想花2000块钱。我认为这是一个很明显的商业问题,但是用户一般都希望不花钱,然后获得一个2万块钱的手机。要基于价格决定价值,基于价值锚定你的Capital资本,这时候你就是人力资本,否则你就是人力资源。这区别就是有没有杠杆原理,有没有风险,而SRE 就是机遇风险产生的Role,基于SLA产生的锚定杠杆的工种。


Q4: SRE不仅仅是一个学科,它是一个最佳实践,也是一个职业。目前国内的发展情况如何?薪资如何?刚才举的国外的例子非常有吸引力,但是国内的情况怎么样?

A4: 当谈到SRE时,我们需要了解当前国内的市场状况。虽然在国外,SRE是一个非常热门的职业,薪资也相对较高,但是在国内市场尚未完全成熟。然而,这并不意味着SRE在国内没有发展前景。相反,随着互联网和云计算技术的不断发展,SRE在国内市场也逐渐得到了认可和重视。

在国内,很多大型互联网公司已经开始招聘SRE,而薪资水平也在逐渐提高。虽然相比国外市场,薪资待遇可能还有一定差距,但是这并不影响SRE在国内的发展前景。相反,我们可以把眼光放长远,看到SRE在未来将会成为一个更加重要的职业。

虽然市场上的SRE岗位很少,但是我们不能因此而放弃。相反,我们应该把握机会,尽早学习相关知识和技能,提高自己的竞争力。同时,我们也可以通过参加各种行业会议和活动来了解市场发展趋势和前景。

雨生的建议是尽快学好英语,然后去国外赚高薪!这实际上是市场规律,国内需要时间来发展。这种岗位其实很少,大部分人不太现实。

打个比方说,比如我们此刻不是在讨论SRE这种专业话题,我们来谈买房子。你会选择在每平米5000元的时候买房,还是在每平米5万元时买,或者50万元时买?在切入市场时,你会选择高点还是低点?但是可能你认为低点其实是高点,这个问题我们今天不讨论了。很简单,这是一个趋势,我们现在就要开始研究。在这个行业,你迟早会成为专家,因为现在市场上很难找到合适的工作了。由于供应链岗位很少,很多人认为传统的一些工程师都可以胜任。但是这会带来一个问题,你的价值是多少。我认为SRE直接关系到企业的价值。从这个角度看,也许现在不值钱,但五年后呢?我们要看趋势,而不是当下。你只看理论而不实践是不可取的。

另外,我们还需要注意到SRE是一个多学科交叉的职业,需要掌握多种技能和知识。因此,我们应该注重自身的综合素质提升,包括技术能力、管理能力、沟通能力等方面。

虽然现在SRE可能并不是一个非常热门的职业,但是我们应该放眼未来,看到其在互联网行业中的重要性和发展前景。因此,我们需要不断学习和提升自己,把握机会,成为这个行业的专家和领袖。


Q5: 您认为 SRE 一般具备哪些硬实力?

A5: 从量的角度看,雨生发现有很多高级运维工程师都非常有兴趣从事SRE领域。虽然我们看了很多简历,但不得不说,大量运维工程师的简历都被我们PASS掉了。为什么呢?很多人虽然有一点点理论知识,但是缺乏SRE实践经验。这个问题在系统运维这个学科领域也是普遍存在的。首先中国大学不讲授系统运维课程,因此从大学阶段就很难招到专门从事系统运维的学生,或者说只有计算机科学、网络工程等专业才会涉及到一些相关的知识。即使招到了这样的学生,他们来到公司之后也需要至少三年的时间才能够成为一个熟练的网络工程师。当然,这只是针对网络方面的技能,如果我们考虑到其他方面的技能,比如数据库、云计算、IC、可观测性、编程等等,每个领域都需要至少三年的时间才能够熟练掌握。如果我们把这些技能的宽度加起来,至少需要十年甚至二十年的时间才能够成为一个专业的人士。因为SRE领域本身就非常复杂,要想成为一个专业的人士,需要成为一个通才。如果我们要保守估计,至少需要十五年的时间才能够成为一个专业人士。但是,我们需要注意的是,SRE这个领域本身还非常新,Google的SRE工程出版至今也还不到十年的时间。因此,我们需要给SRE领域一定的时间来成长和发展。当然,在国内,可观测性这个领域目前非常火热,甚至已经引起了人们的关注,但是我们需要注意的是,在这个领域取得成果需要时间和耐心。因此,我们需要努力上下求索,不断提高自己的能力和技能,才能在这个领域取得成功。


Q6: 您如何看待“35岁定律”?

A6: 在这张图的最后一句话中,雨生提到了“可持续性”。当你到了35岁时,你已经积累了很多过去的知识。如果不抛弃或弱化这些知识,就很难吸收新的知识。如果你想明确你是一个“海绵型人才”还是一个“漏斗型、淘金式的人才”,我想推荐一本书给你,叫做《学会提问》。这本书可以帮助你更好地理解我所说的内容。实际上,在我的眼里,你的年龄并不重要,我更看重的是你现有的能力以及你对于这家企业和我们招聘职位的价值。

到了35岁,企业会面临一个很简单的问题:为什么要雇用你?你的价值在哪里?这个角度可以解决国内所谓的“35岁定律”问题。从商业角度来看,过去都是很粗放式的经营。按照电梯理论或者风口上的理论,你的价值取决于这家企业的平台价值。前几年有个大佬提出了拔插式U盘理论,这也说明了价值的变动性。现在的趋势是企业需要的是多才多艺的人。如果你一直专注于可用性的工作比如,如果你一直专注于可用性的工作,你已经做了10年或20年了,那么你的工作可能已经变得陈词滥调。我并不是说这些工作不重要,但是当企业决定跟上时代步伐时,你是否跟得上呢?你的许多职责和能力是否已经被替代了呢?比如像云厂商这样的,那么你的价值就会降低。我亲眼见证了这个时代的变化,最近15年到20年,曾经的网络工程师、系统管理员、数据库管理员,现在大部分企业都不需要了。但是我想问,这家企业不需要管理数据库吗?不需要管理数据吗?这家企业不需要管理系统吗?这家企业不需要管理网络吗?我最近在招一个能在云上搞多云网络优化的人,但是却发现几乎所有的人都在云厂商那边,而不是在客户那边。但没有任何单一云厂商会给你搞别的友商的架构优化的(各扫自己云前雪,不管客户瓦上霜)。

所以,要成为一个优秀的多云SRE,你需要保持学习和成长的状态,不断提高自己的技能和适应新的技术。你需要思考自己的未来发展方向和价值所在,以便更好地适应变化和为公司创造价值。同时,你也需要有强烈的责任心和团队合作精神,积极参与公司的业务和项目,为公司的成功做出贡献。

此外,多云SRE需要具备很多技术方面的能力,比如云计算、容器化、自动化运维、网络安全等等。在这些方面,你需要不断学习和掌握最新的技术,了解行业的发展趋势和变化,以便更好地为公司的业务和项目提供支持和解决方案。

最后,作为一个多云SRE,你需要具备开放和创新的精神,不断探索新的技术和方法,寻求更高效和优化的解决方案,为公司的业务和项目提供更有价值的支持和贡献。


往期视频回看,关注我们

SRE专委会视频号