云计算: 亚马逊 Kindle 系统宕机导致电子书无法下载

科技快讯

Good e-Reader 周三报道,亚马逊 Kindle 系统宕机,导致用户无法下载新购买的和以前购买的电子书。亚马逊客户支持随后证实了问题,表示预计会在 48 小时内解决。亚马逊发言人 Jackie Burke 在给媒体的一份邮件中表示,部分客户遭遇了无法下载的问题,该问题已经迅速解决。如果客户仍然存在下载问题,他们可以按住电源按钮 40 秒去重启设备。

本月初,Google Cloud 云服务不小心删除了其大客户澳大利亚退休基金管理公司 UniSuper 的全部数据,幸运的是 UniSuper 在另一家公司有备份,因此这起事故没有给它造成毁灭性打击。Google 上周披露了这起事故的更多细节。UniSuper 使用了 Google Cloud VMware Engine(GCVE)服务。2023 年初,Google 的操作人员使用一个内部工具为 UniSuper 部署了 GCVE 私有云以满足特定的容量要求。该工具已被弃用,到 2023 年第四季度将完全自动化,不再需要人工操作干预。但在配置 GCVE 私有云时它意外的将一个输入参数留空。对于留空的参数,系统会自动分配一个默认的 1 年期限值。当一年期限结束后系统会删除 UniSuper 的私有云。由于删除是参数留空触发的,而不是客户要求删除,因此客户没有收到删除通知。客户发起的删除会收到通知。Google 表示已采取多项措施确保此类事故不会再次发生,包括相关内部工具已被弃用,修改了删除客户私有云的系统行为。

大部分人都不会去阅读服务商的服务条款,服务条款中的内容通常旨在给服务商免责,而且很多时候很有可能是拷贝自其他公司的类似条款,但其他公司的条款未必适用于你的公司。云托管商 Vultr 被发现其服务条款包括了可自由支配用户内容的声明,此举立即在社交媒体上引发了争议,而 Vultr 随即修改了条款,撤销了自由使用用户内容的条款。CEO J.J. Kardwell 表示相关服务条款适用于论坛帖子,而不是私人服务器内容。他承认条款在法律意义上过于宽泛。他强调 Vultr 不使用用户内容,极其注重隐私和安全,这是其服务的核心。他承认服务条款可能让用户感到困惑,普通用户是没有法学学位的。他再次强调该公司并无恶意。

非洲西海岸的四根海底光缆发生故障,影响了整个非洲大陆的互联网服务。发生故障的海底光缆包括 The West Africa Cable System、MainOne、South Atlantic 3 和 ACE,故障原因未知。网络监测数据显示,八个西非国家的网络连接出现严重中断,其中科特迪瓦、利比里亚和贝宁受影响最严重。加纳、尼日利亚、喀麦隆和南非也都报告受到影响。互联网分析公司 Kentik 的总监 Doug Madory 认为故障是灾难性的,其影响将会持续数周。环球全域电讯(HGC Global Communications)估计,受损的海底光缆承载了该地区四分之一的互联网流量。微软也报告其整个非洲的云服务和 Microsoft 365 应用出现中断。

美国核能供应商 Talen Energy 以 6.5 亿美元将其数据中心园区 Cumulus Data Assets 出售给亚马逊 AWS。占地 1200 英亩的园区由毗邻的 2.5 GW 核电站 Susquehanna Steam Electric Station 直接供电,该核电站属于 Talen Energy。Susquehanna 是美国第六大核电站,1983 年开始并网发电,它的两座核反应堆可分别安全运行到 2042 年和 2044 年。它每天发电量 6300 万千瓦时。亚马逊的数据中心只使用该核电站的很小一部分电力,它将以固定价格使用核电。

阿里巴巴表示不再推进云智能集团的完全分拆,理由是受到上月底生效的美国出口管制措施影响。阿里巴巴称,这些新的限制可能会对云智能集团提供产品和服务的能力以及履行现有合同的能力产生重大不利影响。该公司还称,将专注建立云智能集团可持续增长的模型。阿里巴巴原本计划将该业务分拆,并在 2024 年 5 月前上市。这本是将这家企业巨头拆分成六大业务集团的历史性架构重组计划的一部分。阿里云是亚洲最大的公有云服务提供商,按收入计算,智能云业务是仅次于阿里巴巴国内电商板块的第二大业务。

英伟达的 GPU 被广泛用于训练大模型,它的价格昂贵加上供不应求导致许多 AI 公司难以获得。现在亚马逊 AWS 推出了 Amazon Elastic Compute Cloud (EC2) Capacity Blocks for ML,允许客户在定义好的时间内租用英伟达 GPU,可用于训练机器学习模型或用现有模型做试验。客户可访问 1-64 个 NVIDIA H100 Tensor Core GPU 实例,每个实例有 8 个 GPU,可以提前 8 周以一天为单位预留最长 14 天使用时间。保留的时间结束之后,实例将会自动关闭。

训练 AI 模型所需的计算量是惊人的,需要昂贵的英伟达芯片,还需要大量的水去冷却数据中心。微软最近承认,OpenAI 最先进的大语言模型 GPT-4 是在微软位于爱荷华州的数据中心训练的,冷却用水抽取自浣熊河和得梅因河的分水岭。微软在其《2022 年环境可持续性报告》中披露,从 2021 年到 2022 年,该公司全球用水量大幅增长了 34%,接近 17 亿加仑,相比前几年,用水量急剧增加被认为源于 AI 研究,包括生成式 AI 以及微软与 OpenAI 的合作。此前有研究团队估计,每向 ChatGPT 提出 5 到 50 个提示或问题时,ChatGPT 会喝下 500 毫升的水。Google 也报告其数据中心用水量增长了五分之一,这也被认为与 AI 研究相关。OpenAI 和微软都表示正致力于提高 AI 模型训练效率。

8 月 30 日 08:41 UTC 左右,微软位于澳大利亚东区的 Azure 数据中心发生了电压骤降事件,导致了 7 个冷水机组中的 5 个发生故障,只有一个备用机组在工作。微软称,夜班只有 3 名工作人员,人手不足而无法及时重启冷水机组。随着温度上升和热警告,微软只能关闭服务器。这起宕机事故导致了微软多个澳大利亚大客户如昆士兰银行的服务完全中断。软件巨人表示,它暂时将夜班工作人员的人数从 3 人增加到 7 人,并探索改善现有自动化的方法,更好的应对电压骤降事件。

云计算巨头亚马逊 AWS 宣布将从明年开始对 IPv4 公网地址收费,鼓励用户使用 IPv6 地址。原因是
IPv4 地址日益稀缺,获取的成本在增加。IPv4 地址空间从 2019 年起开始枯竭,此后要获得 IPv4 地址主要靠回收和未使用地址段的释放,过去五年单个 IPv4 地址的获取成本增加了三倍以上。对云计算巨头来说,现在是时候将成本转嫁给客户了。从 2024 年 2 月 1 日开始,对于所有 IPv4 公网地址,AWS 将对每个地址每小时收 $0.005。新政策适用于包括 AWS EC2、Relational Database Service (RDS)和 Elastic Kubernetes Service (EKS)在内的服务。

Nala Ginrut 写道:最近SymeCloud Limited(syme.dev) 发布了基于云原生的便捷部署工具 Alexon (alexon.dev),开发语言为 Scheme。SymeCloud 主要致力于 AI-Infra 方面的研发,目前从 OpenAI 泄露出的技术架构来看,基于大语言模型的推理产品的一部分主要工程难度在于部署。产品级 LLM 并不是简单地跑个单节点,而是有复杂的架构划分与数据流优化组合,这使得原本就复杂的云原生体系在LLM领域将面对更加高复杂度的挑战。Alexon 的目标就是利用函数式编程的特性和模板系统为LLM推理系统的快速试错和部署尽可能降低复杂度,为后续的系统研究铺平道路。Alexon 采用 GPLv3+ 授权,目前还处于早期阶段,欢迎测试把玩和提交 patch。

InfluxDB Cloud 关闭了它的 GCP europe-west1 (Belgium)数据中心,直到服务关闭后它的部分客户才发现自己的数据丢失了。公司联合创始人兼 CTO 声称他们向受影响客户提前发去了三轮邮件通知,已经尽其所能做了该做的工作。此举引发了广泛争论:如何在服务关闭或删除数据前通知客户?邮件很容易错过,尤其是如果客户每天收到大量邮件,可能很多是垃圾邮件,要识别某一个邮件的重要性非常困难。只要正常工作,客户也不会经常去查看数据中心的可用性。以微软为例,在某个产品或服务器关闭前它会执行尖叫测试(Scream test),通过这种方法让所有用户知道需要赶快迁移数据。

WSJ 援引知情人士的消息报道,美国政府正准备限制中国企业使用美国云计算服务。这项新规如果被采纳,可能会要求亚马逊、微软等美国云服务提供商在向中国客户提供使用先进制程 AI 芯片的云计算服务之前,必须先获得美国政府许可。这项拟议的限制措施被认为是要堵上一个重大漏洞。中国的 AI 公司可能通过使用云服务绕开了现行的出口管制规定,比如使用英伟达的 A100 芯片。美国商务部预计将在未来几周内公布这一行动。

Linux 桌面年有望在微软帮助下实现。作为 FTC 诉微软(收购动视暴雪)听证会的一部分,一份包含微软游戏战略的演示文档显示,软件巨人考虑将 Windows 完整转移到云端。在这份时间为 2022 年 6 月的内部演示文档中,微软讨论了在 Windows 365 的基础上实现从云端到任何设备的完整 Windows 操作系统串流。Windows 365 是一项将 Windows 串流到设备的服务,目前仅提供给商业客户,已被微软深度整合到 Windows 11 中。未来的更新包括 Windows 365 Boot,它将让 Windows 11 设备在启动时候直接登陆到云端 PC 实例而不是本地版本。

Google 正式就云计算领域的反竞争行为向 FTC 投诉微软。微软是次于亚马逊 AWS 的第二大云计算服务商,而 Google 排在第三位,与两大竞争对手相去甚远。Google 在诉讼中称,微软利用办公软件 Office 365 中的授权条款将客户锁定在与其云服务 Azure 的不同合同上。Google 去年向欧盟监管机构投诉了微软的这一做法,微软迫于压力改变了在欧盟的做法,允许其 Azure 客户能使用不同的云服务商。但这一改变并不适用美国客户。

根据 Alphabet 公布的最新财报,Google 云计算业务首次盈利,但广告收入连续第二个季度下降。广告收入 545 亿美元,同比下降不到 1%。Google 云计算部门收入 74.5 亿美元,营业利润 1.91 亿美元,该部门去年同期的收入是 58.2 亿美元,亏损 7.06 亿美元。值得提一下的是 Google 从今年第一季度开始调整服务器等硬件的折旧计算方式,会计变更可能是云计算部门盈利的一个原因——服务器预计使用寿命从四年调整为六年,网络设备从五年调为六年。

编程问答社区 Stack Overflow 调查了数千名开发者,询问哪些新兴的技术趋势已经证明了自己。它将一个技术根据 0-10 的尺度进行评分,其中 0 代表实验性,10 代表已被证明。结果显示,被认为已获得证明得到广泛认可的技术是开源 6.9、云计算 6.5 和机器学习 5.9,被认为尚未证明的技术包括量子计算 3.7,纳米技术 4.5,低代码/零代码 4.6。对于下一个人人都将使用的技术,AI 高居第一,之后是开源、机器学习和云计算。调查还根据 0-10 的尺度对一项技术产生正面还是负面影响进行评价(0 代表负面,10 代表正面),结果显示开源技术得分最高 7.2,可持续技术 6.6,机器学习 6.5。 低代码/零代码的评价非常低,这可以理解,因为这可能会对部分开发者的职业安全产生冲击。大多数开发者认为,低代码/零代码以及区块链在未来不会广泛使用。

阿里云位于香港的数据中心因制冷故障发生宕机事故,它的多项服务一度无法使用。事故影响到了阿里云的多个大客户,加密货币交易所 OKX 的客户余额显示为空,澳门金融管理局运营的网站和应用受到波及。事故的根源被追溯到 PCCW 所拥有数据中心的制冷设备故障。大约三个小时阿里云宣布设备维修已经完成,服务正在恢复。阿里云服务到了周一已经全部恢复上线。数据中心通常是在夏天热浪下发生制冷相关的故障,香港最近的天气都在 10 度以上 20 度以下。

依赖云计算可能会导致成本失控。为了解决这个问题,加州伯克利实验室 Sky Computing Lab 的研究人员推出了一个开源框架 SkyPilot,帮助用户货比三家减少云计算费用。SkyPilot 使用一个算法判断哪个云服务区域或提供商对给定项目的费用最合算。该程序考虑了工作负载的资源要求(是否需要 CPU、GPU 或 TPU),然后自动确定哪个云服务区域有可用的计算资源完成工作,将其发送到费用最低的选项执行。SkyPilot 开发者和博士后
Zongheng Yang 举例说,Azure 目前提供了最便宜的 Nvidia A100 GPU 实例,而 Google 云和 AWS 则分别溢价 8% 和 20%。CPU 的价格差异甚至可能超过 50%。

Google、甲骨文、微软和亚马逊将分享五角大楼的 90 亿美元云计算合同,The Joint Warfighter Cloud Capability 将帮助美国军队在现代战争中快速传递来自无人机和通信卫星的情报。该云计算合同曾被称为 Jedi(Joint Enterprise Defense Infrastructure),五角大楼将其授予了微软公司,竞标失败的亚马逊公司提起了上诉,认为特朗普政府因为特朗普与当时的亚马逊 CEO 贝佐斯(Jeff Bezos)关系敌对而将合同给与微软。五角大楼否认其决定受到了特朗普政府的干涉,但最终还是决定取消了微软的合同,重启采购程序。新合同的预计完成时间为 2028 年 6 月。


本站提供的内容用于个人学习、研究以及其他非商业性或非盈利性用途,内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注