科技: Stability AI 发布从单幅图像快速生成 3D 模型的技术
AI 创业公司 Stability AI 推出了从单幅图像快速生成 3D 模型的 Stable Fast 3D。Stable Fast 3D 的模型代码已发布在 GitHub 上,模型权重和演示发布在 Hugging Face 上,它采用的 Stability AI Community License 许可证允许年收入低于百万美元的个人或机构商业性和非商业性使用。Stability AI 称它的新模型只要 0.5 秒就能完成 3D 模型的生成,可用于快速制作原型,满足游戏、虚拟现实以及零售、建筑和设计领域的企业和独立开发者的需求。
微软披露,在截至 6 月的季度它的现金资本支出和设备支出高达 190 亿美元,相当于 5 年前的全年支出。这笔支出大部分和 AI 有关,其中半数被用于建造和租赁数据中心。Google 的情况类似,它在上半年大幅增加了 AI 基础设施的支出,预计年底将花费高达 490 亿美元。但在 AI 上的投资至少在短期内是无法回本的,微软首席财务官 Amy Hood 表示,该公司预测这些投资可能需要 15 年或更长时间才能货币化。这一言论令分析师们感到担忧。高盛资深分析师 Jim Covello 上个月指出,AI 远未达到实用的水平。虽然科技巨头们坚称 AI 是一项长期投资,但华尔街的分析师们对亏损日益谨慎。OpenAI 被认为如果没有巨额资金注入会在未来 12 个月内耗尽现金。
华盛顿州立大学的一项研究发现,在产品描述中使用术语 AI 会降低消费者的购买意愿。研究人员调查了逾千名美国成年人,发现在产品描述中提及 AI 会削弱情感信任,降低购买意愿。例如,参与者查看了与智能电视相关的描述,一组的描述中有 AI,另一组没有,结果看到产品描述含有 AI 的一组人表示他们不太可能购买这款电视机。对于高风险的产品和服务如医疗设备和金融服务,术语 AI 会激起更加强烈的负面反应。
艾伦是微软的一名年轻工程师,从事云计算相关工作,过着舒适的生活,收入是北京平均收入的六倍,可以经常外出就餐,随时打车。但现在微软要求艾伦考虑在太平洋彼岸开始新生活,数百名从事 AI 和云计算工作的微软中国员工被要求考虑搬迁到加拿大、澳大利亚或华盛顿雷德蒙德微软总部等地工作,艾伦的迁移地点是温哥华。他认为温哥华的生活肯定不会像北京那么舒服。接收匿名采访的员工表示,美国总部最受青睐,而加拿大则不受欢迎,因为当地薪水较低。一位拒绝迁往温哥华的北京员工表示,如果扣除掉税,除西雅图外,其它所有地方的工资都可能比北京低。生活质量会受到影响。微软告诉员工,它没有解雇拒绝调动的员工的计划。员工还表示,他们担心持工作签证的生活是不稳定的,尤其是如果特朗普再次当选总统,他可能会出台更多反移民政策。艾伦在再三考虑之后接受了去温哥华的调动。
欧洲数据保护监管机构正“寻求澄清”马斯克(Elon Musk)旗下 X 公司允许用户数据自动输入其人工智能初创企业 xAI 的决定,给这个社交媒体平台带来了新的监管审查。上周五 X 用户发现他们被“选择加入”了将他们在该网站上的帖子以及与其 Gro k聊天机器人的互动用于“训练和优化”xAI 系统的行为。此举未事先获得用户明确同意,且相关设置只能在桌面版本上修改,用户目前无法通过移动 APP 选择退出数据共享。爱尔兰数据保护委员会表示“寻求 X 对此进行澄清”。隐私专家认为 X 此举违反了欧盟的 GDPR(General Data Protection Regulation)规定,该规定要求收集或使用个人数据的公司首先征得个人同意并披露原因。如果爱尔兰监管机构启动 GDPR 调查,X 可能会面临处罚。
OpenAI 演示了它的搜索工具原型 SearchGPT,但演示结果很快被发现存在错误。在其中一个演示中,OpenAI 模拟用户向 SearchGPT 询问八月份在北卡 Boone 举行的音乐节,SearchGPT 返回的结果中第一个是 An Appalachian Summer Festival,声称举办时间是 7 月 29 日到 8 月 16 日。如果真的有人去订音乐节的票,他们会发现该音乐节实际上始于 6 月 29 日,结束于 7 月 27 日。7 月 29 日到 8 月 16 日是音乐节票房关闭的日期。
Google DeepMind 新 AI 系统 AlphaProof 和 AlphaGeometry 2 能在 2024 年国际数学奥林匹克(IMO)竞赛获得银牌,解决了六道题中的四道,获得了 28/42 分,标志着 AI 在数学推理方面取得重大突破。IMO 是历史最悠久、规模最大、最负盛名的青年数学家竞赛,自 1959 年以来每年举办一次。选手要解决代数、组合学、几何和数论方面六个异常困难的问题。DeepMind 表示,IMO 的数学问题被人工翻译成数学语言,供系统理解。在正式比赛中,学生们分两次提交答案,每次 4.5 小时。而 AI 系统在几分钟内解决了一个问题,花了三天时间解决其他问题。基于强化学习的推理系统 AlphaProof 解决了两个代数问题和一个数论问题并被证明答案正确,这些问题包括今年 IMO 比赛中只有 5 名选手解决的最难的问题。AlphaGeometry 2 证明了几何问题,但两个组合问题仍未解决。
OpenAI 推出了直接挑战 Google 的搜索工具 SearchGPT。作为一种实验性产品,SearchGPT 没有开放使用,而是从周四开始开放给加入等候名单的 1 万名用户进行测试。它不同于 ChatGPT 生成一个答案,而是类似搜索引擎提供了一系列链接,允许用户点击进入外部网站。OpenAI 表示,SearchGPT 将提供来自 Web 的最新信息,同时提供相关来源的明确链接。即使网站选择不允许 OpenAI 抓取内容训练其 AI 模型,新的搜索工具将仍然能访问网站。
根据发表在《自然》期刊上的一项研究,Google DeepMind 和牛津大学的研究人员发现,用 AI 生成的数据集训练 AI 模型可能导致模型崩溃,即在数代之后产生无意义的输出。举例来说,模型从中世纪建筑文本开始,到第九代输出了毫不相干的长耳大野兔。研究人员发现,AI 难以掌握训练数据集中不常见的文本行,后续在此输出上的训练无法延续这些微妙差异。以这种方式基于早期模型的输出训练新模型最终会陷入递归循环。以生成狗图像的模型为例,AI 模型倾向于重新创造训练数据中最常见的犬种,金毛猎犬相比贝吉格里芬凡丁犬(Petit Basset Griffon Vendeen)更常见,因此金毛猎犬会被过度代表。如果用过度代表金毛猎犬的数据集训练后续模型,问题将会愈发严重,后续模型将会忘记贝吉格里芬凡丁犬不知名犬种的存在,它将只会生成金毛猎犬的图像。最终模型将会崩溃,无法生成有意义的内容。
The Information 援引知情人士的消息称,OpenAI 今年可能亏损 50 亿美元。OpenAI 是史上增长最快的企业之一,但也可能是运营成本最高的企业之一。OpenAI 在三月计划年内花费近 40 亿美元租用微软服务器用于支持 ChatGPT 的推理工作负载。OpenAI 有 350,000 台包含英伟达 A100 芯片的服务器用于推理,其中约 290,000 台服务器用于 ChatGPT。硬件接近满负荷运行。OpenAI 今年训练 ChatGPT 以及新模型的成本可能多达 30 亿美元。它有大约 1500 名员工,随着业务的持续增长,薪水开支预计将达到 15 亿美元。它的全年销售额在 35 亿至 45 亿美元之间。运营费用、训练费用以及员工薪水开支总额预计超支 50 亿美元。
研究人员正在利用天文测量工具帮助确定图像的真实性——使用通常用于调查遥远星系的方法分析人脸图像,可以测量一个人的眼睛如何反射光,从而发现图像处理的迹象。AI 的进步使得区分真实图像、视频和音频与算法生成的图像、视频、音频变得越来越困难。深度伪造技术将一个人或环境的特征替换为另一个人或环境的特征,专家警告称,这可以被武器化,并用于传播错误信息,例如在选举期间。研究人员解释说,真实的照片应该具有“一致的物理特性”,“所以你在左眼球中看到的反射应该与在右眼球中见到的反射非常相似,尽管不一定完全相同”。这些差异是微妙的,因此为了检测它们,研究人员转向了旨在分析天文图像中的光的技术。通过比较个人眼球中的光反射,他们可以在大约 70% 的情况下正确预测图像是否为假的。
对 2500 名企业高管、员工和自由职业者的调查发现,高管对生成式 AI 的期望与员工的实际使用体验之间存在巨大鸿沟。96% 的高管希望 AI 能提高生产力,但 77% 使用 AI 的员工表示这增加了他们的工作量,他们认为使用 AI 阻碍了生产力和导致了他们的倦怠。47% 的员工表示他们不知道如何实现雇主所希望的生产力提升。40% 的员工认为企业对他们要求过高,增加了他们的压力。三分之一员工表示因为筋疲力尽可能会在未来半年内辞职。
日本信息处理推进机构对千名在工作中使用 AI 的用户的调查显示,六成表示了信息泄露和虚假信息扩散等威胁与风险。关于输入 AI 的营业秘密泄露、滥用 AI 导致虚假信息扩散等各个项目,调查分别询问了如何看待。把获得的答复平均后发现,认为“是重大威胁”的占 27.1%,“略有威胁”占 33.3%,合计为 60.4%。认为“不太是威胁”的占 6.2%,“完全不是威胁”的占 2.4%,合计为 8.6%,远低于前者。另一方面,关于迅速普及的生成式 AI 的使用情况,回答称组织内已制定和明文化规则的不到 20%。
其它科技公司都想把 AI 产品买给你们,但扎克伯格(Mark Zuckerberg)选择免费送给你们。Meta 周一宣布了其最新的 Llama 3.1 大模型,其最大规模版本的参数有 4050 亿个,较小规模的版本有 700 亿和 80 亿个参数。Meta 称,Llama 3.1 在基准测试中的表现超过了 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet。Meta 表示,Llama 3.1 使用了逾 16,000 个英伟达 H100 GPU 进行训练,它认为相比私有大模型,部署成本会更低。扎克伯格称他与世界各地的开发者、企业和政府官员交流时,他们都表达了不希望被私有封闭供应商锁定的愿望,希望自己能控制模型,而 Llama 3.1 将能满足他们的要求。
日本新闻协会发表声明称,美国 IT 巨头 Google、微软等公司提供的将网络搜索引擎与生成式 AI 相结合的“搜索联动型生成式 AI 服务”(即 AI 搜索引擎)很可能构成侵犯著作权。声明指出,此类服务经常擅自利用新闻报道作为信息源、生成类似新闻报道的回答。它要求美国 IT 巨头获得新闻媒体的使用许可。声明分析称,有一些案例显示,搜索联动型 AI 对新闻报道进行不恰当的转用和加工,生成了存在错误内容的回答。声明强调,应当在确保准确性和可靠性之后再开始提供服务。
OpenAI 发布了 GPT-4o 模型的小型版本 GPT-4o mini,它将取代 GPT-3.5 Turbo 提供给所有 ChatGPT 用户,包括免费和付费用户。GPT-4o mini 类似 GPT-4o,支持多模,能解释图像、文本和音频,能生成图像。GPT-4o mini 支持 128K 上下文令牌,其数据截至 2023 年 10 月,它的 API 费用比 GPT-3.5 Turbo 低 60%,每百万输入令牌 15 美分,每百万输出令牌 60 美分。GPT-4o mini 将使用名为 instruction hierarchy 的新技术,限制了越狱。
日经等机构的分析显示,中国正大量申请生成式 AI 相关专利。根据占世界专利申请数量 8 成的五大专利局(日本国专利厅、美国专利商标局、欧洲专利局、中国国家知识产权局、韩国知识产权局)的数据,中国的生成式 AI 相关专利申请数为 30124 项,远远超过了美国的 12530 项。中国最近几年的专利申请急剧增加。世界五大专利局的统计显示,从 2022 年的专利申请量来看,中国为 162 万项、美国为 59 万项、日本为 29 万项、韩国为 24 万项、欧洲为 19 万项。百度是中国申请生成式 AI 专利最多的公司,有 575 项,其次是腾讯的 561 项。
路透的一项调查发现,逾四成日本公司没有使用 AI 的计划,只有不到四分之一的公司在业务中使用 AI。路透委托 Nikkei Research 在 7 月 3 日到 12 日间向 506 家公司提出了一系列问题,有约 250 家公司在匿名情况下做出回应。24% 的公司表示已在业务中使用 AI,35% 的公司计划使用 AI,而 41% 的公司没有此类计划。对于使用 AI 的目标,六成表示是应对人工短缺,53% 是降低劳工成本,36% 表示是加速研发。对于引入 AI 所面临的障碍,有企业表示员工可能会担心被裁员,其它包括缺乏专业人士、需要大量资本支出以及 AI 可靠性存疑。
鉴于欧洲监管环境的不可预测性,Meta 未来的多模 AI 模型将不提供给欧盟客户。Meta 计划将新的多模模型集成到智能手机和 Meta Ray-Ban 智能眼镜等产品中,AI 模型将能对视频、音频、图像和文本进行推理。Meta 表示,这一决定还将意味着欧洲公司无法使用这些多模模型,尽管模型是在开放许可下发布的。它还可能阻止欧盟以外的公司在欧洲提供使用其新多模模型的产品和服务。Meta 计划发布 Llama 3 模型的更大规模的文本版本,它表示将会提供给欧盟的客户和公司。Meta 的问题在于如何在遵守 GDPR(数据保护法)的同时使用欧洲客户的数据训练模型。
TechPowerUp 的一项调查显示绝大多数 PC 用户不愿意为 AI 硬件支付溢价。有逾 2.6 万人参与了调查,84% 的人表示不会支付溢价,7% 表示会,9% 对此不确定。微软正在推广它的 Copilot+ PC 概念,PC 厂商也在转向集成 AI 功能的 PC 产品,但大部分人目前对其价值持怀疑态度。