雅虎香港 搜尋

  1. 英語會話課程 相關

    廣告
  2. 外籍英語老師,貼地熱門時事新聞. 幫您學好英語會話

  3. 上個月有 超過 100 萬 名用戶曾瀏覽 udemy.com

    Join millions of learners from around the world already learning on Udemy. Find the right instructor for you. Choose from many topics, skill levels, and languages.

搜尋結果

  1. 全球发音是网易有道词典推出的发音项目。2024年2月,因“Damn”新梗爆火出圈,网易有道词典全球发音走红。“全球发音”的火爆,也反映出当下00后作为学习市场主力的新需求与新变化。在学习过程中,年轻人群体往往追求更加个性化、更加有趣、更有创意甚至更具网感的学习方式。

    • 概览
    • 行业背景
    • 功能特色
    • 技术特点
    • 模型研发
    • 社会影响

    OpenAI发布的人工智能文生视频大模型

    Sora,OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” [10]),于2024年2月15日(美国当地时间)正式对外发布 [1] [3]。

    Sora继承了DALL-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频 [1],该模型可以深度模拟真实物理世界 [2],能生成具有多个角色、包含特定运动的复杂场景,能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式 [4]。

    Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能,其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步 [4],也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃 [2]。

    •OpenAI在大模型领域的成功

    2022年底,OpenAI正式推出ChatGPT,这款由人工智能技术驱动的自然语言处理工具能够通过学习和理解人类的语言来进行对话 [26]。ChatGPT是OpenAI迈出的第一步,这款让所有人都能体会到人工智能潜力的现象级产品,展现出了文字对于过去人工智能的理解力和逻辑能力的超越。随后,OpenAI的开发重点逐步过渡到图像的生成,Dall-E模型在生成图像方面也获得了重大突破 [25]。

    •视觉算法的进步

    视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展,这预示着技术拐点的临近以及爆款应用的涌现。特别是在3D资产生成和视频生成领域,由于扩散算法的成熟,这些领域受益匪浅。然而,与图像生成相比,3D资产和视频生成在数据和算法方面面临的难点更多 [21]。

    优点

    •功能综述 Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频 [2](其他AI视频工具还在突破几秒内的连贯性 [23]),视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景” [1]。 •静态图生成视频 Sora还具备根据静态图像生成视频的能力,能够让图像内容动起来,并关注细节部分,使得生成的视频更加生动逼真,这一功能在动画制作、广告设计等领域具有应用前景 [3-4]。 •视频扩展与缺失帧填充 Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频内容的补充和完善 [3-4]。 •连接视频 可以使用Sora连接两个输入视频,在具有完全不同主题和场景组成的视频之间实现无缝过渡 [3]。 •其他能力

    缺点

    Sora也存有以下弱点:可能难以准确模拟复杂场景的物理原理,无法理解因果关系,混淆提示的空间细节,难以精确描述随着时间推移发生的事件 [4]。 例如,在“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的场景中,狼的数量会变化,一些凭空出现或消失。在提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡 [4]。

    •多帧预测与生成

    Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景 [22],其能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致 [3-4]。

    •Transformer架构

    Sora采用与GPT模型相似的Transformer架构,OpenAI用Transformer结构替代Diffusion模型中常用的U-Net结构,提升了原来Diffusion模型在深度和宽度上的可扩展性,为视频模型增加输出时长奠定基础 [40]。Transformer架构能够处理长序列数据,并通过自注意力机制捕捉数据中的依赖关系,从而提高模型的生成能力 [3-4]。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题,扩散模型采用更可扩展的状态空间模型(SSM)主干替代了传统的注意力机制,从而减少了算力需求,并能够生成高分辨率图像 [10]。

    •重述提示词

    Sora借鉴DALL-E 3的“重述提示词技术”,为视觉训练数据生成高度描述性的标注,这使得模型能够更忠实地遵循用户的文本指令,生成符合用户需求的视频内容,同时也提高了模型的灵活性和可控性 [3-4]。

    主要人员

    Sora的研究团队呈年轻化,主要负责人在2023年博士毕业,团队中还包含“00后”新生代力量以及艺术生 此外,Yufei Guo、David Schnurr(毕业于加州大学圣塔芭芭拉分校)、Joe Taylor(毕业于美国旧金山艺术大学)、Troy Luhman、Eric Luhman、Clarence Wing Yin Ng、Ricky Wang等人也参与了Sora相关研究 [3] [35]。

    专业测试

    安全性 OpenAI已将Sora交由Team Red(网络安全演习中扮演敌人或竞争对手角色的群体)测试Sora,评估潜在的危害或风险 [2]。此外,OpenAI正在开发帮助检测误导性信息的工具,比如检测分类器可以判断视频是何时由Sora生成的,其文本分类器可检查并拒绝违反使用政策的文本输入提示,例如极端暴力、性内容、仇恨图像、名人肖像等 [7]。 创意性 OpenAI邀请了专业创意人士测试Sora,用于反馈其在专业环境中的实用性,OpenAI计划根据这些反馈意见改进Sora,确保它能有效满足用户的需求 [2]。

    价值意义

    Sora对于需要制作视频的艺术家、电影制片人或学生来说,都带来了无限可能。该模型可以深度模拟真实物理世界,标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃 [2],也被认为是实现通用人工智能(AGI)的重要里程碑,通过不断深入研究和发展Sora等先进模型,有望在未来实现更加智能、高效和多样化的视频生成与处理技术 [4]。

    产业格局

    Sora发布后,OpenAI的估值迅速上涨(有望超过800亿美元,2023年ChatGPT发布不久时其估值约为290亿美元),且文生视频大模型将会大幅推动人工智能基础设施的需求,英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局,英伟达也因大模型训练需要GPU算力支持而股价大涨 [38]。与此同时,受Sora发布的影响,美国图片供应商Shutterstock的股价大跌 [39]。

    职业取代

    截至2024年2月,已有一些视觉艺术家、设计师和电影制作人以及OpenAI员工获得了Sora访问权限,他们也已开始在社交平台不断晒出使用Sora生成的新作品,为人们展示AI生成视频的创意可能。许多网友称“不少人要丢工作了”,甚至有人开始“悼念”一整个素材行业 [4] [6]。

  2. ILLIT被称为“颜值花田”,每位成员皆拥有清秀的长相,是标准的少女偶像,从造型、发型到妆容都相当别致。组合在出道前便以“DIRTY FIT”的风格无预警惊喜出席时装周,5人风格各有不同,亮眼且吸睛 [11]。在组合出道概念影片中,5位成员都起扎了辫子,统一穿上白色高领上衣、牛仔短裙、白长袜 ...

  3. 基本释义. ①扭转:大钧播群物,斡旋不作难。. 引申为调解争端:多亏他从中斡旋,否则很难收场。. ②斡旋是和平解决国际争端的方法之—。. 由第三方为争端当事国提供有利于他们接触和谈判的便利条件,提出自己的建议或转达各方的意见。. 从而促使当事国 ...

  4. 吗喽是一个网络流行词,意为 马骝,是两广地区称呼“猴子”的方言语态。 [1-2] 最早出现于砂糖橘热门时期,各地网友在互联网上不断催促广西砂糖橘上市,而广西人民自嘲表示“吗喽的命也是命”意在“别催啦,在忙了”,随即这一热梗在网络上不断传播。

  5. milet(ミレイ),出生于日本东京,日本女歌手、词曲作者。所属的唱片公司是日本索尼音乐娱乐旗下的SME唱片公司,所属经纪公司是索尼音乐娱乐公司。2019年3月6日,milet通过发行首张EP《inside you EP》正式出道,先行在网络上发布的歌曲《inside you ...

  6. ChatGPT(全名:Chat Generative Pre-trained Transformer),是OpenAI研发的一款聊天机器人程序,于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够基于在预训练阶段所见的模式和统计规律,来生成回答,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写 ...

  1. 其他人也搜尋了