借助 Tensor Core GPU、LLM和适用于RTX PC 和工作站的工具,NVIDIA为数百万用户带来生成式AI

发布时间:2024-01-09  

美国拉斯维加斯—CES—2024年1月8日—NVIDIA发布具有高性能功能的GeForce RTX™ SUPER桌面端,来自OEM合作伙伴的全新AI笔记本电脑,及面向开发者和消费者的全新NVIDIA RTX™加速的AI应用和工具。

数十年来,NVIDIA在PC领域一直处于领军地位,现已有超1亿RTX GPU在推动着AI PC时代的发展,NVIDIA正通过提供工具以提升PC上的生成式 AI体验:NVIDIA TensorRT™加速用于文本生成图像工作流的热门Stable Diffusion XL模型、NVIDIA RTX Remix与生成式AI纹理工具、NVIDIA ACE微服务以及更多使用DLSS 3帧生成技术(Frame Generation)的游戏。

此外,NVIDIA TensorRT-LLM (TRT-LLM) 是一个开源库,可加速和优化最新大语言模型 (LLMs) 的推理性能,现已支持更多面向PC的预优化模型。本月,NVIDIA发布由TRT-LLM加速的Chat with RTX技术Demo,让AI爱好者能与他们的笔记、文档和其他内容进行交互。

NVIDIA创始人兼首席执行官黄仁勋表示:"生成式AI是计算史上最重要的平台转变,它将改变包括游戏在内的所有行业。NVIDIA拥有超过1亿台RTX AI PC和工作站的用户基础,为开发者和玩家提供保证,让他们尽享生成式AI的魔力。”

在 PC 上本地运行生成式AI对于隐私、延迟和成本敏感型应用至关重要。但这需要大量AI系统安装基础,以及合适的开发者工具来调优PC平台的AI模型。

为满足这些需求,NVIDIA正通过其整个技术栈提供创新,推动新体验,并在现已支持超过 500 款NVIDIA RTX游戏和应用的AI PC基础上更进一步。

RTX AI PC 和工作站

NVIDIA RTX GPU能以最高性能运行各种应用,充分释放 PC上生成式AI的潜力。RTX GPU 中的Tensor Core可显著加速工作和娱乐应用中要求最严苛的AI功能。

今天在 CES 发布的全新 GeForce RTX 40 SUPER 系列GPU包括 GeForce RTX 4080 SUPER、4070 Ti SUPER 和 4070 SUPER,提供出色的 AI 性能。在AI工作负载方面,GeForce RTX 4080 SUPER 生成视频的速度比 RTX 3080 Ti 快 1.5 倍,生成图像的速度比 RTX 3080 Ti 快 1.7 倍。SUPER GPU 的Tensor Core可提供最高可达 836 AI TOPS,在游戏、创作和日常工作等方面提供革命性的AI性能。

包括宏碁、华硕、戴尔、惠普、联想、微星等合作伙伴发布全新 RTX AI 笔记本电脑,为用户带来开箱即用的生成式 AI体验。与使用NPU相比,RTX AI笔记本电脑的性能可提升 20-60 倍。

配备RTX GPU的移动工作站可运行NVIDIA AI Enterprise软件,包括TensorRT和NVIDIA RAPIDS™,用于简化、安全的生成式AI和数据科学开发。每台NVIDIA A800 40GB Active GPU都包含为期三年的NVIDIA AI Enterprise许可证,为AI和数据科学提供理想的工作站开发平台。

用于构建AI模型的全新 PC 开发者工具

为帮助开发者使用 PC 级的性能和显存快速创建、测试和定制预训练生成式 AI 模型和 LLM,NVIDIA于近期发布统一、易用的工具包NVIDIA AI Workbench。

AI Workbench 将于本月底推出测试版,提供对Hugging Face、GitHub 和 NVIDIA NGC™ 等热门资源库的流畅访问、简化用户界面,使开发者能轻松复制、协作和迁移项目。

项目可扩展到数据中心、公有云或 NVIDIA DGX™ Cloud等任何地方,然后再回到PC 或工作站上的本地 RTX 系统进行推理和轻量定制。

NVIDIA通过与惠普的合作,将 NVIDIA AI Foundation Models and Endpoints(包括RTX加速的AI模型和软件开发工具包)集成到惠普AI Studio中,这是一个集成化的数据科学平台,从而简化AI模型的开发。这将使用户能跨 PC 和云轻松搜索、导入和部署优化后的模型。

为PC使用场景构建AI模型之后,开发者可使用NVIDIA TensorRT 对其进行优化,以充分利用 RTX 的Tensor Core。

最近,NVIDIA通过TensorRT-LLM for Windows将TensorRT扩展到基于文本的应用,TensorRT-LLM for Windows是一个用于加速LLM的开源库。TensorRT-LLM 最新更新现已发布,将Phi-2加入不断增长的 PC 预优化模型列表,与其他backend相比,推理速度提升5倍。

RTX 加速生成式AI为全新 PC 体验提供动力

在CES 2024上,NVIDIA及其开发者合作伙伴发布全新生成式AI驱动的 PC 应用和服务,包括:

● NVIDIA RTX Remix,用于创建令人惊叹的经典游戏 RTX 重制版的平台。测试版将于本月底发布,提供生成式AI工具,可将经典游戏中的基本纹理转化物理精准的4K高精度材质。

● NVIDIA ACE 微服务,包括驱动的语音和动画模型,使开发者能为游戏添加智能、动态的虚拟数字人物。

● TensorRT 加速Stable Diffusion XL (SDXL) Turbo 和LCM,这是两种最热门的Stable Diffusion加速方法。与之前最快的实现相比,TensorRT 将这两种方法的性能提升 60%。Stable Diffusion WebUI TensorRT 扩展的更新版现在也已发布,包括 SDXL、SDXL Turbo、LCM-LoRA加速以及优化的 LoRA支持。

● NVIDIA DLSS 3 支持帧生成技术(Frame Generation),可利用AI将帧率提高到原生渲染的 4 倍,将用于已发布的 14 款全新 RTX 游戏中的十几款游戏中,包括《地平线:西之绝境》(Horizon Forbidden West)、Pax Dei和《龙之信条 2》(Dragon’s Dogma 2)。

● NVIDIA技术Demo "Chat with RTX"将于本月晚些时候发布,让AI爱好者使用名为 " 检索增强生成retrieval-augmented generation(RAG)"的热门技术,轻松地将PC LLM连接到自己的数据。该Demo由 TensorRT-LLM 加速,使用户快速与自己的笔记、文档和其他内容进行交互。作为开源参考项目,开发者可轻松地在自己的应用中实现相同的功能。

文章来源于:21IC    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    字节数 × 每缓冲帧数 × 缓冲区数 ;   每传完一缓冲区,USB Host Driver 回调(CallBack)一次客户驱动程序,USB 带宽按每1ms 传送1 帧数据来分配,要实现8kHz 采样......
    特尔酷睿处理器以及RTX 40系列笔记本电脑GPU的曙光系列新品全数登场,更有屏幕、散热、外观等各个方面的加持,曙光16Pro 搭载RTX 4070/4060笔记本电脑GPU的产品全部开启预售。追求......
    传输 1bit 数据12.3.3. SPI 数据帧与内部缓存 SPI 可支持 1~32bit 帧数据传输,内部集成了一个 40bit 的缓冲区,根据配置的数据帧长度不同,缓冲区能缓存的帧数......
    放在串口初始化中/** * @brief 初始化寻找帧的数据结构 * @param p_fine_frame:指向打包帧数据结构体变量 * @param dst_buf:指向帧缓冲区 * @param......
    相对于3490驱动而言,帧数提升幅度达到了84%。而1080P全高画质也是不少电竞选手在比赛时选用的设置,同时全高画质能够更加完整的调用GPU负载(全低画质GPU负载较低),从而......
    我们将使用FLACalculator来统计这数据。 打开FLACalculator软件,会看到三个空行,第一行我们需要填上测试的GPU名称这里我们选用的是RX470,在第三行中选择我们刚才测试完的帧数......
     GDDR7 的推出,进一步完善了美光业界领先产品组合,为 CPU、NPU 和 GPU 组件的边缘 AI 推理应用提供了 DDR、LPDDR 和 GDDR 内存的选项。针对游戏应用,美光 GDDR7 凭借卓越的性能和帧缓冲......
    AT89S51单片机串行口的内部结构及功能介绍;AT89S51单片机串行口的内部结构如下图所示。它有两个物理上独立的接收、发送缓冲器SBUF(属于特殊功能寄存器),可同时发送、接收数据。发送缓冲......
    AT89S51单片机串行口的内部结构解析;AT89S51单片机串行口的内部结构如下图所示。它有两个物理上独立的接收、发送缓冲器SBUF(属于特殊功能寄存器),可同时发送、接收数据。发送缓冲......
    重启即可完成切换,支持内屏独显输出功能,减小内存带宽瓶颈,提高游戏帧数。   在独显输出模式下,可以100%发挥GPU的性能,在《CS:GO》这类游戏中便可以获得接近300帧的游戏体验。我们不仅好奇RTX......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>