AI那么卷,怎能不会用CUDA实现卷积操作

来源: 机器之心 2021-10-08 13:05:00

  

  过去十年深度神经网络已成为最重要的机器学习模型之一,创造了从自然语言处理到计算机视觉、计算神经科学等许多领域的 SOTA 实现。

  深度神经网络的特征注定其产生的计算量是巨大的,但也会产生大量高度并行化的工作,特别适合多核和众核处理器。深度学习领域的新研究思路往往是结合原生框架 operator 来实现的,一般编写专门的 GPU 内核可以解决过程中的性能损失问题,但也确实具有更高的挑战性。可以说,深度神经网络的计算潜力与 GPU 编程困难之间存在着一道鸿沟。

  2007 年,英伟达发布了 CUDA 的初始版本,CUDA 平台是一个软件层,使用者可以直接访问 GPU 的虚拟指令集和并行计算单元,用于执行计算内核。近年来,主流深度学习框架几乎都是基于 CUDA 进行加速,英伟达也一直在完善 CUDA 工具包,但对于一般的开发者来说,CUDA 还是「不那么容易上手」。

  为了帮助广大开发者深入了解和快速上手 CUDA编程,英伟达联合机器之心推出「CUDA编程实践」三期线上分享,通过英伟达专家的理论解读和实战经验分享,向读者展示如何使用 CUDA 快速完成图像处理、光线追踪、卷积操作等任务。

  10月11日20:00-21:30,系列分享第三期:CUDA 编程基础——利用CUDA实现卷积操作。

  本次系列分享嘉宾是 NVIDIA 企业级开发者社区经理、高级讲师何琨,他拥有多年的 GPU 和人工智能开发经验。自 2017 年加入 NVIDIA 开发者社区以来,完成过上百场培训,帮助上万个开发者了解人工智能和 GPU 编程开发。在计算机视觉,高性能计算领域完成过多个独立项目。并且,在机器人和无人机领域,有过丰富的研发经验。对于图像识别,目标的检测与跟踪完成过多种解决方案。曾经参与 GPU 版气象模式 GRAPES,是其主要研发者。

  10月11日20:00-21:30

  CUDA 编程基础 – 利用CUDA实现卷积操作

  NVIDIA CUDA Toolkit提供了一个开发环境,用于创建高性能GPU加速应用程序。通过CUDA Toolkit,您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署应用程序。

  CUDA编程模型已经广泛地应用于人工智能领域。由于GPU硬件结构的特性,使得它能够为 AI 提供强大的计算力的支持。卷积操作在很多网络模型中都被广泛使用,了解 CUDA 如何帮助卷积操作加速,将会帮助你在 AI 领域事半功倍。

  第三期课程针将详细介绍以下内容:

  CUDA 流

  cuBLAS

  cuFFT

  cuDNN

  编程实例:利用CUDA实现卷积操作

  如群已超出人数限制,请添加其他小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「CUDA」即可加入。

  系列分享全部安排如下:

0
收藏
0