AI那么卷，怎能不会用CUDA实现卷积操作

过去十年深度神经网络已成为最重要的机器学习模型之一，创造了从自然语言处理到计算机视觉、计算神经科学等许多领域的 SOTA 实现。

深度神经网络的特征注定其产生的计算量是巨大的，但也会产生大量高度并行化的工作，特别适合多核和众核处理器。深度学习领域的新研究思路往往是结合原生框架 operator 来实现的，一般编写专门的 GPU 内核可以解决过程中的性能损失问题，但也确实具有更高的挑战性。可以说，深度神经网络的计算潜力与 GPU 编程困难之间存在着一道鸿沟。

2007 年，英伟达发布了 CUDA 的初始版本，CUDA 平台是一个软件层，使用者可以直接访问 GPU 的虚拟指令集和并行计算单元，用于执行计算内核。近年来，主流深度学习框架几乎都是基于 CUDA 进行加速，英伟达也一直在完善 CUDA 工具包，但对于一般的开发者来说，CUDA 还是「不那么容易上手」。

为了帮助广大开发者深入了解和快速上手 CUDA编程，英伟达联合机器之心推出「CUDA编程实践」三期线上分享，通过英伟达专家的理论解读和实战经验分享，向读者展示如何使用 CUDA 快速完成图像处理、光线追踪、卷积操作等任务。

10月11日20:00-21:30，系列分享第三期：CUDA 编程基础——利用CUDA实现卷积操作。

本次系列分享嘉宾是 NVIDIA 企业级开发者社区经理、高级讲师何琨，他拥有多年的 GPU 和人工智能开发经验。自 2017 年加入 NVIDIA 开发者社区以来，完成过上百场培训，帮助上万个开发者了解人工智能和 GPU 编程开发。在计算机视觉，高性能计算领域完成过多个独立项目。并且，在机器人和无人机领域，有过丰富的研发经验。对于图像识别，目标的检测与跟踪完成过多种解决方案。曾经参与 GPU 版气象模式 GRAPES，是其主要研发者。

10月11日20:00-21:30

CUDA 编程基础 – 利用CUDA实现卷积操作

NVIDIA CUDA Toolkit提供了一个开发环境，用于创建高性能GPU加速应用程序。通过CUDA Toolkit，您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署应用程序。

CUDA编程模型已经广泛地应用于人工智能领域。由于GPU硬件结构的特性，使得它能够为 AI 提供强大的计算力的支持。卷积操作在很多网络模型中都被广泛使用，了解 CUDA 如何帮助卷积操作加速，将会帮助你在 AI 领域事半功倍。

第三期课程针将详细介绍以下内容：

CUDA 流

cuBLAS

cuFFT

cuDNN

编程实例：利用CUDA实现卷积操作

如群已超出人数限制，请添加其他小助手：syncedai2、syncedai3、syncedai4 或 syncedai5，备注「CUDA」即可加入。

系列分享全部安排如下：

AI那么卷，怎能不会用CUDA实现卷积操作

全部评论