有人说,我做一款AI芯片,只要原生支持PyTorch就好了呀,用户直接用PyTorch跑模型,根本接触不到CUDA呀。
没错,一般的用户只要在PyTorch层面做应用,但是总是有新的模型架构出来,这些架构都需要做特定的性能优化才能在一个芯片上得到较高的性能,这时候就涉及到算子开发了。
比如说一开始LLM在GPU上的性能不好,后来社区针对Nvidia GPU做了flash attention等的优化才把LLM的性能提升到了比较可观的程度。
CUDA已经被各种开源AI框…。
为什么今年的雷霆会惹众怒?
Akid(王懿)怎么会饿死的?
Rust 使用 Result 的错误处理方式与 Golang 使用 error 的方式有什么本质区别?
你的低成本爱好是什么?
为什么有人会说要崛起要靠西科这种观点呢?
如何看待广西举全区之力支持柳州化解债务?为什么最近地方债又重回公众视野?
亚克力鱼缸这么容易模糊吗?
golang比j***a编码效率高太多,为什么各大厂还在继续用j***a而不是重构整个项目?
为什么B-2轰炸机从来不敢来中国?
python与nodejs哪个性能高?
电话:
座机:
邮箱:
地址: