1. 行列乗算
Contents
/Memory_Wall /高速化 |
https://vorner.github.io/2018/05/12/Mat-perf.html
Performance experiments with matrix multiplication
https://twitter.com/tanakh/status/907564717316517889
折角行列乗算が実アプリのニーズ出てきたけど、AIには精度なんていらない!っていうから Top500ピーポーの夢、倍精度行列乗算アクセラレーターで性能水増しとかができる時代は結局来ないのであった。 20:21 - 2017年9月12日
https://twitter.com/jingbay/status/828938781315051520
高梨陣平さんがKDnuggetsをリツイートしました
深層学習に用いる行列の乗算の速い実装の多くはアセンブラレベルで行われている。行列乗算は1回の呼出で数百万の命令実効を伴いアクセスパターンは長期で予見可能になるが線形ではなくキャッシュが効かない。行列のサイズにより中間結果の集積とメモリリードの再利用に異なる選択が必要となる
高梨陣平さんが追加 KDnuggets
- @kdnuggets
Why #DeepLearning Needs Assembler Hackers http://buff.ly/2kA3x7Z 21:09 - 2017年2月7日
https://twitter.com/kdnuggets/status/828714393508651009
https://petewarden.com/2017/01/03/why-deep-learning-needs-assembler-hackers
For something so simple, it turns out it’s amazingly hard for compilers to speed up without a lot of human intervention. This is the heart of the GEMM matrix multiply function, which powers deep learning, and every fast implementation I know has come from old-school assembler jockeys hand-tweaking instructions!
https://qiita.com/9_ties/items/15ab7fa198991a61a3a9
Raspberry PiのGPUで行列乗算(その1) 2018年03月28日に更新