行列乗算について、ここに記述してください。

https://vorner.github.io/2018/05/12/Mat-perf.html

Performance experiments with matrix multiplication


https://twitter.com/tanakh/status/907564717316517889

折角行列乗算が実アプリのニーズ出てきたけど、AIには精度なんていらない!っていうから Top500ピーポーの夢、倍精度行列乗算アクセラレーターで性能水増しとかができる時代は結局来ないのであった。 20:21 - 2017年9月12日

https://twitter.com/jingbay/status/828938781315051520

高梨陣平さんがKDnuggetsをリツイートしました

深層学習に用いる行列の乗算の速い実装の多くはアセンブラレベルで行われている。行列乗算は1回の呼出で数百万の命令実効を伴いアクセスパターンは長期で予見可能になるが線形ではなくキャッシュが効かない。行列のサイズにより中間結果の集積とメモリリードの再利用に異なる選択が必要となる

高梨陣平さんが追加 KDnuggets

Why #DeepLearning Needs Assembler Hackers http://buff.ly/2kA3x7Z 21:09 - 2017年2月7日

https://twitter.com/kdnuggets/status/828714393508651009

https://petewarden.com/2017/01/03/why-deep-learning-needs-assembler-hackers

For something so simple, it turns out it’s amazingly hard for compilers to speed up without a lot of human intervention. This is the heart of the GEMM matrix multiply function, which powers deep learning, and every fast implementation I know has come from old-school assembler jockeys hand-tweaking instructions!


https://qiita.com/9_ties/items/15ab7fa198991a61a3a9

Raspberry PiのGPUで行列乗算(その1) 2018年03月28日に更新