java中的矩阵运算-matlab中矩阵的运算

发布时间：2023-03-25 22:12 浏览次数：次作者：佚名

java中的矩阵运算_矩阵或运算_matlab中矩阵的运算

来自机器之心

近期，国外开发者 Dougall Johnson 通过逆向工程，在苹果 M1 处理器内发现了一个被称为 AMX 的强大的未公开过的神秘协处理器：矩阵协处理器。

矩阵或运算_matlab中矩阵的运算_java中的矩阵运算

要弄清苹果矩阵协处理器具体是做什么的，我们需要了解什么是协处理器、什么是矩阵，以及为什么还要关心这些？

更重要的是，为什么苹果公司在发布新机的 keynote 里都没有提到这个协处理器？为什么它似乎是一个秘密？如果你已经了解了 M1 片上系统（SoC）中的神经网络处理引擎，可能会对苹果又设计一个矩阵协处理器（AMX）感到困惑。在这之前，我们先来了解一些基本概念。

首先，什么是矩阵？

矩阵（Matrix）是一个按照长方阵列排列的复数或实数集合，最早来自于方程组的系数及常数所构成的方阵，是高等代数中常见的工具。如果你使用过 Microsoft Excel 等电子表格，则矩阵就是与电子表格非常相似的东西。

关键的区别在于，在数学中，这样的数字表有一个它们支持的操作列表和特定的行为。正如在下图中展示的，矩阵可以有不同的风格。有这样一行的矩阵，通常称为行向量。如果一个是列向量，我们称之为列向量。关于矩阵相关内容，相信每一个理工科专业的都应该非常了解，因此不做过多的赘述。

matlab中矩阵的运算_java中的矩阵运算_矩阵或运算

matlab中矩阵的运算_矩阵或运算_java中的矩阵运算

我们可以对矩阵进行加、减、缩放和乘积操作。加法很简单，只需分别添加每个元素，但乘法有点复杂。

java中的矩阵运算_矩阵或运算_matlab中矩阵的运算

这种形式在计算机任务处理中至关重要，矩阵的使用范围主要包括：

机器学习是这几年中最热门的方向。仅仅在 CPU 上增加更多的核心并不能让这个领域的任务速度足够快，因为它的要求很高，这需要专门的硬件。浏览互联网、写电子邮件、文字处理和电子表格等常规任务多年来一直运行得很快。而机器学习，这是我们真正需要提高处理能力的特殊任务。

java中的矩阵运算_矩阵或运算_matlab中矩阵的运算

由于用上了 5 纳米制程，在任何给定的芯片上，苹果公司都有最大数量的晶体管用于构建不同类型的硬件。他们可以增加更多的 CPU 内核java中的矩阵运算，但这实际上只是加快了常规任务的速度，而这些任务已经运行得足够快了。因此，人们经常选择用部分晶体管制造专门的硬件来解决图像处理、视频解码和机器学习。这种专用硬件就是协处理器和加速器。

更多关于协处理器和加速器的讨论请参阅：

苹果的矩阵协处理器和神经网络引擎有何不同？

如果你了解一些关于神经网络引擎的知识，你将会知道它会执行矩阵运算来帮助完成机器学习任务。那么我们为什么还需要矩阵协处理器呢？它们是同一种东西吗？下面我们来解释一下苹果的矩阵协处理器与神经引擎的区别，以及我们为什么需要两者。

java中的矩阵运算_矩阵或运算_matlab中矩阵的运算

CPU、协处理器和加速器通常可以在共享的数据总线上交换数据。CPU 通常控制内存访问，而专用加速器（例如 GPU）通常具有自己的专用内存（如显存）。

matlab中矩阵的运算_java中的矩阵运算_矩阵或运算

协处理器和加速器并不相同。英伟达显卡中的 GPU 和神经引擎都是加速器的一种。在这两种情况下，都有特殊的内存区域，在该区域 CPU 必须填充要处理的数据，而内存的另一部分则填充加速器应执行的指令列表。CPU 设置这种处理非常耗时。需要进行大量协调，填写数据，然后等待结果。

因此，这只会在更大的任务中得到回报。对于较小的任务，开销太高。

矩阵或运算_matlab中矩阵的运算_java中的矩阵运算

与加速器不同，协处理器监视从内存读取到主处理器的指令流。相比之下，加速器不会遵守 CPU 从内存中提取的指令。

这就是协处理器优于加速器的地方。协处理器会监视从内存 (更具体地说，是缓存) 输入 CPU 的机器代码指令流。协处理器是用来对特定指令作出反应的。与此同时，CPU 通常会忽略这些指令，或者帮助协处理器处理这些指令。

我们从中得到的思路是，协处理器执行的指令可以放在常规代码中。这与 GPU 不同。如果你做过 GPU 编程，则应该知道着色器程序被放置在单独的内存缓冲区中，并且你必须将这些着色器程序显式传输到 GPU。你不能在常规代码中放置特定于 GPU 的指令。因此，对于涉及矩阵处理的较小工作负载，AMX 将优于神经引擎。

这样你需要在微处理器的指令集架构（ISA）中实际定义新的特定的指令。因此，与使用加速器相比，使用协处理器时需要与 CPU 紧密集成。对 ARM 指令集体系架构（ISA）的创建者 ARM 公司来说，长期以来他们一直拒绝向 ISA 中添加自定义指令。

然而，由于客户的压力，ARM 公司放宽了要求，并在 2019 年 10 月做出了让步并宣布将允许扩展。参考：新指令与标准 Arm 指令交织在一起。为了避免软件碎片化并保持一致的软件开发环境，Arm 希望客户在调用的库函数中使用自定义指令。

这可能有助于解释为什么官方文档中没有描述 AMX 指令。ARM 期望苹果将此类指令保存在客户提供的库中。

矩阵协处理器与 SIMD 向量引擎有何不同？

很容易把矩阵协处理器和 SIMD 向量引擎混淆起来，目前大多数现代处理器（包括 ARM 处理器）内都有 SIMD 向量引擎。SIMD（Single Instruction, Multiple Data）即一条指令操作多个数据，是 CPU 基本指令集的扩展，主要用于小体量数据的并行化操作。

matlab中矩阵的运算_java中的矩阵运算_矩阵或运算

矩阵或运算_java中的矩阵运算_matlab中矩阵的运算

单指令单数据（SISD）VS 单指令多数据（SIMD）

当你需要对多个元素执行相同的操作时，SIMD 是一种获得更高性能的方法。这与矩阵运算密切相关。事实上，SIMD 指令，如 ARM 的 Neon 指令或 Intel x86 SSE 或 AVX 等通常用于加速矩阵乘法。

然而，SIMD 向量引擎是微处理器核心的一部分。就像 ALU（算术逻辑单元）和 FPU（浮点单元）是 CPU 的一部分。在微处理器内部有一个指令解码器，它将拆分一条指令并决定激活哪个功能单元（灰色框）。

java中的矩阵运算_矩阵或运算_matlab中矩阵的运算

在 CPU 内部，ALU、FPU 以及 SIMD 向量引擎（未显示）作为单独的部分由指令解码器激活。协处理器是外部的。

相反，协处理器在微处理器核心的外部。比如最早的协处理器芯片之一：英特尔 8087，该芯片是一种物理上独立的芯片，旨在加快浮点计算的速度。

矩阵或运算_java中的矩阵运算_matlab中矩阵的运算

英特尔 8087，用于执行浮点运算的早期协处理器之一

对于 8087，你可能会很奇怪，为什么有人会想通过拥有一个像这样的单独芯片来使 CPU 设计复杂化？该芯片必须嗅探从内存到 CPU 的数据流，以查看是否有任何浮点指令。

原因很简单，第一代 PC 中的原始 8086 CPU 包含 29,000 个晶体管。相比之下，8087 要复杂得多，有 45,000 个晶体管。将这两个芯片结合在一起会非常困难和昂贵。

matlab中矩阵的运算_矩阵或运算_java中的矩阵运算

但随着制造技术的进步，将浮点计算单元（FPU）放在 CPU 内部并不是问题。因此 FPU 取代了浮点协处理器。

我们还不清楚为什么 AMX 不是 M1 上 Firestorm 核心的一部分。不管怎样，它们都在同一个硅芯片上。作为协处理器，CPU 继续并行运行可能更容易。苹果可能也喜欢把非标准的 ARM 产品放在 ARM CPU 内核之外。

为什么 AMX 是一个秘密？

如果苹果官方文件中没有描述 AMX，你是怎么知道的？这就多亏了开发人员 Dougall Johnson，他对 M1 进行了逆向工程，发现了这个协处理器。这里描述了他的努力。对于矩阵相关的数学运算，苹果有一些特殊的库或框架，如 Accelerate，它由以下部分组成：

Dougall Johnson 知道这些库将使用 AMX 协处理器来加快计算速度。因此，他编写了一些特殊程序来分析和观察这些程序做了什么，以发现未记录的特殊 AMX 机器代码指令。

但是为什么苹果公司不记录这些，让我们直接使用这些指令呢？如前所述，这是 ARM 公司希望避免的。如果自定义指令被广泛使用，它可能会破坏 ARM 生态系统。

然而更重要的是，这对苹果来说是一个优势。通过只允许他们的库使用这些特殊的指令java中的矩阵运算，苹果保留了以后从根本上改变这个硬件工作方式的自由。他们可以删除或添加 AMX 指令。或者他们可以让神经引擎来完成这项工作。无论哪种方式，它们都使开发人员的工作更容易。开发人员只需要使用加速框架，就可以忽略苹果具体如何加快矩阵计算的速度。

这是苹果垂直整合的一大优势。通过控制硬件和软件，他们可以利用这些技术。

苹果的矩阵协处理器有什么优势？

Nod Labs 是一家致力于机器交互、智能和感知的公司，对快速矩阵运算非常感兴趣。其研究人员已经为 AMX 性能测试写了高质量的技术性博客。

博客地址：

java中的矩阵运算_矩阵或运算_matlab中矩阵的运算

他们所做的是比较使用 AMX 编写类似代码和使用 Neon 指令编写类似代码的性能，后者得到 ARM 的官方支持。Neon 是一种 SIMD 指令。

Nod Labs 发现，使用 AMX，矩阵的运算性能比 Neon 指令快 2 倍。这并不意味着 AMX 在所有方面都更好，但至少在机器学习和高性能计算（HPC）类型的工作中，我们可以预期 AMX 将在竞争中占据优势。

原文链接：

矩阵或运算_matlab中矩阵的运算_java中的矩阵运算


关注Java技术迷看更多干货




更多精彩推荐
☞ idea2020.3 开启机器学习增强代码提示~太好用啦

☞ 推荐一款 IDEA 神器，人工智能帮你写代码，再也不用加班啦

☞ Java后端开发者的福音，接口开发利器来袭，有点厉害！

☞ Win10最新蓝屏死机Bug大规模爆发，已有数亿人中招

☞ Idea公司真牛逼，发行最适合程序员编程字体~


点分享
点点赞
点在看

java读取文件内容-java读取json文件内容

java date 初始化-java new date 格式