IEEE浮点实现，精度和近似值的累积

IEEE floating points implementation, precision and accumulation of approximations

本文关键字：近似值精度实现 IEEE 更新时间：2023-10-16

如果我正确理解IEEE浮点数，它们无法准确地表示某些值。它们在非常有限的情况下是准确的，几乎每个浮点运算都会增加累积近似值。此外，另一个缺点 - "最小步长"随着指数的增长而增长。

提供一些更具体的代表不是更好吗？

例如，对"十进制"部分使用 20 位，但不是所有 2^20 值，而是仅使用 1000000，给出完整的 1/百万分之一最小表示/分辨率，并将其他 44 位用于整数部分，给出相当的范围。通过这种方式，可以使用整数算法计算"浮点"数字，这甚至可能更快。在乘法、加法和减法的情况下，没有近似值的累积，唯一可能的损失是在除法期间。

这个概念基于这样一个事实，即 2^n 值不是表示十进制数的最佳值，例如 1 不能很好地分成 1024 个部分，但它可以很好地分成 1000 个部分。从技术上讲，这省略了使用完全精度，但我可以想到很多情况，其中 LESS 可以更多。

当然，这种方法会在某种程度上失去范围和精度，但在所有不需要四肢的情况下，这样的表示听起来是个好主意。

你描述的命题是一个不动点算术。现在，这不一定是关于好坏;每种表示形式都有优点和缺点，通常使一种表示形式比另一种表示形式更适合某些特定目的。例如：

定点算术不会为加法和减法等操作引入路由误差，这使其适用于财务计算。您当然不想将资金存储为浮点值。
推测：可以说，不动点算法在实现方面更简单，这可能会导致更小、更高效的电路。
点表示涵盖了非常大的范围：它可用于存储非常大的数字（32 位浮点数为 ~10⁴⁰，64 位浮点数为 10³⁰⁸）和非常小的正数（~^10-320），而定点表示受其大小的线性限制。
浮点精度在可表示的范围内分布不均匀。相反，大多数值（就可表示数字的数量而言）位于 0 左右的单位球中。这使得它在我们最常操作的范围内非常准确。

你自己说的：

从技术上讲，这是省略了使用全精度，但是我可以想到很多情况，其中 LESS 可以更多

没错，这就是重点。现在，根据手头的问题，必须做出选择。没有一刀切的表示，它始终是一种权衡。