IEEE浮点实现,精度和近似值的累积
IEEE floating points implementation, precision and accumulation of approximations
如果我正确理解IEEE浮点数,它们无法准确地表示某些值。它们在非常有限的情况下是准确的,几乎每个浮点运算都会增加累积近似值。此外,另一个缺点 - "最小步长"随着指数的增长而增长。
提供一些更具体的代表不是更好吗?
例如,对"十进制"部分使用 20 位,但不是所有 2^20 值,而是仅使用 1000000,给出完整的 1/百万分之一最小表示/分辨率,并将其他 44 位用于整数部分,给出相当的范围。通过这种方式,可以使用整数算法计算"浮点"数字,这甚至可能更快。在乘法、加法和减法的情况下,没有近似值的累积,唯一可能的损失是在除法期间。
这个概念基于这样一个事实,即 2^n 值不是表示十进制数的最佳值,例如 1 不能很好地分成 1024 个部分,但它可以很好地分成 1000 个部分。从技术上讲,这省略了使用完全精度,但我可以想到很多情况,其中 LESS 可以更多。
当然,这种方法会在某种程度上失去范围和精度,但在所有不需要四肢的情况下,这样的表示听起来是个好主意。
你描述的命题是一个不动点算术。现在,这不一定是关于好坏;每种表示形式都有优点和缺点,通常使一种表示形式比另一种表示形式更适合某些特定目的。例如:
-
定点算术不会为加法和减法等操作引入路由误差,这使其适用于财务计算。您当然不想将资金存储为浮点值。
-
推测:可以说,不动点算法在实现方面更简单,这可能会导致更小、更高效的电路。
浮 点表示涵盖了非常大的范围:它可用于存储非常大的数字(32 位浮点数为 ~1040,64 位浮点数为 10308)和非常小的正数(~10-320),而定点表示受其大小的线性限制。
浮点精度在可表示的范围内分布不均匀。相反,大多数值(就可表示数字的数量而言)位于 0 左右的单位球中。这使得它在我们最常操作的范围内非常准确。
你自己说的:
从技术上讲,这是省略了使用全精度,但是我 可以想到很多情况,其中 LESS 可以更多
没错,这就是重点。现在,根据手头的问题,必须做出选择。没有一刀切的表示,它始终是一种权衡。
- 从"int*"强制转换为"unsigned int"会丢失精度错误
- 如何防止 c++ 在从浮点型转换为双精度型(不适用于 IO)时添加额外的小数?
- 正在将csv文件读取为双精度矢量
- 如何理解将半精度指针转换为无符号长指针和相关的内存对齐
- 我可以信任表示整数的浮点或双精度来保持精度吗
- 如何在C++中的同一函数中使用字符串和双精度
- 特征::矩阵<双精度,1,3> 结构类型函数中的返回类型函数
- 当使用比格式支持的精度更高的精度来显示数字时,会写出什么数据
- 如何计算具有指定类型的表达式的相对精度和绝对精度
- 如何打印boost多精度128位无符号整数
- 检查是否以特定精度给出双精度
- 转换函数,将 std::数组的双精度作为参数或双精度作为参数单独转换
- C 字符串返回字符串的整数/双精度/长整型值
- 为什么将双精度转换为 int 似乎在第 16 位数字之后将其四舍五入?
- 如何使双精度值的 C++ 和 C# 中的结果相同
- 使用浮点数和双精度数的非常小数字的数学
- 使用 Xcode 将双精度存储在数组C++中
- 为什么输出精度没有正确舍入?
- 在 C++ 中将双精度变量写入二进制文件
- IEEE浮点实现,精度和近似值的累积