Python3.x 为什么 Python 返回 [15] for [0xfor x in (1, 2, 3)]

发布于04月14日

运行以下行时:

>>> [0xfor x in (1, 2, 3)]

我以为Python会返回一个错误.

相反，REPL返回:

[15]

原因可能是什么？

推荐答案

TL；博士

Python将表达式读取为[0xf or (x in (1, 2, 3))]，因为:

Python tokenizer人.
运算符优先级

多亏了short-circuit evaluation，它永远不会提升NameError——如果or操作符左边的表达式是真实值，Python永远不会try 计算它的右边.

解析十六进制数

首先，我们必须了解Python如何读取十六进制数.

在tokenizer.c的巨大tok_get功能中，我们:

Find第一个0x.
Keep reading the next characters，只要它们在0-f范围内.

解析后的标记0xf(因为"o"不在0-f的范围内)最终将被传递给PEG解析器，PEG解析器将其转换为十进制值15(见附录A).

我们仍然需要解析剩下的代码or x in (1, 2, 3)]，剩下的代码如下:

[15 or x in (1, 2, 3)]

运算符优先级

因为in的operator precedence比or高，所以我们可能希望x in (1, 2, 3)先进行判断.

这是一个麻烦的情况，因为x并不存在，而且会产生NameError.

`or` is lazy

幸运的是，Python支持Short-circuit evaluation，因为or是一个惰性运算符:如果左操作数等同于True，Python就不会费心计算右操作数.

我们可以通过ast模块看到它:

parsed = ast.parse('0xfor x in (1, 2, 3)', mode='eval')
ast.dump(parsed)

输出:


    Expression(
        body=BoolOp(
            op=Or(),
            values=[
                Constant(value=15),   # <-- Truthy value, so the next operand won't be evaluated.
                Compare(
                    left=Name(id='x', ctx=Load()),
                    ops=[In()],
                    comparators=[
                        Tuple(elts=[Constant(value=1), Constant(value=2), Constant(value=3)], ctx=Load())
                    ]
                )
            ]
        )
    )

最后的表达式等于[15].

附录A:PEG解析器

在pegen.c的parsenumber_raw函数中，我们可以找到Python如何处理前导零:

    if (s[0] == '0') {
        x = (long)PyOS_strtoul(s, (char **)&end, 0);
        if (x < 0 && errno == 0) {
            return PyLong_FromString(s, (char **)0, 0);
        }
    }

PyOS_strtoul等于Python/mystrtoul.c.

在mystrtoul里面.c、解析器查看one character after the 0x.如果是十六进制字符，Python会将数字的基数设置为16:

            if (*str == 'x' || *str == 'X') {
                /* there must be at least one digit after 0x */
                if (_PyLong_DigitValue[Py_CHARMASK(str[1])] >= 16) {
                    if (ptr)
                        *ptr = (char *)str;
                    return 0;
                }
                ++str;
                base = 16;
            } ...

然后，只要字符在0-f的范围内，它就会将数字的其余部分替换为parses:

    while ((c = _PyLong_DigitValue[Py_CHARMASK(*str)]) < base) {
        if (ovlimit > 0) /* no overflow check required */
            result = result * base + c;
        ...
        ++str;
        --ovlimit;
    }

Eventually，它将指针设置为指向扫描的最后一个字符，即超过最后一个十六进制字符一个字符:

    if (ptr)
        *ptr = (char *)str;

谢谢

来自reddit的CSI_Tech_Dept，用于向我推荐标记器中的正确部分.c文件.
The original Tweet

Python-3.x相关问答推荐

使用Polars阅读按日期键分区的最新S3镶木地板文件

使用PANAS根据另两个列表中的值对一个列表中的字符串值进行分组

Pandas 数据帧断言等同于NaN

如何定义既允许固定单词又允许模式的pydanti.BaseModel？

pandas查找另一列中是否存在ID

没有这样的命令'；角色'；-可靠分子

selenium 无法执行网站上最简单的功能

如何将函数映射到所有命名元组的元素？

如何在两个矩阵的比较中允许任何列的符号差异，Python3？

使用正则表达式提取字符串之间的文本

为什么最简单的流光示例会出错？

Pandas数据单调行为

Python 3.10 模式匹配 (PEP 634) - 字符串中的通配符

python 内置的 exit 参数类型是什么？

如何在继承的数据类中创建可选字段？

如何使用 Python 订阅 Websocket API 通道？

使用 asyncio 的多个循环

我可以替换 Python 中对象的现有方法吗？

Python 3中星型导入的函数形式是什么

哪个更有效：Python 文档字符串还是类型提示？

实用课程推荐