bytea 数据类型允许存储二进制字符串。参阅表8-6。
二进制字符串是一个字节序列。二进制字符串和普通字符字符串的区别有两个:首先,二进制字符串完全可以存储字节零值以及其它"不可打印的"字节(定义在 32 到 126 范围之外的字节)。字符串不允许字节零值,并且也不允许那些不附合选定的字符集编码的非法字节值或者字节序列。第二,对二进制字符串的处理实际上就是处理字节,而对字符串的处理则取决于区域设置。简单说,二进制字符串适用于存储那些程序员认为是"原始字节"的数据,而字符串适合存储文本。
在一个 SQL 语句的文本串里面输入 bytea 数值的时候,你必须逃逸某些字节值(但可以逃逸所有字节值)。通常,要逃逸一个字节值,需要把它的数值转换成对应的三位八进制数,并且前导两个反斜杠。有些八进制数值有可选的逃逸序列,在表8-7中显示,同时也给出了可选的逃逸序列。
表8-7. bytea 文本逃逸八进制
十进制数值 | 描述 | 输入逃逸形式 | 例子 | 输出形式 |
---|---|---|---|---|
0 | 八进制的零 | E'\\000' | SELECT E'\\000'::bytea; | \000 |
39 | 单引号 | '''' 或 E'\\047' | SELECT E'\''::bytea; | ' |
92 | 反斜杠 | E'\\\\' 或 E'\\134' | SELECT E'\\\\'::bytea; | \\ |
0 到 31 以及 127 到 255 | "不可打印"字节 | E'\\xxx'(八进制值) | SELECT E'\\001'::bytea; | \001 |
逃逸"不可打印"字节的要求因区域设置而异。在某些场合下,你可以不逃逸它们。请注意表8-7里的每个例子都是刚好一个字节长,虽然字节零和反斜杠输出形式比一个字符要长。
你必须写这么多反斜杠的原因,如表8-7所示,是因为一个写成字符串文本的输入字符串必须通过 PostgreSQL 服务器里的两个分析阶段。每一对反斜杠中的第一个会被字符串文本分析器理解成一个逃逸字符而消耗掉,于是剩下的第二个反斜杠被 bytea 输入函数当作一个三位八进制值或者是逃逸另外一个反斜杠的开始。比如,一个传递给服务器的字符串文本 E'\\001' 在通过字符串分析器之后会当作 \001 发送给 bytea 输入函数,在这里它被转换成一个十进制值为 1 的单个字节。请注意,单引号字符(')不会被 bytea 特殊对待,它遵循字符串文本的普通规则。又见节4.1.2.1。
bytea 字节也在输出中逃逸。通常,每个"不可打印"的字节值都转化成对应的前导反斜杠的三位八进制数值。大多数"可打印的"字节值是以客户端字符集的标准表现形式出现的。十进制值为 92(反斜杠)的字节有一个特殊的可选输出形式。细节在表8-8里描述。
表8-8. bytea 输出逃逸序列
字节的十进制值 | 描述 | 逃逸的输出形式 | 例子 | 输出结果 |
---|---|---|---|---|
92 | 反斜杠 | \\ | SELECT E'\\134'::bytea; | \\ |
0 到 31 以及 127 到 255 | "不可打印"八进制字符 | \xxx(八进制值) | SELECT E'\\001'::bytea; | \001 |
32 到 126 | "可打印"八进制字符 | 客户端字符集表现形式 | SELECT E'\\176'::bytea; | ~ |
根据你使用的前端不同,在是否逃逸 bytea 字符串的问题上你可能有一些额外的工作要做。比如,如果你的接口自动转换换行和回车,那你可能还要逃逸它们。
SQL 标准定义了一种不同的二进制字符串类型,叫做 BLOB 或 BINARY LARGE OBJECT 。其输入格式和 bytea 不同,但是提供的函数和操作符大多一样。