我有一个套接字服务器,应该从客户端接收UTF-8有效字符.
问题是一些客户(主要是黑客)通过它发送了所有错误类型的数据.
我可以很容易地分辨出真正的客户,但我会将发送的所有数据记录到文件中,以便以后进行分析.
有时我会得到这样的字符œ
,它会导致UnicodeDecodeError
错误.
我需要能够使字符串UTF-8有或没有这些字符.
Update:
对于我的特殊情况,套接字服务是MTA,因此我只希望接收ASCII命令,例如:
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
我在JSON中记录了所有这些.
然后,一些没有善意的人决定发送各种各样的垃圾.
这就是为什么在我的特定情况下,完全可以go 掉非ASCII字符.