|
阅读:664回复:6
发现一个解决文件乱码的小技巧
比如对小小输入法的码表文件第二行加入
# 汉 重点是汉是一行中的最后一个字,前面加一个空格。 原理是汉这个字的utf8编码是不合法的gb18030,gb18030编码不是合法的utf8,utf16下也属于非常用字符,汉这个字又有特殊的意义。 当然仅限于支持自动编码识别的编辑器,且utf8和gb18030的优先级要高。 |
|
|
板凳#
发布于:2026-06-08 08:37
有意思,所以类似特征的汉字应该也有其它的,是吧?但「汉」这个确实比较合适。
另外也想请教大家,Linux下面vim会有一个「set fileencodings」配置,好像是类似设置自动检测编码顺序的效果,不知道默认windows下面的一些文本编辑器是否有类似的在指定几种编码中自动检测的功能。 |
|
|
地板#
发布于:2026-06-08 16:20
|
|
|
4楼#
发布于:2026-06-08 17:11
我有一个码表文件,用everedit打开就是乱码,每次都要重新选择GB18030才能正确识别很是麻烦。后来换了EmEditor直接打开就是正确识别的,麻烦@dgod 看看怎么回事?Everedit打开是乱码.txt
|
|
|
5楼#
发布于:2026-06-08 17:58
|
|
|
6楼#
发布于:2026-06-17 09:09
yanqian:有意思,所以类似特征的汉字应该也有其它的,是吧?但「汉」这个确实比较合适。1、记事本不检测编码;它依赖BOM,否则就回退到系统区域设置 2、Notepad++提供了“自动检测字符编码”功能,开启路径为: 设置 → 首选项 → 其他 → 勾选“自动检测字符编码 3、Visual Studio的文本编辑器在 工具 → 选项 → 文本编辑器 → 常规 中,有一个选项叫“自动检测不带签名的UTF-8编码” 4、VS Code的编码检测能力较强,它能够自动探测文件编码(包括UTF-8无BOM),并在状态栏右下角实时显示当前编码,点击即可查看或切换。 |
|
牛