发现一个解决文件乱码的小技巧

楼主^#

更多发布于：2026-06-04 10:32

比如对小小输入法的码表文件第二行加入
# 汉
重点是汉是一行中的最后一个字，前面加一个空格。

原理是汉这个字的utf8编码是不合法的gb18030，gb18030编码不是合法的utf8，utf16下也属于非常用字符，汉这个字又有特殊的意义。

当然仅限于支持自动编码识别的编辑器，且utf8和gb18030的优先级要高。

喜欢2

最新喜欢：

yanqia...

nzkboy

nzkboy 新手上路加关注写私信	沙发^# 发布于：2026-06-04 12:32 牛
	回复(0) 喜欢(0)

yanqian

骑士

加关注写私信

板凳^#

发布于：2026-06-08 08:37

有意思，所以类似特征的汉字应该也有其它的，是吧？但「汉」这个确实比较合适。

另外也想请教大家，Linux下面vim会有一个「set fileencodings」配置，好像是类似设置自动检测编码顺序的效果，不知道默认windows下面的一些文本编辑器是否有类似的在指定几种编码中自动检测的功能。

回复(2) 喜欢(1)

msql2010

侠客

加关注写私信

地板^#

发布于：2026-06-08 16:20

yanqian：有意思，所以类似特征的汉字应该也有其它的，是吧？但「汉」这个确实比较合适。

另外也想请教大家，Linux下面vim会有一个「set fileencodings」配置，好像是类似设置自动检测编码顺序的效果，不知道默认windows下面的...回到原帖

正则表达常用[一—龟]用于汉字检测，大多数情况下也是可以正常用的，你可以试试。

回复喜欢

msql2010 侠客加关注写私信	4楼^# 发布于：2026-06-08 17:11 我有一个码表文件，用everedit打开就是乱码，每次都要重新选择GB18030才能正确识别很是麻烦。后来换了EmEditor直接打开就是正确识别的，麻烦@dgod 看看怎么回事？Everedit打开是乱码.txt 类型：售价：0 大小：144KB 下载：49次描述： [下载]
	回复(1) 喜欢(0)

dgod 管理员加关注写私信	5楼^# 发布于：2026-06-08 17:58 msql2010：我有一个码表文件，用everedit打开就是乱码，每次都要重新选择GB18030才能正确识别很是麻烦。后来换了EmEditor直接打开就是正确识别的，麻烦@dgod 看看怎么回事？回到原帖这和文件无关，是everedit自动检测错误
	回复(0) 喜欢(0)

盘古大陆

新手上路

加关注写私信

6楼^#

发布于：2026-06-17 09:09

yanqian：有意思，所以类似特征的汉字应该也有其它的，是吧？但「汉」这个确实比较合适。

另外也想请教大家，Linux下面vim会有一个「set fileencodings」配置，好像是类似设置自动检测编码顺序的效果，不知道默认windows下面的...回到原帖

1、记事本不检测编码；它依赖BOM，否则就回退到系统区域设置
2、Notepad++提供了“自动检测字符编码”功能，开启路径为：设置 → 首选项 → 其他 → 勾选“自动检测字符编码
3、Visual Studio的文本编辑器在工具 → 选项 → 文本编辑器 → 常规中，有一个选项叫“自动检测不带签名的UTF-8编码”
4、VS Code的编码检测能力较强，它能够自动探测文件编码（包括UTF-8无BOM），并在状态栏右下角实时显示当前编码，点击即可查看或切换。

回复喜欢

您需要登录后才可以回帖，登录或者注册