01 ASCII编码

百度百科里是这么讲的“在计算机中,所有的数据在存储和运算时都要使用二进制数表示(因为计算机用高电平和低电平分别表示1和0),例如,像A、B、C、D这样的52个字母(包括大写)以及0、1等数字还有一些常用的符号(例如*、#、@等)在计算机中存储时也要使用二进制数来表示,而具体用哪些二进制数字表示哪个符号,当然每个人都可以约定自己的一套(这就叫编码),而大家如果要想互相通信而不造成混乱,那么大家就必须使用相同的编码规则,于是美国有关的标准化组织就出台了ASCII编码,统一规定了上述常用符号用哪些二进制数来表示 。”

ASCII编码就是用1个字节来存储字符,计算机最初是美国人发明的,他们的符号不多,所以还将8个0和1序列中的第一位固定为0,ASCII只能表示127个字符。

02 GB2312 /GBK/GB

GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施,是中国国家标准的简体中文字符集。它是用双字节表示的,两个字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一字节为“高字节” ,而称第二字节为“低字节”。“高位字节”使用了0XA1-0XF7(把01-87区的区号加上0XA0),“低位字节”使用了0XA1-0XFE(把01-94加上0XA0)。这种编码方式支持7000多个汉字,它所收录的汉字已经覆盖中国大陆99.75%的使用频率,基本可以满足汉字计算机的需要。

由于GB2312只能表示7000多个汉字,无法满足我大中华的所有汉字,所以在此基础上我们有对其扩展出了GBK,GBK可以支持到2万多的汉字(包括繁体字)和符号,后来又扩展于是有了GB ,可以支持少数民族的文字及符号。

全世界有上百种语言,每个国家都制定了自己的编码字符集,统称为MBCS,全称:MUILTI-BYTES CHARECTER SET,多字节字符集。由于每个国家制定了自己的编码规则字符集,各个国家语言都互不通用,所以国际标准化组织ISO推出了下面的万国码。

03 UNICODE / UTF-8

UNICODE(统一码、万国码、单一码)UNICODE通常用两个字节表示一个字符,原有的英文编码从单字节变成双字节,把高字节全部填为0。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。UNICODE 编码共有三种具体实现,分别为UTF-8,UTF-16,UTF-32,其中UTF-8占用一到四个字节,UTF-16占用二或四个字节,UTF-32占用四个字节。

UNICODE编码解决了编码不能通用的问题,但是却容易浪费内存,尤其是在存储英文的时候,例如一个字符“A”,ASCII编码只需要1个字节就够,但是UNICODE编码必须要用2个字节。为了解决这一问题,就有了UTF-8编码。UTF-8编码把存储英文依旧用一个字节,汉字就3个字节。特别是生僻的编程4-6字节,如果传输大量英文,UTF-8作用就很明显了。

所以在出现乱码问题时:文件是用什么编码方式进行编码的,解码的时候就选择同样的解码方式。

发布于 2021-11-28 22:15:15

2021中文乱码乱码文字复制大全

喜欢 0

收藏

分享

海报

上一篇:金秋十月的优美诗句(描写金秋十月的诗句) 下一篇:赞美古桥的诗句(桥的诗句有哪些)

推荐阅读

乱码文字复制大全(乱码转换成文字的方法)

首页生活常识

如何乱码文字复制恶搞,乱码文字在线一键生成器

xurui ? 2022年7月7日 14:15 ? 生活常识 ? 阅读

平常大家在使用微信聊天的时候,肯定有不少朋友尝试过使用特殊字符,来让自己的文字变成异体字,不过受限于系统本身的限制,大多数能在电脑上显示出的异体字在手机上都是无法显示的,不过在「mega emoji」这个网站中,倒是可以找到在手机上也能正常使用的异形文字。

「mega emoji」是一个可以将普通文字转换为其它异形字的网站,网站内可供转换的异体字形非常多,包括气泡文字、波浪文字、蝌蚪文、喷射符、划线字等等。

甚至连「杀马特」以前常用的「火星文」也能生成使用。

使用的方法是非常简单的,首先选择一个需要转换成的字形样式,然后输入想转换的文字,最后点击「生成」就可以自动完成转换。

生成出的文字点击长按即可选择复制,复制后粘贴到微信对话框中可以正常发送。

不过需要注意的是,部分异形字体是基于外文字母开发的,因此输入汉字是无法转换,如果需要使用转换的话,可以使用汉语拼音或者英文。

除了转换异体字形外,网站内还自带了许多特殊符号,以及一些非常规使用的emoji表情,可以帮大家在使用文字聊天时,能玩出更多花样。

版权声明:本文内容来自互联网。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系站长举word文档的版本不一样,其文档的页面设置和文档格式不一样,因此导致复制的格式乱码。解决方法如下:

1、首先在Word文档中选中需要进行复制粘贴到另外一个文档的文字内容。

2、对选中的文字内容进行复制操作,可以右键选择“复制”或者使用Ctrl+C的组合键。

3、打开新的Word文档在需要粘贴的位置点击鼠标右键,选择其中的“保留源格式”。

4、就可以将之前复制的文档内容以原本的格式粘贴到新的文档中而不会发生格式错乱的现象。

扩展资料

JavaScript和Ajax乱码的避免,注意JavaScript默认是ISO8859的编码,避免JS/AJAX乱码和GET一样,不要在URL里面使用中文,实在避免不了,就只能在生成链接的时候转码。

尽早统一开发环境,早点模拟真实环境测试,这个好像也有跑题的嫌疑,但凡软件开发都是这么干的,但仍然值得注意。

软件程序解码错误。如浏览器把GBK码当成是Big5码显示,或电子邮件程序把对方传来的邮件错误解码。如果在发送时编码错误,收件者的电邮程序是不能解码的,需要寄件者的电邮程序重新编码再寄。字体档案(font file)不对。来源编码错误,或文件受到破坏。

一种语言版本的操作系统安装了另外一种语言版本的应用程序,或者应用程序安装的升级补丁的语言版本与应用程序原来安装的语言版本不一致。

早期单字节的应用程序在打开双字节语言的文件时不能正确识别文字的分割,在换行的地方把一个字从中分成两段,导致紧接在后面的整个一行全部都是乱码,低版本的应用程序不能识别高版本的程序创建的文件。。

电脑软件的错误操作也会导致整个文件出现乱码:

数据库原因,数据正确,但数据库配置错误,使用了错误的字符集。一般是数据库移植,还原时DBA的错误造成的。一般是客户端使用了默认的字符集,比如在GBK的机器上开发,但换到Linux下面就出现读取的数据为乱码了。

解决方法,在连接参数里面明确指定数据传输用的字符集,而不是使用操作系统默认的。数据错误。一般是客户端发来的数据编码问题。比如页面发送数据是UTF-8,可是后台处理程序是GBK的,结果造成保存到数据库的数据为乱码。

解决方法:所有字符集编码都采用统一的编码。比如全部用GBK的。

收起

您可能还关注

报!一经查实,本站将立刻删除。

赞 (9)

本章已完 m.3qdu.com