色情另类变态影音先锋:乱码大全(1)──综述(第二版)

来源:百度文库 编辑:九乡新闻网 时间:2024/04/30 01:01:21
乱码大全(1)──综述(第二版) 

  本文第一版本于98年2月3日发于本板。这一版本修改了原文中关于字符集的一些不确切的说法。 

  “乱码大全”,作者:bluesea,水木清华 BBS 成员。欢迎在 BBS 中转载,帮助计算机初学者解决使用软件过程中遇到的实际问题。本文原载于水木清华 BBS 的 Internet讨论区。地址是: telnet://bbs.tsinghua.edu.cn ,WWW访问的地址是 http://bbs.tsinghua.edu.cn 。当下面的条件全部满足时,转载本文可以不经过作者允许:(1) 转载水木清华 BBS 的信头;(2)不修改原文;(3) 转载仅限于各种 BBS 和非商业性质的个人网点。严禁各种形式的抄袭,严禁非作者将 本文或局部用于任何正式出版的刊物。请所有转载文章的网友注意阅读本文的第一段,遵守网络的惯例、尊重作者的劳动。本自然段是全文的一部分。 

  谨以该系列的文章,作为给水木清华 BBS 及诸位网虫的新春礼物。 

  字符是计算机表达信息的主要方式,字符的主体部分是美国信息交换标准码 ASCII,现代的 ASCII 是一个七位的编码标准,包括可打印符号、控制符号等。由于计算机通常用“字节(byte)”这个八位的存储单位来进行信息交换,因此不同的计算机厂家对 ASCII 进行了扩充对值大于 127 的 128 个符号予以定义,并赋予符号的形状。如 MS-DOS 使用 OEM 字符集,Windows 支持 ANSI、Symbol、 OEM 等字符集,它们在值为 127 以上的部分一般都是不统一的,这些“扩展的 ASCII”字符只有在特定的环境下才具有“交换”的意义。

  计算机以及很多计算机网络协议的制定都是建立在ASCII 码的基础上的,但是ASCII 码用于计算机信息的表示有很大的不足,主要表现在多国文字、图形、 声音等二进制文件、信息压缩、信息保密等很多方面。 因此,在 ASCII 和扩展 ASCII 码的基础上,用一定的规则定义一些新的信息表达形式,就形成了信息传 输和处理中的一大类概念和事物,即编码和解码。当信息编码和解码能够统一的时候,信息是可以交换和被理解的;相反,当信息编码和解码不能够统一的时候, 信息就不能被交换和理解,这就是“乱码”。(以下不再使用引号) 

  乱码的产生既然是信息编码和解码不能够统一的结果,因此,解决乱码的过程就是找到和编码相统一的解码方法,并对计算机软件不能全自动进行适当解码的信息进行重新的处理和解码,使得恢复信息可以被理解和交换的目的。 

  本文针对 BBS 上常见的问题,对初学者比较全的介绍一下各种乱码的产生、判断和解决方法。可以说,常见的乱码有这样一些规律:(1) 和汉字或其他国家的文字有关;(2) 经常发生在 email 的阅读中;(3) 和传送二进制文件有关;(4) 和信息的加密解密有关。而乱码的原因正如前面所说的,和软件的版本,即他们能够自动识别和使用的解码协议有密切的关系。本文的写作主要针对 DOS/Windows 操作系统的用户。 

  本文以 email 和 WWW 中经常出现的、初学者不易理解的特殊标记、乱码等现象,以乱码的识别、原因和解决方法为主线,涉及:ROT13、汉字乱码、ANSI、 UUENCODE、MIMENCODE、QUATED-PRINTABLE、HTML、文件格式和数据加密等方面。是个大杂货店。 

  “我遇到乱码怎么办?”这是几乎我们每个人都曾经遇到的问题。我想稍微总结一下这个大家关心的问题也有一些时间了,不过 Internet 博大精深,到动笔时感到知识实在是极度匮乏。那些曾经熟悉的东西写出来好像就不是那么回事。 在做水木清华 BBS 病毒讨论区板主的这段时间里遇到的大量问题中,更多的是出在与病毒相似却不是病毒的地方,比如计算机硬件软件本身的问题,某些国产反病毒软件因质量问题破坏文件和系统等等。所以,要把计算机用的更顺手,需要的是更多地了解你所使用的这个工具。防范病毒只是一个方面。一个新手,当你有机会迈进 Internet 的时候,你已经拥有这个博大精深的世界的一半了,只是有很多人还浑然不知。 Internet 就是你的老师,你自己就是你的老师。 

  我希望大家对这个系列提出一些意见、补充和建议,以便修改其中文章中的错误、Bug 或充实没有概括到的内容。