英文歌咚哒哒哒滴答滴:判断文件编码类型(转帖)
来源:百度文库 编辑:九乡新闻网 时间:2024/05/07 16:51:27
判断文件编码类型(转帖)
计算机 2010-05-12 11:04:56 阅读218 评论0 字号:大中小 订阅
什么是jchardet?
jchardet是mozilla自动字符集探测算法代码的java移植,其源代码可以从sourceforge下载。这个算法的最初作者是frank Tang,C++源代码在http://www.infomall.cn/cgi-bin/mallgate/20040514/http://lxr.mozilla.org/mozilla/source/intl/chardet/,可以从http://www.infomall.cn/cgi-bin/mallgate/20040514/http://www.mozilla.org/projects/intl/chardet.html得到更多关于这个算法的信息。
编译及应用
将下载后的chardet.zip解压缩后,到~/mozilla/intl/chardet/java/目录下,运行ant即可在dist /lib目录下生成chardet.jar,将这个jar包加入CLASSPATH.然后运行:java org.mozilla.intl.chardet.HtmlCharsetDetector http://hedong.3322.org
结果:CHARSET = GB18030
运行:java org.mozilla.intl.chardet.HtmlCharsetDetector http://www.wesnapcity.com/
结果:CHARSET = ASCII
运行:java org.mozilla.intl.chardet.HtmlCharsetDetector http://www.wesnapcity.com/blog/
结果:CHARSET = UTF-8
编程使用
下面就jchardet.jar中的HtmlCharsetDetector.java,对调用jchardet过程予以说明:
//实现nsICharsetDetectionObserver接口,这个接口只有一个Notify()方法.当 jchardet引擎自己认为已经识别出字符串的字符集后(不论识别的对错),都会调用这个Notify方法。
nsICharsetDetectionObserver cdo=new nsICharsetDetectionObserver() {
public void Notify(String charset) {
HtmlCharsetDetector.found = true ;
System.out.println("CHARSET = " + charset);
}
};
/**
* 初始化nsDetector()
*lang为一个整数,用以提示语言线索,可以提供的语言线索有以下几个:
*
- Japanese
- Chinese
- Simplified Chinese
- Traditional Chinese
- Korean
- Dont know (默认)
*/
nsDetector det = new nsDetector(lang) ;
// 设置一个Oberver
det.Init(cdo);
BufferedInputStream imp = new BufferedInputStream(url.openStream());
byte[] buf = new byte[1024] ;
boolean done = false ; //是否已经确定某种字符集
boolean isAscii = true ;//假定当前的串是ASCII编码
while( (len=imp.read(buf,0,buf.length)) != -1) {
// 检查是不是全是ascii字符,当有一个字符不是ASC编码时,则所有的数据即不是ASCII编码了。
if (isAscii) isAscii = det.isAscii(buf,len);
// 如果不是ascii字符,则调用DoIt方法.
if (!isAscii && !done) done = det.DoIt(buf,len, false);//如果不是ASCII,又还没确定编码集,则继续检测。
}
det.DataEnd();//最后要调用此方法,此时,Notify被调用。
if (isAscii) {
System.out.println("CHARSET = ASCII");
found = true ;
}
if (!found) {//如果没找到,则找到最可能的那些字符集
String prob[] = det.getProbableCharsets() ;
for(int i=0; i System.out.println("Probable Charset = " + prob[i]);
}
}
jchardet主要解决什么样的问题?
Java字符串(及字符)类以Unicode编码保存数据。当处理来自外部的国际性文本时,我们需要提供关于这些文本的编码,以便准确地将它们转换为Unicode。这意味着你必须知道你的java代码要处理的所有文件的编码。许多基于Internet的Java应用程序,要处理来自随机数据源的数据,而很多数据的编码不能确切的知道。例如,一个HTML页面中的数据,如果没有元数据标签明确地指定页面的字符集,就很难确实其编码,将其转换为 Java Unicode字符串时也会误用而终止。
这个算法是如何工作的?
浏览器处理这个问题的方法,是对数据一个字节一个字节的检查,以力图测试字符集(当你点击菜单View->Auto-select或 auto-detect时)。这个算法(最初由Frank Tang开发)检查字节序列,基于每个字节的值,利用逐步消除法(elimination logic)逐步缩小以至最后确定字符集。如果这个方法仍难以确定,就利用另一个方法,根据某种语言的字符的频次统计来确实字符集。
判断文件编码类型(转帖)
电脑故障维修判断(联想内部文件)
如何判断经络类型——“经络”旁通(6)
扩展名 文件 类型 打开方式
简单方法判断皮肤类型
电脑故障维修判断指导大全(联想内部文件)3
电脑故障维修判断指导大全(联想内部文件)
电脑故障维修判断大全(联想内部文件)
电脑故障维修判断指导大全(联想内部文件).
电脑故障维修判断指导大全(联想内部文件)!
电脑故障维修判断指导大全(联想内部文件)0
电脑故障维修判断指导联想内部文件)
电脑故障维修判断指导大全(联想内部文件)
推荐一个修改文件编码的eclipse插件
Metasploit Framework生成编码后的exe文件
计算机文件编码问题,我总算搞清楚了
设置vi/vim实现打开不同字符编码的文件
Java如何获得文件编码格式 -北京达内官网
bat批处理应用:文件,类型,语法,格式
您的人格类型是: ENTJ(外向,直觉,思维,判断)
怎样判断你的性格类型
正则表达式判断号码靓号类型
通过文件头标识判断图片格式
windows 7下删除文件打开类型的方法