什么是NChardet
NChardet是mozilla自动字符编码识别程序库chardet的NET实现它移植自jchardetchardet的java版实现可实现对给定字符流的编码探测
NChardet是如何工作的
NChardet通过逐个比较输入字符来猜测编码由于是猜测所以可能会有不能完全识别的情况如果输入字符不能确定正确的编码那么NChardet会给出一组可能的编码值
如何使用NChardet
要使用NChardet来探测编码需要进行如下步骤
使用制定的语言线索来构造Detector类的实例对象
用实现了ICharsetDetectionObserver接口的对象作为参数来调用Detector类的Init方法
传入要探测的字符流进行编码探测
调用Detector类的DataEnd方法
得到结果或可能的结果集
语言线索是一个整数可用的语言线索有如下几个
Japanese
Chinese
Simplified Chinese
Traditional Chinese
Korean
Dont know (默认)
ICharsetDetectionObserver接口只有一个Notify方法当NChardet引擎认为自己已经探测出正确的编码时它就会调用这个Notify方法用户程序可以从这个Nodify方法中得到通知(重写ICharsetDetectionObserver接口的Notify实现)
代码实例
//实现ICharsetDetectionObserver接口
public class MyCharsetDetectionObserver :
NChardetICharsetDetectionObserver
{
public string Charset = null;
public void Notify(string charset)
{
Charset = charset;
}
}
int lang = ;//
//用指定的语参数实例化Detector
Detector det = new Detector(lang) ;
//初始化
MyCharsetDetectionObserver cdo = new MyCharsetDetectionObserver();
detInit(cdo);
//输入字符流
Uri url = new Uri();
HttpWebRequest request =
HttpWebRequest)WebRequestCreate(url);
HttpWebResponse response =
(HttpWebResponse)requestGetResponse();
Stream stream = responseGetResponseStream();
byte[] buf = new byte[] ;
int len;
bool done = false ;
bool isAscii = true ;
while( (len=streamRead(bufbufLength)) != ) {
// 探测是否为Ascii编码
if (isAscii)
isAscii = detisAscii(buflen);
// 如果不是Ascii编码并且编码未确定则继续探测
if (!isAscii && !done)
done = detDoIt(buflen false);
}
streamClose();
streamDispose();
//调用DatEnd方法
//如果引擎认为已经探测出了正确的编码
//则会在此时调用ICharsetDetectionObserver的Notify方法
detDataEnd();
if (isAscii) {
ConsoleWriteLine(CHARSET = ASCII);
found = true ;
}
else if (cdoCharset != null)
{
ConsoleWriteLine(CHARSET = {}cdoCharset);
found = true;
}
if (!found) {
string[] prob = detgetProbableCharsets() ;
for(int i=; i<probLength; i++) {
ConsoleWriteLine(Probable Charset = + prob[i]);
}
}
ConsoleReadLine();