分享
 
 
 

.NET自动字符编码识别程序库 NChardet

王朝c#·作者佚名  2008-05-31
窄屏简体版  字體: |||超大  

什么是NChardet

NChardet是mozilla自动字符编码识别程序库chardet的.NET实现,它移植自jchardet,chardet的java版实现,可实现对给定字符流的编码探测。

NChardet是如何工作的

NChardet通过逐个比较输入字符来猜测编码;由于是猜测,所以可能会有不能完全识别的情况;如果输入字符不能确定正确的编码,那么NChardet会给出一组可能的编码值。

如何使用NChardet

要使用NChardet来探测编码,需要进行如下步骤。

1、使用制定的语言线索来构造Detector类的实例对象。

2、用实现了ICharsetDetectionObserver接口的对象作为参数来调用Detector类的Init方法。

3、传入要探测的字符流进行编码探测。

4、调用Detector类的DataEnd方法。

5、得到结果或可能的结果集。

语言线索是一个整数,可用的语言线索有如下几个:

1. Japanese

2. Chinese

3. Simplified Chinese

4. Traditional Chinese

5. Korean

6. Dont know (默认)

ICharsetDetectionObserver接口只有一个Notify方法,当NChardet引擎认为自己已经探测出正确的编码时,它就会调用这个Notify方法,用户程序可以从这个Nodify方法中得到通知(重写ICharsetDetectionObserver接口的Notify实现)。

代码实例:

//实现ICharsetDetectionObserver接口

public class MyCharsetDetectionObserver :

NChardet.ICharsetDetectionObserver

{

public string Charset = null;

public void Notify(string charset)

{

Charset = charset;

}

}

int lang = 2 ;//

//用指定的语参数实例化Detector

Detector det = new Detector(lang) ;

//初始化

MyCharsetDetectionObserver cdo = new MyCharsetDetectionObserver();

det.Init(cdo);

//输入字符流

Uri url = new Uri(“http://cn.yahoo.com”);

HttpWebRequest request =

HttpWebRequest)WebRequest.Create(url);

HttpWebResponse response =

(HttpWebResponse)request.GetResponse();

Stream stream = response.GetResponseStream();

byte[] buf = new byte[1024] ;

int len;

bool done = false ;

bool isAscii = true ;

while( (len=stream.Read(buf,0,buf.Length)) != 0) {

// 探测是否为Ascii编码

if (isAscii)

isAscii = det.isAscii(buf,len);

// 如果不是Ascii编码,并且编码未确定,则继续探测

if (!isAscii && !done)

done = det.DoIt(buf,len, false);

}

stream.Close();

stream.Dispose();

//调用DatEnd方法,

//如果引擎认为已经探测出了正确的编码,

//则会在此时调用ICharsetDetectionObserver的Notify方法

det.DataEnd();

if (isAscii) {

Console.WriteLine("CHARSET = ASCII");

found = true ;

}

else if (cdo.Charset != null)

{

Console.WriteLine("CHARSET = {0}",cdo.Charset);

found = true;

}

if (!found) {

string[] prob = det.getProbableCharsets() ;

for(int i=0; i<prob.Length; i++) {

Console.WriteLine("Probable Charset = " + prob[i]);

}

}

Console.ReadLine();

http://www.cnblogs.com/hhh/archive/2007/01/27/632251.html

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有