HtmlAgilityPack 抓取页面的乱码处理-web前端-IT落伍者

利用HtmlAgilityPack抓取页面很方便但是当页面是gb编码时候就会出现乱码上网查了一下说是默认的获取页面方法不够成熟具体什么的我也不知道姑且就认为是不够成熟吧

HtmlWeb htmlWeb = new HtmlWeb();

HtmlDocument htmlDocument = htmlWebLoad(@url);

解决方法如下

新建一个方法来获取 HtmlDocument传进来的是抓取页面的地址

private static HtmlDocument GetHtmlDocument(string url)

{

HttpWebRequest (new Uri(@url)) as HttpWebRequest; = GET; WebResponse webResponse = ();

Stream stream = webResponseGetResponseStream();

HtmlDocument htmlDocument = new HtmlDocument();

htmlDocumentLoad(stream);

return htmlDocument; }

根据@无机の剑的评论用这个属性就解决了(O(∩_∩)O~)

HtmlWeb htmlWeb = new HtmlWeb();

htmlWebOverrideEncoding = EncodingGetEncoding(gb);