web前端

位置:IT落伍者 >> web前端 >> 浏览文章

HtmlAgilityPack 抓取页面的乱码处理


发布日期:2019年11月15日
 
HtmlAgilityPack 抓取页面的乱码处理

利用HtmlAgilityPack抓取页面很方便但是当页面是gb编码时候就会出现乱码上网查了一下说是默认的获取页面方法不够成熟具体什么的我也不知道姑且就认为是不够成熟吧

HtmlWeb htmlWeb = new HtmlWeb();

HtmlDocument htmlDocument = htmlWebLoad(@url);

解决方法如下

新建一个方法来获取 HtmlDocument传进来的是抓取页面的地址

private static HtmlDocument GetHtmlDocument(string url)

{

HttpWebRequest (new Uri(@url)) as HttpWebRequest; = GET; WebResponse webResponse = ();

Stream stream = webResponseGetResponseStream();

HtmlDocument htmlDocument = new HtmlDocument();

htmlDocumentLoad(stream);

return htmlDocument; }

根据@无机の剑 的评论用这个属性就解决了(O(∩_∩)O~)

HtmlWeb htmlWeb = new HtmlWeb();

htmlWebOverrideEncoding = EncodingGetEncoding(gb);

上一篇:TinyXML中节点和元素的关系

下一篇:XML文件上传技术