使用lxml.etree解析中文网页时出现乱码问题的解决办法

吐槽

不得不说网络这个东西害死人，一群只会复制粘贴的瓜皮儿。没一点有用的答案，还要写的像模像样装x

这个问题折腾了一个晚上，晚上找了各种方案，都是相互抄，然而都不能解决问题，找的过程中看到一个博主发出了这样的感慨，真的深表赞同啊，鱼目混杂的内容太多了。

lxml.etree.tostring 乱码的解决方案

话不多说，直接show code，很简单的一个示例代码。这里的关键是to string时用utf-8编码，然后用utf-8解码。

#!env python3
from urllib.request import urlopen
from lxml import etree

#读取baidu.com并解析
htmlFile = urlopen('http://www.baidu.com').read()
html = etree.HTML(htmlFile)

#获取title标签
htmlTitle = html.xpath( "//title")[0]

# to string 并打印
strTitle = etree.tostring(htmlTitle, encoding = "utf-8").decode("utf-8") # encoding和decode一个都不能少。
print(strTitle)

如果采用了上述方案还是乱码，请看这里

如果baidu.com能够正常显示中文，但是你的html解析出来中文还是乱码，那么这个时候很有可能是你的html有问题

下面是一个解析不会乱码的html示范。

<!Doctype html>
<html>

<head>
<!--下面的这个<meta>标签内容一个字都不能少，不然妥妥的乱码！！！
	建议放在<head>标签的开头，或者<html>标签的开头-->
<meta http-equiv=Content-Type content="text/html;charset=utf-8">  
</head>

<title>中文不乱码之终极奥义</title>
<body>哈哈哈哈哈哈哈哈哈老子终于成功了！！！！</body>
</html>

检查一下你的html是否有完整的<meta http-equiv=Content-Type content="text/html;charset=utf-8">，没有的话自己手动加上吧，如果手动添加不方便或者是html文件太多，可以直接解析之前通过代码添加，添加方式如下：

#!env python3
from lxml import etree

testhtml = open("baidu.html","r").read()
root = etree.HTML(testhtml)

#创建meta标签Element
attrs = {}
attrs["http-equiv"] = "Content-Type"
attrs["content"] = "text/html;charset=utf-8"
meta = etree.Element("meta", **attrs)

#插入到html的开头
root.insert(0, meta)

#to string并打印
strHtml = etree.tostring(root, encoding = "utf-8", pretty_print = True, method = "html").decode("utf-8")
print(strHtml)

使用lxml.etree解析中文网页时出现乱码问题的解决办法

吐槽

lxml.etree.tostring 乱码的解决方案

如果采用了上述方案还是乱码，请看这里

The End

See Also

订阅

分类

最近文章

标签