python 络爬虫文档读取-微软Word文档和.docx

2017年9月7日下午1:31 • 软件开发

大约在2008年以前，微软Office产品中的Word用.doc文件格式。这种二进制格式很难读取，而且能够读取word格式软件很少。为了跟上时代，让自己的软件能够符合主流软件的标准，微软决定使用Open Office的类XML格式标准，此后新版Word文件才与其他文字处理软件兼容，这个格式就是.docx。

不过Python对这种Google Docs，Open Office和Microsoft Office都在使用的.docx格式支持还不够好。虽然有一个python-docx库，但是只支持创建新文档和读取一些基本的文件数据，如文件大小和文件标题，不支持正文读取。如果想要从Microsoft Office文件的正文内容，我们需要自己动手找方法：

第一步是从文件读取XML：

程序执行结果如下：

在此处需要注意一个问题，因为此处是先将word文档转换为xml文档，所以在使用BeautifulSoup进行文档内容解析的时候，需要执行解析器的xml，这样findAll才能正常执行。不可以不指定。

执行结果如下：

python 络爬虫文档读取-微软Word文档和.docx

你会看到这里docx单独一行，这是因为在原始的XML里，它是由<w:proofErr w_type=”spellStart”/>标签包围的。这是Word用红色波浪线高亮显示”docx”的方式，提示这个词可能拼写错误。

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib208411 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

python 络爬虫文档读取-微软Word文档和.docx

相关推荐