Python提取信息测试

文章目录

    • 1、提取文档内表格型文件
      • 1.1 说明
      • 1.2 站截图
      • 1.3 输出结果
    • 2、提取表格在附件的文档
      • 2.1 仅提取正文
      • 2.2 提取正文中的链接
      • 2.3 针对性提取
      • 2.4 针对性提取链接后,访问链接发现输出 页文本乱码

1、提取文档内表格型文件

1.1 说明

1、测试链接为:https://wenku.baidu.com/view/efd468c75fbfc77da269b13e.htmlec_flag=default
2、解析方法:BeautifulSoup
3、提取步骤:表格数据按行提取

1.2 站截图

1、测试链接为:http://www.offcn.com/jiaoshi/2021/0714/458245.html
2、解析方法:BeautifulSoup
3、提取步骤:暂无方案,先试试

2.1 仅提取正文

可以看到xlsx和xls的文件并没有获取到,仅以正文形式表达。

2.2 提取正文中的链接

页中涉及到的链接太多了,结果如下,还有很多,没有全部截上图

Python提取信息测试

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览208539 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年1月20日
下一篇 2022年1月20日

相关推荐