文章目录
-
- 1、提取文档内表格型文件
-
- 1.1 说明
- 1.2 站截图
- 1.3 输出结果
- 2、提取表格在附件的文档
-
- 2.1 仅提取正文
- 2.2 提取正文中的链接
- 2.3 针对性提取
- 2.4 针对性提取链接后,访问链接发现输出 页文本乱码
1、提取文档内表格型文件
1.1 说明
1、测试链接为:https://wenku.baidu.com/view/efd468c75fbfc77da269b13e.htmlec_flag=default
2、解析方法:BeautifulSoup
3、提取步骤:表格数据按行提取
1.2 站截图
1、测试链接为:http://www.offcn.com/jiaoshi/2021/0714/458245.html
2、解析方法:BeautifulSoup
3、提取步骤:暂无方案,先试试
2.1 仅提取正文
可以看到xlsx和xls的文件并没有获取到,仅以正文形式表达。
2.2 提取正文中的链接
页中涉及到的链接太多了,结果如下,还有很多,没有全部截上图

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览208539 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!