核心代码
requests.get 下载html 页
bs4.BeautifulSoup 分析html内容
爬取标题
>>> for i,news in enumerate(SinaNews(1)):
print(f’No{i+1}:’,news[0])
No1: 外媒:*****
No2: 日媒:******
………….
内容已马赛克!!!
>>>
首次做爬虫,为了方便下手找一个不用破解 页的某新闻 站,下载 页就能直接取得内容。其中的国际、国内和军事新闻三个 页作内容源,requests.get下载 页后,分析所得html文本,所有标记带日期刚好所需要的。
爬取正文
界面代码
使用内置的图形界面库 tkinter 控件 Text 、Listbox、Scrollbar、Button。设置基本属性、放置位置、绑定命令,然后调试到程序完工!
源代码 News.pyw :其中涉及的 站名称已马赛克!
奉上全部代码,在此就不作详细分析了,如有需要请留言讨论。我的使用环境 Win7+Python3.8.8 下可以无错运行!文中涉及 站名称已打上马赛克,猜不出名字的可以私下里问我。
软件编译
使用pyinstaller.exe编译成单个运行文件,注意源码文件的后缀名应该用.pyw否则会有cmd黑窗口出现。还有一个小知识点,任意 站的Logo图标icon文件,一般都能在根目录里下载到,即:
http(s)://websiteurl.com(.cn)/favicon.ico
编译命令如下:
D:>pyinstaller –onefile –nowindowed –icon=”D:favicon.ico” News.pyw
编译完成后,在dist文件夹下生成一个News.exe可执行文件,大小约15M还能接受。
反正拿走就能直接用,临走前给个一键三连吧,谢谢!
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览212244 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!