原创 Python爬虫学习笔记（5）——爬取中国大学排名信息

 2017-11-9 15:18  2181 16 16 分类: 软件与OS

（一）功能描述

输入:大学排名URL链接

输出：大学排名信息的屏幕输出（排名，大学名字，总分）

技术路线：requests-bs4

定向爬虫：仅对输入URL进行爬取，不扩展爬取

程序的结构设计

步骤1：从网络上获取大学排名网页内容；getHTMLText()

步骤2：提取网页内容中信息到合适的数据结构；fillUnivList()

步骤3：利用数据结构展示并输出结果；printUnivList()

（二）代码实现

import requests

import bs4

from bs4 import BeautifulSoup



def getHTMLText(url):

    try:

        r = requests.get(url,timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return ""



def fillUnivList(ulist,html):

    soup = BeautifulSoup(html,"html.parser")

    for tr in soup.find('tbody').children:

        if isinstance(tr,bs4.element.Tag):

            tds = tr('td')

            ulist.append([tds[0].string,tds[1].string,tds[2].string])



def printUnivList(ulist,num):

    print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名字","所在地"))

    for i in range(num):

        u = ulist

        print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))



def main():

    uinfo = []

    url = "http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html"

    html = getHTMLText(url)

    fillUnivList(uinfo,html)

    printUnivList(uinfo,20)



main()

输出效果

（三）中文对齐的原因

当中文字符宽度不够时，采用西文字符填充；中西文字符占用的宽度不同。

采用中文字符的空格填充chr(12288)

python 爬虫 jupyter notebook 博客大赛

写原创有奖励！2025面包板原创奖励正在进行中

最新发表 推荐阅读 明星博主 原创博文 年度排行 博文排行博文评论 FPGA/CPLD MCU/ 嵌入式模拟电源/新能源测试测量通信智能手机处理器与DSP PCB 汽车电子消费电子智能硬件物联网软件与OS 采购与分销供应链管理工程师职场 EDA/ IP/ 设计与制造无人机机器人/ AI 医疗电子工业电子管理


 写博文

 点赞（16）

 收藏

分享到： 
 

上一篇： Python爬虫学习笔记（4）——信息组织和提取

下一篇： Python爬虫学习笔记（6）——正则表达式

PARTNER CONTENT

换一换> 更多>

提升汽车电子浪涌耐受性：SWM+TVS解决方案通过ISO 16750-2 Pulse 5a测试

firstohm 2025-04-14

AI时代的氮化镓：市场与技术将走向何方？

黄烨锋 2025-04-24

文章评论（0条评论）
登录后参与讨论

您需要登录后才可以评论登录 | 立即注册

LoneSurvivor 明星博主

文章：49 阅读：140926 评论：10 赞：931

一入通信深似海，从此红颜是路人

 好友  私信个人主页

一入通信深似海，从此红颜是路人

文章 49

原创 0

阅读 140926

评论 10

赞 931

个人文集

信号与系统学习笔记 (4)

matlab学习笔记 (4)

Python爬虫学习笔记 (2)

C++学习记录（1） (8)

最新评论更多

bruce小肥羊 : 没有低音的，只有靠硬拉EQ的假低音，出量大，赚钱。低音如何理解呢

liweicheng 评论博文 2025-5-7

【拆解】无线入耳式蓝牙耳机，从浅到深的认 ...

感谢分享，奖励30E币

eeNick 评论博文 2025-5-7

二位半 5线数码管的驱动方法

运气不错，拆坏了还能发表文章

bruce小肥羊 ... 评论博文 2025-5-7

【拆解】+华为Freebuds pro 耳机拆解 ...

最新博文

紫光展锐全新奇迹手游引擎，开启游戏 ...

车载AI算力需求激增，紫光国芯车规级L ...

快速上手！Air8000核心板G-sensor开发 ...

资料下载

本周热帖

色环电阻表

CD4017数据手册

ROIC

[鸟哥的Linux私房菜：服务器架设篇(第 ...

【Winform+WPF】喷涂工艺SCADA采集监 ...

雪崩二极管：汽车电子系统中的关键光 ...

激光导热系数的原理及案例 ...

聚焦离子束技术在透射电子显微镜样品 ...

高速接口如何选用低电容MDDTVS管？信 ...

不同材料的 EBSD 样品制备方法 ...

最新资讯

芯语最新

扔掉复杂触发器！仅用两个反相器实现 ...

ADAS 系统中的传感器创新如何在道路 ...

希荻微实控人戴祖渝因病去世，曾以 57 ...

黄仁勋：失之可惜！未来几年中国AI芯 ...

苹果将调整 iPhone 发布策略，上下半 ...

面向电-光神经接口的透明超薄金μECoG ...

睿创微纳：坚持红外热成像全产业链布 ...

电化学传感器微电极及生理指标监测 ...

基于梯度超构表面接触的光电探测器， ...

基于剪纸变形的超构表面反常波束控制 ...

EE直播间
更多

中小数字IC云仿真加速方案：弹性资源与验证效率提升直播时间： 05月22日 10:00

在线研讨会
更多

ADMT4000重新定义多圈编码器设计

NSSine™系列实时控制MCU在数字电源和电机控制领域的应用

ST 在大功率热管理系统中的电机控制系统方案（AI 数据中心/暖通空调/电池储能系统/变频制冷）

利用氮化镓技术打造高效电机驱动——人形机器人、无人机与电动汽车应用

热门推荐

万亿市场风口怎么抓？5场研讨会解锁3D IC设计“通关秘籍”
STM32玩转机械手：边缘AI开发的实战课！
AI数据中心过热？ST 10kW压缩机方案让液冷系统效能翻倍
TOLG 技术采用超紧凑的海鸥翼式引脚设计

我要评论

 0

 16



 分享到微信

 分享到微博

 分享到QQ

 点击右上角，分享到朋友圈我知道啦

请使用浏览器分享功能我知道啦

关闭站长推荐 /3

2025第1期拆解活动：赢示波器、运动相机、热像仪等！

示波器、影石运动全景相机、大疆无人机、高清红外热成像仪；树莓派5等等

泰克示波器五折来袭！

泰克限时五折！全球示波器用户狂欢，软件升级超值优惠，速抢！

【2025面包板社区内容狂欢节】发文、回帖赢20万E币！

活动时间：即日起——2025年全年（发完20万E币为止！）

原创 Python爬虫学习笔记（5）——爬取中国大学排名信息

文章评论（0条评论）