原创 Python爬虫学习笔记（7）——淘宝商品信息爬取

 2017-11-12 09:31  2169 26 26 分类: 软件与OS

（一）1、功能描述：

目标：获取淘宝搜索页面的信息，提取商品名称和价格；

理解：淘宝的搜索接口，翻页的处理；

技术路线: requests,re

2、程序的结构设计、

步骤1：提交商品搜索请求，循环获取页面；

步骤2：对每个页面，提取商品名称和价格信息；

（二）代码

import requests

import re



def getHTMLText(url):

    try:

        r = requests.get(url,timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return ""





def parsePage(ilt,html):

    try:

        plt = re.findall(r'\"view_price"\:\"[\d\.]*\"',html)

        tlt = re.findall(r'\"raw_title\"\:\".*?"',html)

        for i in range(len(plt)):

        price = eval(plt.split(':')[1])

        title = eval(tlt.split(':')[1])

        ilt.append([price,title])

    except:

        print("")



def printGoodsList(ilt):

    tplt = "{:4}\t{:8}\t{:16}"

    print(tplt.format("序号","价格","商品名称"))

    count = 0

    for g in ilt:

        count = count +1

        print(tplt.format(count,g[0],g[1]))



def main():

    goods = "书包"

    depth = 2;

    start_url = "http://s.taobao.com/search?q=" + goods

    infoList=[]

    for i in range(depth):

    try:

        url = start_url + "&s=" + str(44*i)

        html = getHTMLText(url)

        parsePage(infoList,html)

    except:

        continue



printGoodsList(infoList)

输出结果

python 爬虫 jupyter notebook 博客大赛

写原创有奖励！2025面包板原创奖励正在进行中

最新发表 推荐阅读 明星博主 原创博文 年度排行 博文排行博文评论 FPGA/CPLD MCU/ 嵌入式模拟电源/新能源测试测量通信智能手机处理器与DSP PCB 汽车电子消费电子智能硬件物联网软件与OS 采购与分销供应链管理工程师职场 EDA/ IP/ 设计与制造无人机机器人/ AI 医疗电子工业电子管理


 写博文

 点赞（26）

 收藏

分享到： 
 

上一篇： Python爬虫学习笔记（6）——正则表达式

下一篇： Python爬虫学习笔记（8）——股票数据爬虫

PARTNER CONTENT

换一换> 更多>

ST移动安全解决方案：构建全场景安全连接生态

赵明灿 2025-05-12

文章评论（0条评论）
登录后参与讨论

您需要登录后才可以评论登录 | 立即注册

LoneSurvivor 明星博主

文章：49 阅读：142111 评论：10 赞：931

一入通信深似海，从此红颜是路人

 好友  私信个人主页

一入通信深似海，从此红颜是路人

文章 49

原创 0

阅读 142111

评论 10

赞 931

个人文集

信号与系统学习笔记 (4)

matlab学习笔记 (4)

Python爬虫学习笔记 (2)

C++学习记录（1） (8)

最新评论更多

https://github.com/housefull5-fily-hub https://github.com/housefull5-fir-mos https://github.com/bhairavam-fily- ...

用户1748644 ... 评论博文 2025-5-31

EDNchina单片机实验板测试程序--发音实验 ...

https://viajes2025.zohodesk.com/portal/en/kb/articles/completa-oferta-guia-c%C3%B3mo-hablar-con-una-persona-en-american ...

用户1748598 ... 评论博文 2025-5-30

EDNchina单片机实验板测试程序--发音实验 ...

https://viajes2025.zohodesk.com/portal/en/kb/articles/completa-oferta-guia-c%C3%B3mo-hablar-con-una-persona-en-american ...

用户1748598 ... 评论博文 2025-5-30

MSP430读写flash程序

最新博文

【拆解】一款戴尔台式电脑主机，体积 ...

Kinaxis携人工智能驱动的供应链突破性 ...

TSN网络原型：从技术验证到未来愿景 ...

资料下载

本周热帖

基于分布式电源的配电网单相接地故障 ...

并联谐振型感应电源逆变桥故障诊断方 ...

X射线仪用高压直流电源设计研究 ...

如何通吃所有单片机？关键在这三点.pd ...

极简高效学习Python的秘诀.pdf ...

【Milk-V Duo 开发板】+0)品牌背景调 ...

服务与数据的双螺旋：从SOME/IP到DDS ...

聚焦离子束技术：原理、特性与应用 ...

探索电子背散射衍射（EBSD）：基础原 ...

老文章新视角：从静态测试到CI/CT生态 ...

最新资讯

芯语最新

老黄炼成的“AI电脑”帝国：从GeForce ...

从芯片到云端：Nordic打造低功耗无线 ...

AI眼镜，需要什么样的SoC方案？ ...

惠普涨价并加速离华，应对关税重压 ...

苹果最新研究：AirPods将有望利用AI模 ...

工信部、中汽协接连表态：“内卷式” ...

增值率421%！纳睿雷达拟跨界收购天津 ...

优迅股份柯腾隆：光通信电芯片出货量 ...

给超低噪音的LDO再加一个RC滤波器合适 ...

布里斯托大学团队实现 GaN 突破 ...

EE直播间
更多

常用电测仪表的校准展示直播时间： 06月20日 10:00

Keysight World Tech Day 线上直播-AI 驱动的超高速传输测试分论坛直播时间： 06月26日 13:30

材料介电常数的精确表征和测试直播时间： 07月03日 10:00

在线研讨会
更多

NSSine™系列实时控制MCU在数字电源和电机控制领域的应用

ADI人形机器人解决方案

ST 在大功率热管理系统中的电机控制系统方案（AI 数据中心/暖通空调/电池储能系统/变频制冷）

Mercury基于展频技术的医疗时钟EMI抑制方案

热门推荐

医疗时钟EMI抑制，专家揭秘，工程师速看！
3D IC设计卡在哪儿？5场研讨会揭秘3DIC全攻略
揭秘：新一代半导体器件如何提升测试电源的性能
热管理技术新标杆：ST维也纳PFC与FOC控制方案深度解析