原创 Python爬虫学习笔记（8）——股票数据爬虫

 2017-11-11 17:01  2478 19 19 分类: 软件与OS

（一）

功能描述：

目标：获取上交所和深交所所有股票的名称和交易信息；

输出：保存到文件

技术路线：requests-bs4-re

候选数据网站的选择

新浪股票：http://finance.sina.com.cn/stock/
百度股票：https://gupiao.baidu.com/stock/

网站选取原则：

股票信息静态存在于HTML页面中，非js代码生成，没有robots协议限制；

程序的结构设计

步骤1：从东方财富网获取股票列表；

步骤2：根据股票列表逐个到百度股票获取个股信息；

步骤3：将结果存储到文件；

（二）代码

import requests

from bs4 import BeautifulSoup

import traceback

import re



def getHTMLText(url,code='utf-8'):

    try:

        r = requests.get(url,timeout=30)

        r.raise_for_status()

        r.encoding = code

        return r.text

    except:

        return ""



def getStockList(lst,stockURL):

    html = getHTMLText(stockURL,'GB2312')

    soup = BeautifulSoup(html,'html.parser')

    a = soup.find_all('a')

    for i in a:

        try:

            href = i.attrs['href']

            lst.append(re.findall(r"[hz]\d{6}",href)[0])

        except:

            continue



def getStockInfo(lst,stockURL,fpath):

    count = 0

    for stock in lst:

    url = stockURL + stock + ".html"

    html = getHTMLText(url)

    try:

        if html == "":

        continue

        infoDict = {}

        soup=BeautifulSoup(html,'html.parser')

        stockInfo = soup.find('div',attrs={'class':'stock-bets'})

     

        name = stockInfo.find_all(attrs={'class':'bets-name'})[0]

        infoDict.update({'股票名称':name.text.split()[0]})



        keyList = stockInfo.find_all('dt')

        valueList = stockInfo.find_all('dd')

        for i in range(len(keyList)):

            key = keyList.text

            val = valueList.text

            infoDict[key] = val



            with open(fpath,'a',encoding='utf-8') as f:

                f.write(str(infoDict)+'\n')

                count = count + 1

                print("\r当前进度:{:.2f}%".format(count*100/len(lst)),end="")



    except:

        traceback.print_exc()

        continue



def main():

    stock_list_url = "http://quote.eastmoney.com/stocklist.html"

    stock_info_url = "https://gupiao.baidu.com/stock/"

    output_file = "H://BaiduStockInfo.txt"

 

    slist=[]

    getStockList(slist,stock_list_url)

    getStockInfo(slist,stock_info_url,output_file)



main()

python 爬虫 jupyter notebook 博客大赛

写原创有奖励！2025面包板原创奖励正在进行中

最新发表 推荐阅读 明星博主 原创博文 年度排行 博文排行博文评论 FPGA/CPLD MCU/ 嵌入式模拟电源/新能源测试测量通信智能手机处理器与DSP PCB 汽车电子消费电子智能硬件物联网软件与OS 采购与分销供应链管理工程师职场 EDA/ IP/ 设计与制造无人机机器人/ AI 医疗电子工业电子管理


 写博文

 点赞（19）

 收藏

分享到： 
 

上一篇： Python爬虫学习笔记（7）——淘宝商品信息爬取

下一篇： matlab学习笔记（1）——Array Indexing

PARTNER CONTENT

换一换> 更多>

文章评论（0条评论）
登录后参与讨论

您需要登录后才可以评论登录 | 立即注册

LoneSurvivor 明星博主

文章：49 阅读：143318 评论：10 赞：932

一入通信深似海，从此红颜是路人

 好友  私信个人主页

一入通信深似海，从此红颜是路人

文章 49

原创 0

阅读 143318

评论 10

赞 932

个人文集

信号与系统学习笔记 (4)

matlab学习笔记 (4)

Python爬虫学习笔记 (2)

C++学习记录（1） (8)

最新评论更多

分析很细，原理图，芯片原理图，产品设计，产品结构，大师之作

琳评论博文 2025-7-2

【拆解】+Trimmer 毛球修剪拆解

https://www.supramania.com/threads/quick-and-simple-solutions-how-to-change-name-on-jetblue-airlines-ticket.313407/ ...

用户1751410 ... 评论博文 2025-7-2

VirtualLab Fusion应用：畸变分析仪 ...

https://www.supramania.com/threads/quick-and-simple-solutions-how-to-change-name-on-jetblue-airlines-ticket.313407/ ...

用户1751410 ... 评论博文 2025-7-2

OCAD应用：菲涅尔透镜初始结构设计 ...

最新博文

PanDao中离轴非球面表面参数设置 ...

如何在PanDao中定义非圆形圆周透镜？ ...

VirtualLab Fusion中导入自由曲面数据 ...

资料下载

本周热帖

初级无刷电机设计学习资料 ...

无刷电机资料大全（基本原理+接线方法 ...

无刷电机原理图大全

【伺服驱动器用户手册、电熔胶调试指 ...

【说明书、用户手册】富士伺服系统 ...

一文搞懂UVA、UVB、UVC、UVD的区别与 ...

从开关速度看MOSFET在高频应用中的性 ...

基于SiC的熔丝保护高压电气系统 ...

《电感应用分析精粹：从磁能管理到开 ...

元器件选型的基本要求

最新资讯

芯语最新

MRAM和ReRAM关注汽车级机遇

哪吒汽车继续“自救”，公开招募意向 ...

SEMI预测：2030年半导体行业将面临100 ...

41 家企业同日获受理，摩尔线程、沐曦 ...

传大联大计划重组？回应来了…… ...

（干货）开关电源纹波是什么？如何测 ...

车载充电机OBC原理及样机拆机分析 ...

我国光伏行业最大的“乌龙事件”：耗 ...

包含9个项目表，4张项目地图及5份年度 ...

传台积电美国3nm晶圆厂基建完工，预计 ...

EE直播间
更多

全面搞懂介电常数那些事儿直播时间： 07月03日 10:00

在线研讨会
更多

利用先进精密仪器仪表解决方案，优化研发并加快产品上市

AI 巨型芯片，性能越强，测试越难，如何破局？

Mercury基于展频技术的医疗时钟EMI抑制方案

ST 在大功率热管理系统中的电机控制系统方案（AI 数据中心/暖通空调/电池储能系统/变频制冷）

热门推荐

TI 汽车ADAS全域方案解密
WAIC重磅专场|从云端到机器人，深度揭秘Arm CSS如何重塑AI基础设施
剖析5年后的自动驾驶技术
自动驾驶的半导体基石