jupyter notebook-如何使用-有什么中文资料面包板社区

相关博文

Python爬虫学习笔记（7）——淘宝商品信息爬取

热度 26

LoneSurvivor

2017-11-12 09:31

2187 次阅读|

0 个评论

（一）1、功能描述：目标：获取淘宝搜索页面的信息，提取商品名称和价格；理解：淘宝的搜索接口，翻页的处理；技术路线 : requests,re 2、程序的结构设计、步骤1：提交商品搜索请求，循环获取页面；步骤2：对每个页面，提取商品名称和价格信息；（二）代码 import requests import re def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return def parsePage(ilt,html): try: plt = re.findall(r'\view_price\:\ *\',html) tlt = re.findall(r'\raw_title\\:\.*?',html) for i in range(len(plt)): price = eval(plt .split(':') ) title = eval(tlt .split(':') ) ilt.append( ) except: print() def printGoodsList(ilt): tplt = {:4}\t{:8}\t{:16} print(tplt.format(序号,价格,商品名称)) count = 0 for g in ilt: count = count +1 print(tplt.format(count,g ,g )) def main(): goods = 书包 depth = 2; start_url = http://s.taobao.com/search?q= + goods infoList=[] for i in range(depth): try: url = start_url + s= + str(44*i) html = getHTMLText(url) parsePage(infoList,html) except: continue printGoodsList(infoList) 输出结果
Python爬虫学习笔记（8）——股票数据爬虫

热度 19

LoneSurvivor

2017-11-11 17:01

2480 次阅读|

0 个评论

（一）功能描述：目标：获取上交所和深交所所有股票的名称和交易信息；输出：保存到文件技术路线：requests-bs4-re 候选数据网站的选择新浪股票： http://finance.sina.com.cn/stock/ 百度股票： https://gupiao.baidu.com/stock/ 网站选取原则：股票信息静态存在于HTML页面中，非js代码生成，没有robots协议限制；程序的结构设计步骤1：从东方财富网获取股票列表；步骤2：根据股票列表逐个到百度股票获取个股信息；步骤3：将结果存储到文件；（二）代码 import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url,code='utf-8'): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding = code return r.text except: return def getStockList(lst,stockURL): html = getHTMLText(stockURL,'GB2312') soup = BeautifulSoup(html,'html.parser') a = soup.find_all('a') for i in a: try: href = i.attrs lst.append(re.findall(r \d{6},href) ) except: continue def getStockInfo(lst,stockURL,fpath): count = 0 for stock in lst: url = stockURL + stock + .html html = getHTMLText(url) try: if html == : continue infoDict = {} soup=BeautifulSoup(html,'html.parser') stockInfo = soup.find('div',attrs={'class':'stock-bets'}) name = stockInfo.find_all(attrs={'class':'bets-name'}) infoDict.update({'股票名称':name.text.split() }) keyList = stockInfo.find_all('dt') valueList = stockInfo.find_all('dd') for i in range(len(keyList)): key = keyList .text val = valueList .text infoDict = val with open(fpath,'a',encoding='utf-8') as f: f.write(str(infoDict)+'\n') count = count + 1 print(\r当前进度:{:.2f}%.format(count*100/len(lst)),end=) except: traceback.print_exc() continue def main(): stock_list_url = http://quote.eastmoney.com/stocklist.html stock_info_url = https://gupiao.baidu.com/stock/ output_file = H://BaiduStockInfo.txt slist=[] getStockList(slist,stock_list_url) getStockInfo(slist,stock_info_url,output_file) main()
Python爬虫学习笔记（5）——爬取中国大学排名信息

热度 16

LoneSurvivor

2017-11-9 15:18

2218 次阅读|

0 个评论

（一）功能描述输入 : 大学排名 URL 链接输出：大学排名信息的屏幕输出（排名，大学名字，总分）技术路线： requests-bs4 定向爬虫：仅对输入 URL 进行爬取，不扩展爬取程序的结构设计步骤 1 ：从网络上获取大学排名网页内容；getHTMLText() 步骤 2 ：提取网页内容中信息到合适的数据结构；fillUnivList() 步骤 3 ：利用数据结构展示并输出结果；printUnivList() （二）代码实现 import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return def fillUnivList(ulist,html): soup = BeautifulSoup(html,html.parser) for tr in soup.find('tbody').children: if isinstance(tr,bs4.element.Tag): tds = tr('td') ulist.append( .string,tds .string,tds .string]) def printUnivList(ulist,num): print({:^10}\t{:^6}\t{:^10}.format(排名,学校名字,所在地)) for i in range(num): u = ulist print({:^10}\t{:^6}\t{:^10}.format(u ,u ,u )) def main(): uinfo = [] url = http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html html = getHTMLText(url) fillUnivList(uinfo,html) printUnivList(uinfo,20) main() 输出效果（三）中文对齐的原因当中文字符宽度不够时，采用西文字符填充；中西文字符占用的宽度不同。采用中文字符的空格填充 chr(12288)
Python爬虫学习笔记（4）——信息组织和提取

热度 18

LoneSurvivor

2017-11-9 09:02

1197 次阅读|

0 个评论

YAML: 信息无类型，文本信息比例最高，可读性好（一）信息的标记标记后的信息可以形成信息组织结构，增加了维度；标记后的信息可以用于通信、存储或展示；标记的结构与信息一样具有重要的价值； 1、XML XML: 最早的通用标记语言，可扩展性好，但是繁琐； Internet 上的信息交互与传递； 2、JSON JSON: 信息有类型，适合程序处理，较 XML 简洁；移动应用云端和节点的信息通信，无注释； 3、YAML YAML:信息无类型，文本信息比例最高，可读性好各类系统的配置文件，有注释易读 (二)信息的提取方法一：完整解析信息的标记形式，再提取关键信息。需要标记解析器，例如： bs4 库的标签树遍历；优点：信息解析准确；缺点：提取过程繁琐，速度慢方法二：无视标记形式，直接搜索关键信息测试代码 1、.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型，存储查找结果。（1） name: 对标签名称的检索字符串（2）attrs: 对标签属性值检索的字符串，可标注属性检索（3）recursive: 是否对子孙全部检索，默认 True （4）string: …/ 中字符串区域的检索字符串
Python爬虫学习笔记（3）——Beautiful Soup 库

热度 18

LoneSurvivor

2017-11-8 19:16

1357 次阅读|

0 个评论

Beautiful Soup 可以对 html,xml 格式进行解析并且提取相关的信息。参考链接： https://www.crummy.com/software/BeautifulSoup/ （一）Beautiful Soup的使用 from bs4 import BeautifulSoup soup = BeautifulSoup(‘pdata/p’,’html.parser’) 测试代码（二）Beautiful Soup 库解析器 Beautiful Soup 类的基本元素测试代码（三）用bs4库遍历HTML 1、HTML基本格式 2、标签数的下行遍历（1）head标签（2）body标签（3）遍历儿子节点 3、标签树的上行遍历测试代码 4、标签树的平行遍历平行遍历发生在同一个父节点下测试代码（四）bs4库的HTML格式化和编码 bs4库将任何读入的HTML代码和字符串转换为utf-8编码

更多...

标签: jupyter notebook