答:我要DIY一个小巧便携的小电脑
目录:
上贴介绍一个YOLO-S的模型,但是内窥镜自然要识别点不一样的嘛,搜来搜去也没找到一个合适模型。
然后自己从git拉了代码,自己想去训练,模型人家提供了数据的话,我想的工业内窥镜,自然也要自己去训练一个自己的模型。
训练模型就要有数据,于是我就写了一段爬虫代码,从网上找了一个网站想着爬取一些图片,找到了一个luomu网。
看了图片还挺清楚的,就决定爬一下。
import requests
import re
import parsel
import os
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'}
url = '目标网址'
if not os.path.exists('luomu'):
os.makedirs('luomu')
response = requests.get(url=url,headers=headers)
# print(response.content)
selector = parsel.Selector(response.text)
# print(selector)
img_urls = selector.xpath('//*[@id="post-list"]/ul/li')
# img_names = selector.xpath('//*[@id="post-list"]/ul/li/div/div[2]/h2/a')
for img_url in img_urls:
img_name= img_url.xpath('.//div/div[2]/h2/a/text()').get()
print(img_name)
img_url = str.split(img_urls.xpath('//div/div[1]/a/picture/img/@data-src').get(),'?')[0]
print(img_url)
img_data = requests.get(url=img_url,headers=headers).content
with open('luomu/'+img_name.replace('/','_')+'.jpg',mode='wb') as f:
f.write(img_data)
复制代码如果想要直接能跑的就附件直接下呗,但是爬虫这个东西呢,别天天爬,给人家服务器增加压力,也不要做一些违法违规的事情哈。
技术其实是很简单的,找到对应标签对应图片的src 然后get一下就好啦。
奥对了,这里打个小小广告,要是各位群友有爬虫的需求可以联系我,无论是静态还是js的或者模拟网页的爬虫,小弟都会哈。
然而我还是忒年轻了,本来是看螺母挺不错,就想着我其他的螺丝,钉子都能搞定。结果这个网站就只有螺母,其他都是空空的。
不得不说,一个经验教训就是 先要看清你要爬的网站,再去动手,要不他网站空空如也那你费时费力开发出代码就亏大发啦。
但是就爬了这么点,还是远远不够,我又盯上了得捷电子的网站,
所以就是未完待续啦。