Google 在一年一度的 Google Cloud Next 大会上,重磅推出新一代机器学习产品:Cloud AutoML,大幅降低企业进入机器学习的门槛。以 Cloud AutoML Vision 为例,Google 在机器学习领域深耕已久,熟悉各种机器学习模型所适合分析的照片类型,即便您没有足够的机器学习开发人员,也可以透过 Cloud AutoML 训练客制化模型!
这篇文章将带您了解,如何快速启用 Google 最新一代产品:Cloud AutoML。

事先淮备
1. 选定 Project 并确定有启用 Billing account
2. 开启 Cloud AutoML 以及 Storage 的 API

创立一个 Cloud Storage Bucket
1. 进到该 Project 并打开 Cloud Shell
2. 在 Cloud Shell 输入以下指令
PROJECT=$(gcloud config get-value project) && BUCKET="${PROJECT}-vcm"
3. 创建 bucket
gsutil mb -p ${PROJECT} -c regional -l us-central1 gs://${BUCKET}
赋予 AutoML service account 权限
1. 在 Cloud Shell 输入以下指令
PROJECT=$(gcloud config get-value project)gcloud projects add-iam-policy-binding $PROJECT \   --member="serviceAccount:custom-vision@appspot.gserviceaccount.com" \   --role="roles/ml.admin"gcloud projects add-iam-policy-binding $PROJECT \   --member="serviceAccount:custom-vision@appspot.gserviceaccount.com" \   --role="roles/storage.admin"
複製范例图片库到 bucket
1. 从 GCP 提供的 public Cloud Storage bucket, 複製范例的 Dataset 到刚刚创立的 bucket。複製时间大约 20 分钟,在 Cloud Shell 输入以下指令
gsutil -m cp -R gs://cloud-ml-data/img/flower_photos/ gs://${BUCKET}/img/
帮图片库建立专属的 CSV 档案
1. 范例的 Dataset 有一个 CSV 档案,内容包括每张图片的绝对位址以及标籤(label)。将范例 CSV 当中的档案路径的 bucket 部分置换成上述建立的 bucket:
gsutil cat gs://${BUCKET}/img/flower_photos/all_data.csv | sed "s:cloud-ml-data:${BUCKET}:" > all_data.csv
2. 複製刚刚新创立的 CSV 档案至 bucket
gsutil cp all_data.csv gs://${BUCKET}/csv/
创立自己的图片库
1. 进入到 AutoML Vision 的页面
2. 点选 New Dataset,如下图


3. 填写 Dataset 的名称

4. 下方有两种汇入图片的方法(每种标籤(label)建议最少 100张图片),或是可以先选择略过
   –  从本地端上传图片,支援 JPEG, PNG, ZIP (每次上传最高 500张图片)
   –  从 Cloud Storage 汇入图片库,填入该 csv 的 URL。例如 gs://your-project-123-vcm/csv/all_data.csv , your-project-123 就是 bucket 处在的 project

5. 假如有图片是有一个以上的标籤(label),请勾选 Enable multi-label classification
6. 选择完毕后点选 CREATE DATASET,需要几分钟的时间汇入图片库。完成后会导入到下一个页面,会显示所有有标籤以及没有标籤的图片,并可以依照标籤来过滤图片,如

下图。
开始训练模型
1. 点选导览列的 TRAIN,如下图
2. 可以选择训练多久,会根据 vision compute hour 来计价。
3. 点选 START TRAINING 开始训练。通常训练一个模型需要十几分钟,训练完成或是有 Error 产生都会透过邮件告知使用者。
4. 训练完毕后如下图:
5. 备注:可以透过 UI 介面删减不适合的图片、增加训练的时间来增加淮确率。
训练数据
1. 点选 EVALUATE 查看训练的结果,可以查看各模型建立时间、照片的数量、标籤的数量以及训练的淮确度、召回率。对照不同训练模型,选出淮确率最高的,如下图

2. 下方有一个 Confusion Matrix,透过这张图表可以看到哪些图片是机器容易出错误的,可以再针对特定标籤的图片做一些更新。如下图。
判断图片
1. 点选导览列的 PREDICT
2. 上传图片后即会出现结果,第一次上传会花比较长的时间让模型暖机。结果如下图,右方是上传图片的输出结果,即上传的图片是机器判断某类标籤 (label) 的信心分数(0~1)。