-
Notifications
You must be signed in to change notification settings - Fork 4
/
Google 的机器学习术语表.csv
We can make this file beautiful and searchable if this error is corrected: Illegal quoting in line 1.
1174 lines (1116 loc) · 119 KB
/
Google 的机器学习术语表.csv
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
A/B 测试 (A/B testing) (Google 的机器学习术语表)|"
<p>一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术和衡量方式。</p>
"
准确率 (accuracy) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#classification_model""><strong>分类模型</strong></a>的正确预测所占的比例。在<a href=""https://developers.google.com/machine-learning/glossary/#multi-class""><strong>多类别分类</strong></a>中,准确率的定义如下:</p>
<div>
[$$]\text{准确率} = \frac{\text{正确的预测数}} {\text{样本总数}}[/$$]
</div>
<p>在<a href=""https://developers.google.com/machine-learning/glossary/#binary_classification""><strong>二元分类</strong></a>中,准确率的定义如下:</p>
<div>
[$$]\text{准确率} = \frac{\text{正例数} + \text{负例数}} {\text{样本总数}}[/$$]
</div>
<p>请参阅<a href=""https://developers.google.com/machine-learning/glossary/#TP""><strong>正例</strong></a>和<a href=""https://developers.google.com/machine-learning/glossary/#TN""><strong>负例</strong></a>。</p>
"
激活函数 (activation function) (Google 的机器学习术语表)|"
<p>一种函数(例如 <a href=""https://developers.google.com/machine-learning/glossary/#ReLU""><strong>ReLU</strong></a> 或 <a href=""https://developers.google.com/machine-learning/glossary/#sigmoid_function""><strong>S 型函数</strong></a>),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。</p>
"
AdaGrad (Google 的机器学习术语表)|"
<p>一种先进的梯度下降法,用于重新调整每个参数的梯度,以便有效地为每个参数指定独立的<a href=""https://developers.google.com/machine-learning/glossary/#learning_rate""><strong>学习速率</strong></a>。如需查看完整的解释,请参阅<a href=""http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf"">这篇论文</a>。</p>
"
ROC 曲线下面积 (AUC, Area under the ROC Curve) (Google 的机器学习术语表)|"
<p>一种会考虑所有可能<a href=""https://developers.google.com/machine-learning/glossary/#classification_threshold""><strong>分类阈值</strong></a>的评估指标。</p>
<p><a href=""https://developers.google.com/machine-learning/glossary/#ROC"">ROC 曲线</a>下面积是,对于随机选择的正类别样本确实为正类别,以及随机选择的负类别样本为正类别,分类器更确信前者的概率。</p>
"
反向传播算法 (backpropagation) (Google 的机器学习术语表)|"
<p>在<a href=""https://developers.google.com/machine-learning/glossary/#neural_network""><strong>神经网络</strong></a>上执行<a href=""https://developers.google.com/machine-learning/glossary/#gradient_descent""><strong>梯度下降法</strong></a>的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的<a href=""https://en.wikipedia.org/wiki/Partial_derivative"">偏导数</a>。</p>
"
基准 (baseline) (Google 的机器学习术语表)|"
<p>一种简单的<a href=""https://developers.google.com/machine-learning/glossary/#model""><strong>模型</strong></a>或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。</p>
"
批次 (batch) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#model_training""><strong>模型训练</strong></a>的一次<a href=""https://developers.google.com/machine-learning/glossary/#iteration""><strong>迭代</strong></a>(即一次<a href=""https://developers.google.com/machine-learning/glossary/#gradient""><strong>梯度</strong></a>更新)中使用的样本集。</p>
<p>另请参阅<a href=""https://developers.google.com/machine-learning/glossary/#batch_size""><strong>批次大小</strong></a>。</p>
"
批次大小 (batch size) (Google 的机器学习术语表)|"
<p>一个<a href=""https://developers.google.com/machine-learning/glossary/#batch""><strong>批次</strong></a>中的样本数。例如,<a href=""https://developers.google.com/machine-learning/glossary/#SGD""><strong>SGD</strong></a> 的批次大小为 1,而<a href=""https://developers.google.com/machine-learning/glossary/#mini-batch""><strong>小批次</strong></a>的大小通常介于 10 到 1000 之间。批次大小在训练和推断期间通常是固定的;不过,TensorFlow 允许使用动态批次大小。</p>
"
偏差 (bias) (Google 的机器学习术语表)|"
<p>距离原点的截距或偏移。偏差(也称为<strong>偏差项</strong>)在机器学习模型中用 b 或 w<sub>0</sub> 表示。<em></em><i></i>例如,在下面的公式中,偏差为 b:<em></em></p>
<div>
[$$]y' = b + w_1x_1 + w_2x_2 + … w_nx_n[/$$]
</div>
<p>请勿与<a href=""https://developers.google.com/machine-learning/glossary/#prediction_bias""><strong>预测偏差</strong></a>混淆。</p>
"
二元分类 (binary classification) (Google 的机器学习术语表)|"
<p>一种分类任务,可输出两种互斥类别之一。例如,对电子邮件进行评估并输出“垃圾邮件”或“非垃圾邮件”的机器学习模型就是一个二元分类器。</p>
"
分箱 (binning) (Google 的机器学习术语表)|"
<p>请参阅<a href=""https://developers.google.com/machine-learning/glossary/#bucketing""><strong>分桶</strong></a>。</p>
"
分桶 (bucketing) (Google 的机器学习术语表)|"
<p>将一个特征(通常是<a href=""https://developers.google.com/machine-learning/glossary/#continuous_feature""><strong>连续</strong></a>特征)转换成多个二元特征(称为桶或箱),通常根据值区间进行转换。例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。假设温度数据可精确到小数点后一位,则可以将介于 0.0 到 15.0 度之间的所有温度都归入一个分箱,将介于 15.1 到 30.0 度之间的所有温度归入第二个分箱,并将介于 30.1 到 50.0 度之间的所有温度归入第三个分箱。</p>
"
校准层 (calibration layer) (Google 的机器学习术语表)|"
<p>一种预测后调整,通常是为了降低<a href=""https://developers.google.com/machine-learning/glossary/#prediction_bias""><strong>预测偏差</strong></a>的影响。调整后的预测和概率应与观察到的标签集的分布一致。</p>
"
候选采样 (candidate sampling) (Google 的机器学习术语表)|"
<p>一种训练时进行的优化,会使用某种函数(例如 softmax)针对所有正类别标签计算概率,但对于负类别标签,则仅针对其随机样本计算概率。例如,如果某个样本的标签为“小猎犬”和“狗”,则候选采样将针对“小猎犬”和“狗”类别输出以及其他类别(猫、棒棒糖、栅栏)的随机子集计算预测概率和相应的损失项。<em></em><em></em><em></em><em></em><em></em><em></em><em></em>这种采样基于的想法是,只要<a href=""https://developers.google.com/machine-learning/glossary/#positive_class""><strong>正类别</strong></a>始终得到适当的正增强,<a href=""https://developers.google.com/machine-learning/glossary/#negative_class""><strong>负类别</strong></a>就可以从频率较低的负增强中进行学习,这确实是在实际中观察到的情况。候选采样的目的是,通过不针对所有负类别计算预测结果来提高计算效率。</p>
"
分类数据 (categorical data) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#feature""><strong>特征</strong></a>,拥有一组离散的可能值。以某个名为 <code>house style</code> 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 <code>Tudor, ranch, colonial</code>。通过将 <code>house style</code> 表示成分类数据,相应模型可以学习 <code>Tudor</code>、<code>ranch</code> 和 <code>colonial</code> 分别对房价的影响。</p>
<p>有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,<code>car maker</code> 分类特征可能只允许一个样本有一个值 (<code>Toyota</code>)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,<code>car color</code> 分类特征可能会允许单个样本具有多个值(例如 <code>red</code> 和 <code>white</code>)。</p>
<p>分类特征有时称为<a href=""https://developers.google.com/machine-learning/glossary/#discrete_feature""><strong>离散特征</strong></a>。</p>
<p>与<a href=""https://developers.google.com/machine-learning/glossary/#numerical_data""><strong>数值数据</strong></a>相对。</p>
"
形心 (centroid) (Google 的机器学习术语表)|"
<p>聚类的中心,由 <a href=""https://developers.google.com/machine-learning/glossary/#k-means""><strong>k-means</strong></a> 或 <a href=""https://developers.google.com/machine-learning/glossary/#k-median""><strong>k-median</strong></a> 算法决定。例如,如果 k 为 3,则 k-means 或 k-median 算法会找出 3 个形心。</p>
"
检查点 (checkpoint) (Google 的机器学习术语表)|"
<p>一种数据,用于捕获模型变量在特定时间的状态。借助检查点,可以导出模型<a href=""https://developers.google.com/machine-learning/glossary/#weight""><strong>权重</strong></a>,跨多个会话执行训练,以及使训练在发生错误之后得以继续(例如作业抢占)。请注意,<a href=""https://developers.google.com/machine-learning/glossary/#graph""><strong>图</strong></a>本身不包含在检查点中。</p>
"
类别 (class) (Google 的机器学习术语表)|"
<p>为标签枚举的一组目标值中的一个。例如,在检测垃圾邮件的<a href=""https://developers.google.com/machine-learning/glossary/#binary_classification""><strong>二元分类</strong></a>模型中,两种类别分别是“垃圾邮件”和“非垃圾邮件”。<em></em><em></em>在识别狗品种的<a href=""https://developers.google.com/machine-learning/glossary/#multi_class_classification""><strong>多类别分类</strong></a>模型中,类别可以是“贵宾犬”、“小猎犬”、“哈巴犬”等等。<em></em><em></em><em></em></p>
"
分类不平衡的数据集 (class-imbalanced data set) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#binary_classification""><strong>二元分类</strong></a>问题,在此类问题中,两种类别的<a href=""https://developers.google.com/machine-learning/glossary/#label""><strong>标签</strong></a>在出现频率方面具有很大的差距。例如,在某个疾病数据集中,0.0001 的样本具有正类别标签,0.9999 的样本具有负类别标签,这就属于分类不平衡问题;但在某个足球比赛预测器中,0.51 的样本的标签为其中一个球队赢,0.49 的样本的标签为另一个球队赢,这就不属于分类不平衡问题。<em></em></p>
"
分类模型 (classification model) (Google 的机器学习术语表)|"
<p>一种机器学习模型,用于区分两种或多种离散类别。例如,某个自然语言处理分类模型可以确定输入的句子是法语、西班牙语还是意大利语。请与<a href=""https://developers.google.com/machine-learning/glossary/#regression_model""><strong>回归模型</strong></a>进行比较。</p>
"
分类阈值 (classification threshold) (Google 的机器学习术语表)|"
<p>一种标量值条件,应用于模型预测的得分,旨在将<a href=""https://developers.google.com/machine-learning/glossary/#positive_class""><strong>正类别</strong></a>与<a href=""https://developers.google.com/machine-learning/glossary/#negative_class""><strong>负类别</strong></a>区分开。将<a href=""https://developers.google.com/machine-learning/glossary/#logistic_regression""><strong>逻辑回归</strong></a>结果映射到<a href=""https://developers.google.com/machine-learning/glossary/#binary_classification""><strong>二元分类</strong></a>时使用。以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为“垃圾邮件”,低于 0.9 的则被归类为“非垃圾邮件”。<em></em><em></em></p>
"
聚类 (clustering) (Google 的机器学习术语表)|"
<p>将关联的<a href=""https://developers.google.com/machine-learning/glossary/#example""><strong>样本</strong></a>分成一组,一般用于<a href=""https://developers.google.com/machine-learning/glossary/#unsupervised_machine_learning""><strong>非监督式学习</strong></a>。在所有样本均分组完毕后,相关人员便可选择性地为每个聚类赋予含义。</p>
<p>聚类算法有很多。例如,<a href=""https://developers.google.com/machine-learning/glossary/#k-means""><strong>k-means</strong></a> 算法会基于样本与<a href=""https://developers.google.com/machine-learning/glossary/#centroid""><strong>形心</strong></a>的接近程度聚类样本,如下图所示:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/Cluster.svg"">
</p>
<p>之后,研究人员便可查看这些聚类并进行其他操作,例如,将聚类 1 标记为“矮型树”,将聚类 2 标记为“全尺寸树”。</p>
<p>再举一个例子,例如基于样本与中心点距离的聚类算法,如下所示:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/RingCluster.svg"">
</p>
"
协同过滤 (collaborative filtering) (Google 的机器学习术语表)|"
<p>根据很多其他用户的兴趣来预测某位用户的兴趣。协同过滤通常用在推荐系统中。</p>
"
混淆矩阵 (confusion matrix) (Google 的机器学习术语表)|"
<p>一种 NxN 表格,用于总结<a href=""https://developers.google.com/machine-learning/glossary/#classification_model""><strong>分类模型</strong></a>的预测效果;即标签和模型预测的分类之间的关联。在混淆矩阵中,一个轴表示模型预测的标签,另一个轴表示实际标签。N 表示类别个数。在<a href=""https://developers.google.com/machine-learning/glossary/#binary_classification""><strong>二元分类</strong></a>问题中,N=2。例如,下面显示了一个二元分类问题的混淆矩阵示例:</p>
<table>
<thead>
<tr>
<th></th>
<th>肿瘤(预测的标签)</th>
<th>非肿瘤(预测的标签)</th>
</tr>
</thead>
<tbody>
<tr>
<td>肿瘤(实际标签)</td>
<td>18</td>
<td>1</td>
</tr>
<tr>
<td>非肿瘤(实际标签)</td>
<td>6</td>
<td>452</td>
</tr>
</tbody>
</table>
<p>上面的混淆矩阵显示,在 19 个实际有肿瘤的样本中,该模型正确地将 18 个归类为有肿瘤(18 个正例),错误地将 1 个归类为没有肿瘤(1 个假负例)。同样,在 458 个实际没有肿瘤的样本中,模型归类正确的有 452 个(452 个负例),归类错误的有 6 个(6 个假正例)。</p>
<p>多类别分类问题的混淆矩阵有助于确定出错模式。例如,某个混淆矩阵可以揭示,某个经过训练以识别手写数字的模型往往会将 4 错误地预测为 9,将 7 错误地预测为 1。</p>
<p>混淆矩阵包含计算各种效果指标(包括<a href=""https://developers.google.com/machine-learning/glossary/#precision""><strong>精确率</strong></a>和<a href=""https://developers.google.com/machine-learning/glossary/#recall""><strong>召回率</strong></a>)所需的充足信息。</p>
"
连续特征 (continuous feature) (Google 的机器学习术语表)|"
<p>一种浮点特征,可能值的区间不受限制。与<a href=""https://developers.google.com/machine-learning/glossary/#discrete_feature""><strong>离散特征</strong></a>相对。</p>
"
收敛 (convergence) (Google 的机器学习术语表)|"
<p>通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练<a href=""https://developers.google.com/machine-learning/glossary/#loss""><strong>损失</strong></a>和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。</p>
<p>另请参阅<a href=""https://developers.google.com/machine-learning/glossary/#early_stopping""><strong>早停法</strong></a>。</p>
<p>另请参阅 Boyd 和 Vandenberghe 合著的 <a href=""https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf"">Convex Optimization</a>(《凸优化》)。</p>
"
凸函数 (convex function) (Google 的机器学习术语表)|"
<p>一种函数,函数图像以上的区域为<a href=""https://developers.google.com/machine-learning/glossary/#convex_set""><strong>凸集</strong></a>。典型凸函数的形状类似于字母 <strong>U</strong>。例如,以下都是凸函数:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/convex_functions.png"" height=""300"" alt=""典型凸函数的形状类似于字母 U。""/>
</p>
<p>相反,以下函数则不是凸函数。请注意图像上方的区域如何不是凸集:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/nonconvex_function.svg"">
</p>
<p><strong>严格凸函数</strong>只有一个局部最低点,该点也是全局最低点。经典的 U 形函数都是严格凸函数。不过,有些凸函数(例如直线)则不是这样。</p>
<p>很多常见的<a href=""https://developers.google.com/machine-learning/glossary/#loss_functions""><strong>损失函数</strong></a>(包括下列函数)都是凸函数:</p>
<ul align=""left"">
<li><a href=""https://developers.google.com/machine-learning/glossary/#L2_loss""><strong>L<sub>2</sub> 损失函数</strong></a></li>
<li><a href=""https://developers.google.com/machine-learning/glossary/#Log_Loss""><strong>对数损失函数</strong></a></li>
<li><a href=""https://developers.google.com/machine-learning/glossary/#L1_regularization""><strong>L<sub>1</sub> 正则化</strong></a></li>
<li><a href=""https://developers.google.com/machine-learning/glossary/#L2_regularization""><strong>L<sub>2</sub> 正则化</strong></a></li>
</ul>
<p><a href=""https://developers.google.com/machine-learning/glossary/#gradient_descent""><strong>梯度下降法</strong></a>的很多变体都一定能找到一个接近严格凸函数最小值的点。同样,<a href=""https://developers.google.com/machine-learning/glossary/#SGD""><strong>随机梯度下降法</strong></a>的很多变体都有很高的可能性能够找到接近严格凸函数最小值的点(但并非一定能找到)。</p>
<p>两个凸函数的和(例如 L<sub>2</sub> 损失函数 + L<sub>1</sub> 正则化)也是凸函数。</p>
<p><a href=""https://developers.google.com/machine-learning/glossary/#deep_model""><strong>深度模型</strong></a>绝不会是凸函数。值得注意的是,专门针对<a href=""https://developers.google.com/machine-learning/glossary/#convex_optimization""><strong>凸优化</strong></a>设计的算法往往总能在深度网络上找到非常好的解决方案,虽然这些解决方案并不一定对应于全局最小值。</p>
"
凸优化 (convex optimization) (Google 的机器学习术语表)|"
<p>使用数学方法(例如<a href=""https://developers.google.com/machine-learning/glossary/#gradient_descent""><strong>梯度下降法</strong></a>)寻找<a href=""https://developers.google.com/machine-learning/glossary/#convex_function""><strong>凸函数</strong></a>最小值的过程。机器学习方面的大量研究都是专注于如何通过公式将各种问题表示成凸优化问题,以及如何更高效地解决这些问题。</p>
<p>如需完整的详细信息,请参阅 Boyd 和 Vandenberghe 合著的 <a href=""https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf"">Convex Optimization</a>(《凸优化》)。</p>
"
凸集 (convex set) (Google 的机器学习术语表)|"
<p>欧几里得空间的一个子集,其中任意两点之间的连线仍完全落在该子集内。例如,下面的两个图形都是凸集:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/convex_set.png"" alt=""矩形和半椭圆形都是凸集。""/>
</p>
<p>相反,下面的两个图形都不是凸集:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/nonconvex_set.png"" alt=""缺少一块的饼图以及烟花图都是非凸集。""/>
</p>
"
卷积 (convolution) (Google 的机器学习术语表)|"
<p>简单来说,卷积在数学中指两个函数的组合。在机器学习中,卷积结合使用卷积过滤器和输入矩阵来训练权重。</p>
<p>机器学习中的“卷积”一词通常是<a href=""https://developers.google.com/machine-learning/glossary/#convolutional_operation""><strong>卷积运算</strong></a>或<a href=""https://developers.google.com/machine-learning/glossary/#convolutional_layer""><strong>卷积层</strong></a>的简称。</p>
<p>如果没有卷积,机器学习算法就需要学习大张量中每个单元格各自的权重。例如,用 2K x 2K 图像训练的机器学习算法将被迫找出 400 万个单独的权重。而使用卷积,机器学习算法只需在<a href=""https://developers.google.com/machine-learning/glossary/#convolutional_filter""><strong>卷积过滤器</strong></a>中找出每个单元格的权重,大大减少了训练模型所需的内存。在应用卷积过滤器后,它只需跨单元格进行复制,每个单元格都会与过滤器相乘。</p>
"
卷积过滤器 (convolutional filter) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#convolutional_operation""><strong>卷积运算</strong></a>中的两个参与方之一。(另一个参与方是输入矩阵切片。)卷积过滤器是一种矩阵,其<a href=""https://developers.google.com/machine-learning/glossary/#rank""><strong>等级</strong></a>与输入矩阵相同,但形状小一些。以 28×28 的输入矩阵为例,过滤器可以是小于 28×28 的任何二维矩阵。</p>
<p>在图形操作中,卷积过滤器中的所有单元格通常按照固定模式设置为 1 和 0。在机器学习中,卷积过滤器通常先选择随机数字,然后由网络训练出理想值。</p>
"
卷积层 (convolutional layer) (Google 的机器学习术语表)|"
<p>深度神经网络的一个层,<a href=""https://developers.google.com/machine-learning/glossary/#convolutional_filter""><strong>卷积过滤器</strong></a>会在其中传递输入矩阵。以下面的 3x3 <a href=""https://developers.google.com/machine-learning/glossary/#convolutional_filter""><strong>卷积过滤器</strong></a>为例:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/ConvolutionalFilter33.svg"">
</p>
<p>下面的动画显示了一个由 9 个卷积运算(涉及 5x5 输入矩阵)组成的卷积层。请注意,每个卷积运算都涉及一个不同的 3x3 输入矩阵切片。由此产生的 3×3 矩阵(右侧)就包含 9 个卷积运算的结果:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/AnimatedConvolution.gif""/>
</p>
"
卷积神经网络 (convolutional neural network) (Google 的机器学习术语表)|"
<p>一种神经网络,其中至少有一层为<a href=""https://developers.google.com/machine-learning/glossary/#convolutional_layer""><strong>卷积层</strong></a>。典型的卷积神经网络包含以下几层的组合:</p>
<ul align=""left"">
<li>卷积层</li>
<li>池化层</li>
<li>密集层</li>
</ul>
<p>卷积神经网络在解决某些类型的问题(如图像识别)上取得了巨大成功。</p>
"
卷积运算 (convolutional operation) (Google 的机器学习术语表)|"
<p>如下所示的两步数学运算:</p>
<ol align=""left"">
<li>对<a href=""https://developers.google.com/machine-learning/glossary/#convolutional_filter""><strong>卷积过滤器</strong></a>和输入矩阵切片执行元素级乘法。(输入矩阵切片与卷积过滤器具有相同的等级和大小。)</li>
<li>对生成的积矩阵中的所有值求和。</li>
</ol>
<p>以下面的 5x5 输入矩阵为例:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/ConvolutionalLayerInputMatrix.svg"">
</p>
<p>现在,以下面这个 2x2 卷积过滤器为例:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/ConvolutionalLayerFilter.svg"">
</p>
<p>每个卷积运算都涉及一个 2x2 输入矩阵切片。例如,假设我们使用输入矩阵左上角的 2x2 切片。这样一来,对此切片进行卷积运算将如下所示:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/ConvolutionalLayerOperation.svg"">
</p>
<p><a href=""https://developers.google.com/machine-learning/glossary/#convolutional_layer""><strong>卷积层</strong></a>由一系列卷积运算组成,每个卷积运算都针对不同的输入矩阵切片。</p>
"
成本 (cost) (Google 的机器学习术语表)|"
<p>与<a href=""https://developers.google.com/machine-learning/glossary/#loss""><strong>损失</strong></a>的含义相同。</p>
"
交叉熵 (cross-entropy) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#Log_Loss""><strong>对数损失函数</strong></a>向<a href=""https://developers.google.com/machine-learning/glossary/#multi-class""><strong>多类别分类问题</strong></a>的一种泛化。交叉熵可以量化两种概率分布之间的差异。另请参阅<a href=""https://developers.google.com/machine-learning/glossary/#perplexity""><strong>困惑度</strong></a>。</p>
"
自定义 Estimator (custom Estimator) (Google 的机器学习术语表)|"
<p>您按照<a href=""https://www.tensorflow.org/extend/estimators"">这些说明</a>自行编写的 <a href=""https://developers.google.com/machine-learning/glossary/#Estimators""><strong>Estimator</strong></a>。</p>
<p>与<a href=""https://developers.google.com/machine-learning/glossary/#pre-made_Estimator""><strong>预创建的 Estimator</strong></a> 相对。</p>
"
数据分析 (data analysis) (Google 的机器学习术语表)|"
<p>根据样本、测量结果和可视化内容来理解数据。数据分析在首次收到数据集、构建第一个模型之前特别有用。此外,数据分析在理解实验和调试系统问题方面也至关重要。</p>
"
DataFrame (Google 的机器学习术语表)|"
<p>一种热门的数据类型,用于表示 Pandas 中的数据集。DataFrame 类似于表格。DataFrame 的每一列都有一个名称(标题),每一行都由一个数字标识。</p>
"
数据集 (data set) (Google 的机器学习术语表)|"
<p>一组<a href=""https://developers.google.com/machine-learning/glossary/#example""><strong>样本</strong></a>的集合。</p>
"
Dataset API (tf.data) (Google 的机器学习术语表)|"
<p>一种高级别的 TensorFlow API,用于读取数据并将其转换为机器学习算法所需的格式。<code>tf.data.Dataset</code> 对象表示一系列元素,其中每个元素都包含一个或多个<a href=""https://developers.google.com/machine-learning/glossary/#tensor""><strong>张量</strong></a>。<code>tf.data.Iterator</code> 对象可获取 <code>Dataset</code> 中的元素。</p>
<p>如需详细了解 Dataset API,请参阅《TensorFlow 编程人员指南》中的<a href=""https://www.tensorflow.org/programmers_guide/datasets"">导入数据</a>。</p>
"
决策边界 (decision boundary) (Google 的机器学习术语表)|"
<p>在<a href=""https://developers.google.com/machine-learning/glossary/#binary_classification""><strong>二元分类</strong></a>或<a href=""https://developers.google.com/machine-learning/glossary/#multi-class""><strong>多类别分类问题</strong></a>中,模型学到的类别之间的分界线。例如,在以下表示某个二元分类问题的图片中,决策边界是橙色类别和蓝色类别之间的分界线:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/decision_boundary.png"" alt=""两种类别之间明确定义的边界。""/>
</p>
"
密集层 (dense layer) (Google 的机器学习术语表)|"
<p>与<a href=""https://developers.google.com/machine-learning/glossary/#fully_connected_layer""><strong>全连接层</strong></a>的含义相同。</p>
"
深度模型 (deep model) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#neural_network""><strong>神经网络</strong></a>,其中包含多个<a href=""https://developers.google.com/machine-learning/glossary/#hidden_layer""><strong>隐藏层</strong></a>。深度模型依赖于可训练的非线性关系。</p>
<p>与<a href=""https://developers.google.com/machine-learning/glossary/#wide_model""><strong>宽度模型</strong></a>相对。</p>
"
密集特征 (dense feature) (Google 的机器学习术语表)|"
<p>一种大部分值是非零值的<a href=""https://developers.google.com/machine-learning/glossary/#feature""><strong>特征</strong></a>,通常是浮点值<a href=""https://developers.google.com/machine-learning/glossary/#tensor""><strong>张量</strong></a>。与<a href=""https://developers.google.com/machine-learning/glossary/#sparse_features""><strong>稀疏特征</strong></a>相对。</p>
"
设备 (device) (Google 的机器学习术语表)|"
<p>一类可运行 TensorFlow 会话的硬件,包括 CPU、GPU 和 TPU。</p>
"
离散特征 (discrete feature) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#feature""><strong>特征</strong></a>,包含有限个可能值。例如,某个值只能是“动物”、“蔬菜”或“矿物”的特征便是一个离散特征(或分类特征)。<em></em><em></em><em></em>与<a href=""https://developers.google.com/machine-learning/glossary/#continuous_feature""><strong>连续特征</strong></a>相对。</p>
"
丢弃正则化 (dropout regularization) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#regularization""><strong>正则化</strong></a>的一种形式,在训练<a href=""https://developers.google.com/machine-learning/glossary/#neural_network""><strong>神经网络</strong></a>方面非常有用。丢弃正则化的运作机制是,在一个梯度步长中移除从神经网络层中随机选择的固定数量的单元。丢弃的单元越多,正则化效果就越强。这类似于训练神经网络以模拟较小网络的指数级规模集成学习。如需完整的详细信息,请参阅 <a href=""http://jmlr.org/papers/volume15/srivastava14a.old/srivastava14a.pdf"">Dropout: A Simple Way to Prevent Neural Networks from Overfitting</a>(《丢弃:一种防止神经网络过拟合的简单方法》)。</p>
"
动态模型 (dynamic model) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#model""><strong>模型</strong></a>,以持续更新的方式在线接受训练。也就是说,数据会源源不断地进入这种模型。</p>
"
早停法 (early stopping) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#regularization""><strong>正则化</strong></a>方法,是指在训练损失仍可以继续降低之前结束模型训练。<em></em>使用早停法时,您会在<a href=""https://developers.google.com/machine-learning/glossary/#validation_set""><strong>验证数据集</strong></a>的损失开始增大(也就是<a href=""https://developers.google.com/machine-learning/glossary/#generalization""><strong>泛化</strong></a>效果变差)时结束模型训练。</p>
"
嵌套 (embeddings) (Google 的机器学习术语表)|"
<p>一种分类特征,以连续值特征表示。通常,嵌套是指将高维度向量映射到低维度的空间。例如,您可以采用以下两种方式之一来表示英文句子中的单词:</p>
<ul align=""left"">
<li>表示成包含百万个元素(高维度)的<a href=""https://developers.google.com/machine-learning/glossary/#sparse_features""><strong>稀疏向量</strong></a>,其中所有元素都是整数。向量中的每个单元格都表示一个单独的英文单词,单元格中的值表示相应单词在句子中出现的次数。由于单个英文句子包含的单词不太可能超过 50 个,因此向量中几乎每个单元格都包含 0。少数非 0 的单元格中将包含一个非常小的整数(通常为 1),该整数表示相应单词在句子中出现的次数。</li>
<li>表示成包含数百个元素(低维度)的<a href=""https://developers.google.com/machine-learning/glossary/#dense_feature""><strong>密集向量</strong></a>,其中每个元素都存储一个介于 0 到 1 之间的浮点值。这就是一种嵌套。</li>
</ul>
<p>在 TensorFlow 中,会按<a href=""https://developers.google.com/machine-learning/glossary/#backpropagation""><strong>反向传播</strong></a><a href=""https://developers.google.com/machine-learning/glossary/#loss""><strong>损失</strong></a>训练嵌套,和训练<a href=""https://developers.google.com/machine-learning/glossary/#neural_network""><strong>神经网络</strong></a>中的任何其他参数一样。</p>
"
经验风险最小化 (ERM, empirical risk minimization) (Google 的机器学习术语表)|"
<p>用于选择可以将基于训练集的损失降至最低的函数。与<a href=""https://developers.google.com/machine-learning/glossary/#SRM""><strong>结构风险最小化</strong></a>相对。</p>
"
集成学习 (ensemble) (Google 的机器学习术语表)|"
<p>多个<a href=""https://developers.google.com/machine-learning/glossary/#model""><strong>模型</strong></a>的预测结果的并集。您可以通过以下一项或多项来创建集成学习:</p>
<ul align=""left"">
<li>不同的初始化</li>
<li>不同的<a href=""https://developers.google.com/machine-learning/glossary/#hyperparameter""><strong>超参数</strong></a></li>
<li>不同的整体结构</li>
</ul>
<p><a href=""https://www.tensorflow.org/tutorials/wide_and_deep"">深度模型和宽度模型</a>属于一种集成学习。
"
周期 (epoch) (Google 的机器学习术语表)|"
<p>在训练时,整个数据集的一次完整遍历,以便不漏掉任何一个样本。因此,一个周期表示(<code>N</code>/<a href=""https://developers.google.com/machine-learning/glossary/#batch_size""><strong>批次大小</strong></a>)次训练<a href=""https://developers.google.com/machine-learning/glossary/#iteration""><strong>迭代</strong></a>,其中 <code>N</code> 是样本总数。</p>
"
Estimator (Google 的机器学习术语表)|"
<p><code>tf.Estimator</code> 类的一个实例,用于封装负责构建 TensorFlow 图并运行 TensorFlow 会话的逻辑。您可以创建<a href=""https://developers.google.com/machine-learning/glossary/#custom_estimator""><strong>自定义 Estimator</strong></a>(如需相关介绍,请<a href=""https://www.tensorflow.org/extend/estimators"">点击此处</a>),也可以实例化其他人<a href=""https://developers.google.com/machine-learning/glossary/#pre-made_Estimator""><strong>预创建的 Estimator</strong></a>。</p>
"
样本 (example) (Google 的机器学习术语表)|"
<p>数据集的一行。一个样本包含一个或多个<a href=""https://developers.google.com/machine-learning/glossary/#feature""><strong>特征</strong></a>,此外还可能包含一个<a href=""https://developers.google.com/machine-learning/glossary/#label""><strong>标签</strong></a>。另请参阅<a href=""https://developers.google.com/machine-learning/glossary/#labeled_example""><strong>有标签样本</strong></a>和<a href=""https://developers.google.com/machine-learning/glossary/#unlabeled_example""><strong>无标签样本</strong></a>。</p>
"
假负例 (FN, false negative) (Google 的机器学习术语表)|"
<p>被模型错误地预测为<a href=""https://developers.google.com/machine-learning/glossary/#negative_class""><strong>负类别</strong></a>的样本。例如,模型推断出某封电子邮件不是垃圾邮件(负类别),但该电子邮件其实是垃圾邮件。</p>
"
假正例 (FP, false positive) (Google 的机器学习术语表)|"
<p>被模型错误地预测为<a href=""https://developers.google.com/machine-learning/glossary/#positive_class""><strong>正类别</strong></a>的样本。例如,模型推断出某封电子邮件是垃圾邮件(正类别),但该电子邮件其实不是垃圾邮件。</p>
"
假正例率(false positive rate, 简称 FP 率) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#ROC""><strong>ROC 曲线</strong></a>中的 x 轴。FP 率的定义如下:</p>
<div>
[$$]\text{假正例率} = \frac{\text{假正例数}}{\text{假正例数} + \text{负例数}}[/$$]
</div>
"
特征 (feature) (Google 的机器学习术语表)|"
<p>在进行<a href=""https://developers.google.com/machine-learning/glossary/#prediction""><strong>预测</strong></a>时使用的输入变量。</p>
"
特征列 (tf.feature_column) (Google 的机器学习术语表)|"
<p>指定模型应该如何解读特定特征的一种函数。此类函数的输出结果是所有 <a href=""https://developers.google.com/machine-learning/glossary/#Estimators""><strong>Estimators</strong></a> 构造函数的必需参数。</p>
<p>借助 <code>tf.feature_column</code> 函数,模型可对输入特征的不同表示法轻松进行实验。有关详情,请参阅《TensorFlow 编程人员指南》中的<a href=""https://www.tensorflow.org/get_started/feature_columns"">特征列</a>一章。</p>
<p>“特征列”是 Google 专用的术语。特征列在 Yahoo/Microsoft 使用的 <a href=""https://en.wikipedia.org/wiki/Vowpal_Wabbit"">VW</a> 系统中称为“命名空间”,也称为<a href=""https://www.csie.ntu.edu.tw/~cjlin/libffm/"">场</a>。</p>
"
特征组合 (feature cross) (Google 的机器学习术语表)|"
<p>通过将单独的特征进行组合(求笛卡尔积)而形成的<a href=""https://developers.google.com/machine-learning/glossary/#synthetic_feature""><strong>合成特征</strong></a>。特征组合有助于表达非线性关系。</p>
"
特征工程 (feature engineering) (Google 的机器学习术语表)|"
<p>指以下过程:确定哪些<a href=""https://developers.google.com/machine-learning/glossary/#feature""><strong>特征</strong></a>可能在训练模型方面非常有用,然后将日志文件及其他来源的原始数据转换为所需的特征。在 TensorFlow 中,特征工程通常是指将原始日志文件条目转换为 <a href=""https://developers.google.com/machine-learning/glossary/#tf.Example""><strong>tf.Example</strong></a> 协议缓冲区。另请参阅 <a href=""https://github.com/tensorflow/transform"">tf.Transform</a>。</p>
<p>特征工程有时称为<strong>特征提取</strong>。</p>
"
特征集 (feature set) (Google 的机器学习术语表)|"
<p>训练机器学习模型时采用的一组<a href=""https://developers.google.com/machine-learning/glossary/#feature""><strong>特征</strong></a>。例如,对于某个用于预测房价的模型,邮政编码、房屋面积以及房屋状况可以组成一个简单的特征集。</p>
"
特征规范 (feature spec) (Google 的机器学习术语表)|"
<p>用于描述如何从 <a href=""https://developers.google.com/machine-learning/glossary/#tf.Example""><strong>tf.Example</strong></a> 协议缓冲区提取<a href=""https://developers.google.com/machine-learning/glossary/#feature""><strong>特征</strong></a>数据。由于 tf.Example 协议缓冲区只是一个数据容器,因此您必须指定以下内容:</p>
<ul align=""left"">
<li>要提取的数据(即特征的键)</li>
<li>数据类型(例如 float 或 int)</li>
<li>长度(固定或可变)</li>
</ul>
<p><a href=""https://developers.google.com/machine-learning/glossary/#Estimators""><strong>Estimator API</strong></a> 提供了一些可用来根据给定 <a href=""https://developers.google.com/machine-learning/glossary/#feature_columns""><strong>FeatureColumns</strong></a> 列表生成特征规范的工具。</p>
"
少量样本学习 (few-shot learning) (Google 的机器学习术语表)|"
<p>一种机器学习方法(通常用于对象分类),旨在仅通过少量训练样本学习有效的分类器。</p>
<p>另请参阅<a href=""https://developers.google.com/machine-learning/glossary/#one-shot_learning""><strong>单样本学习</strong></a>。</p>
"
完整 softmax (full softmax) (Google 的机器学习术语表)|"
<p>请参阅 <a href=""https://developers.google.com/machine-learning/glossary/#softmax""><strong>softmax</strong></a>。与<a href=""https://developers.google.com/machine-learning/glossary/#candidate_sampling""><strong>候选采样</strong></a>相对。</p>
"
全连接层 (fully connected layer) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#hidden_layer""><strong>隐藏层</strong></a>,其中的每个<a href=""https://developers.google.com/machine-learning/glossary/#node""><strong>节点</strong></a>均与下一个隐藏层中的每个节点相连。<em></em></p>
<p>全连接层又称为<a href=""https://developers.google.com/machine-learning/glossary/#dense_layer""><strong>密集层</strong></a>。</p>
"
泛化 (generalization) (Google 的机器学习术语表)|"
<p>指的是模型依据训练时采用的数据,针对以前未见过的新数据做出正确预测的能力。</p>
"
广义线性模型 (generalized linear model) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#least_squares_regression""><strong>最小二乘回归</strong></a>模型(基于<a href=""https://en.wikipedia.org/wiki/Gaussian_noise"">高斯噪声</a>)向其他类型的模型(基于其他类型的噪声,例如<a href=""https://en.wikipedia.org/wiki/Shot_noise"">泊松噪声</a>或分类噪声)进行的一种泛化。广义线性模型的示例包括:</p>
<ul align=""left"">
<li><a href=""https://developers.google.com/machine-learning/glossary/#logistic_regression""><strong>逻辑回归</strong></a></li>
<li>多类别回归</li>
<li>最小二乘回归</li>
</ul>
<p>可以通过<a href=""https://en.wikipedia.org/wiki/Convex_optimization"">凸优化</a>找到广义线性模型的参数。</p>
<p>广义线性模型具有以下特性:</p>
<ul align=""left"">
<li>最优的最小二乘回归模型的平均预测结果等于训练数据的平均标签。</li>
<li>最优的逻辑回归模型预测的平均概率等于训练数据的平均标签。</li>
</ul>
<p>广义线性模型的功能受其特征的限制。与深度模型不同,广义线性模型无法“学习新特征”。</p>
"
梯度 (gradient) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#partial_derivative""><strong>偏导数</strong></a>相对于所有自变量的向量。在机器学习中,梯度是模型函数偏导数的向量。梯度指向最高速上升的方向。</p>
"
梯度裁剪 (gradient clipping) (Google 的机器学习术语表)|"
<p>在应用<a href=""https://developers.google.com/machine-learning/glossary/#gradient""><strong>梯度</strong></a>值之前先设置其上限。梯度裁剪有助于确保数值稳定性以及防止<a href=""http://www.cs.toronto.edu/~rgrosse/courses/csc321_2017/readings/L15%20Exploding%20and%20Vanishing%20Gradients.pdf"">梯度爆炸</a>。</p>
"
梯度下降法 (gradient descent) (Google 的机器学习术语表)|"
<p>一种通过计算并且减小梯度将<a href=""https://developers.google.com/machine-learning/glossary/#loss""><strong>损失</strong></a>降至最低的技术,它以训练数据为条件,来计算损失相对于模型参数的梯度。通俗来说,梯度下降法以迭代方式调整参数,逐渐找到<a href=""https://developers.google.com/machine-learning/glossary/#weight""><strong>权重</strong></a>和偏差的最佳组合,从而将损失降至最低。</p>
"
图 (graph) (Google 的机器学习术语表)|"
<p>TensorFlow 中的一种计算规范。图中的节点表示操作。边缘具有方向,表示将某项操作的结果(一个<a href=""https://www.tensorflow.org/api_docs/python/tf/Tensor"">张量</a>)作为一个操作数传递给另一项操作。可以使用 <a href=""https://developers.google.com/machine-learning/glossary/#TensorBoard""><strong>TensorBoard</strong></a> 直观呈现图。</p>
"
启发法 (heuristic) (Google 的机器学习术语表)|"
<p>一种非最优但实用的问题解决方案,足以用于进行改进或从中学习。</p>
"
隐藏层 (hidden layer) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#neural_network""><strong>神经网络</strong></a>中的合成层,介于<a href=""https://developers.google.com/machine-learning/glossary/#input_layer""><strong>输入层</strong></a>(即特征)和<a href=""https://developers.google.com/machine-learning/glossary/#output_layer""><strong>输出层</strong></a>(即预测)之间。神经网络包含一个或多个隐藏层。</p>
"
合页损失函数 (hinge loss) (Google 的机器学习术语表)|"
<p>一系列用于<a href=""https://developers.google.com/machine-learning/glossary/#classification_model""><strong>分类</strong></a>的<a href=""https://developers.google.com/machine-learning/glossary/#loss""><strong>损失</strong></a>函数,旨在找到距离每个训练样本都尽可能远的<a href=""https://developers.google.com/machine-learning/glossary/#decision_boundary""><strong>决策边界</strong></a>,从而使样本和边界之间的裕度最大化。
<a href=""https://developers.google.com/machine-learning/glossary/#KSVMs""><strong>KSVM</strong></a> 使用合页损失函数(或相关函数,例如平方合页损失函数)。对于二元分类,合页损失函数的定义如下:</p>
<div>
[$$]\text{loss} = \text{max}(0, 1 - (y' * y))[/$$]
</div>
<p>其中“y'”表示分类器模型的原始输出:<em></em></p>
<div>
[$$]y' = b + w_1x_1 + w_2x_2 + … w_nx_n[/$$]
</div>
<p>“y”表示真标签,值为 -1 或 +1。<em></em></p>
<p>因此,合页损失与 (y * y') 的关系图如下所示:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/hinge-loss.svg"">
</p>
"
维持数据 (holdout data) (Google 的机器学习术语表)|"
<p>训练期间故意不使用(“维持”)的<a href=""https://developers.google.com/machine-learning/glossary/#example""><strong>样本</strong></a>。<a href=""https://developers.google.com/machine-learning/glossary/#validation_set""><strong>验证数据集</strong></a>和<a href=""https://developers.google.com/machine-learning/glossary/#test_set""><strong>测试数据集</strong></a>都属于维持数据。维持数据有助于评估模型向训练时所用数据之外的数据进行泛化的能力。与基于训练数据集的损失相比,基于维持数据集的损失有助于更好地估算基于未见过的数据集的损失。</p>
"
超参数 (hyperparameter) (Google 的机器学习术语表)|"
<p>在模型训练的连续过程中,您调节的“旋钮”。例如,<a href=""https://developers.google.com/machine-learning/glossary/#learning_rate""><strong>学习速率</strong></a>就是一种超参数。</p>
<p>与<a href=""https://developers.google.com/machine-learning/glossary/#parameter""><strong>参数</strong></a>相对。</p>
"
超平面 (hyperplane) (Google 的机器学习术语表)|"
<p>将一个空间划分为两个子空间的边界。例如,在二维空间中,直线就是一个超平面,在三维空间中,平面则是一个超平面。在机器学习中更典型的是:超平面是分隔高维度空间的边界。<a href=""https://developers.google.com/machine-learning/glossary/#KSVMs""><strong>核支持向量机</strong></a>利用超平面将正类别和负类别区分开来(通常是在极高维度空间中)。</p>
"
独立同等分布 (i.i.d, independently and identically distributed) (Google 的机器学习术语表)|"
<p>从不会改变的分布中提取的数据,其中提取的每个值都不依赖于之前提取的值。i.i.d. 是机器学习的<a href=""https://en.wikipedia.org/wiki/Ideal_gas"">理想气体</a> - 一种实用的数学结构,但在现实世界中几乎从未发现过。例如,某个网页的访问者在短时间内的分布可能为 i.i.d.,即分布在该短时间内没有变化,且一位用户的访问行为通常与另一位用户的访问行为无关。不过,如果将时间窗口扩大,网页访问者的分布可能呈现出季节性变化。</p>
"
推断 (inference) (Google 的机器学习术语表)|"
<p>在机器学习中,推断通常指以下过程:通过将训练过的模型应用于<a href=""https://developers.google.com/machine-learning/glossary/#unlabeled_example""><strong>无标签样本</strong></a>来做出预测。在统计学中,推断是指在某些观测数据条件下拟合分布参数的过程。(请参阅<a href=""https://en.wikipedia.org/wiki/Statistical_inference"">维基百科中有关统计学推断的文章</a>。)</p>
"
输入函数 (input function) (Google 的机器学习术语表)|"
<p>在 TensorFlow 中,用于将输入数据返回到 <a href=""https://developers.google.com/machine-learning/glossary/#Estimators""><strong>Estimator</strong></a> 的训练、评估或预测方法的函数。例如,训练输入函数会返回<a href=""https://developers.google.com/machine-learning/glossary/#training_set""><strong>训练集</strong></a>中的<a href=""https://developers.google.com/machine-learning/glossary/#batch""><strong>一批</strong></a>特征和标签。</p>
"
输入层 (input layer) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#neural_network""><strong>神经网络</strong></a>中的第一层(接收输入数据的层)。</p>
"
实例 (instance) (Google 的机器学习术语表)|"
<p>与<a href=""https://developers.google.com/machine-learning/glossary/#example""><strong>样本</strong></a>的含义相同。</p>
"
可解释性 (interpretability) (Google 的机器学习术语表)|"
<p>模型的预测可解释的难易程度。深度模型通常不可解释,也就是说,很难对深度模型的不同层进行解释。相比之下,线性回归模型和<a href=""https://developers.google.com/machine-learning/glossary/#wide_model""><strong>宽度模型</strong></a>的可解释性通常要好得多。</p>
"
评分者间一致性信度 (inter-rater agreement) (Google 的机器学习术语表)|"
<p>一种衡量指标,用于衡量在执行某项任务时评分者达成一致的频率。如果评分者未达成一致,则可能需要改进任务说明。有时也称为<strong>注释者间一致性信度</strong>或<strong>评分者间可靠性信度</strong>。另请参阅 <a href=""https://en.wikipedia.org/wiki/Cohen%27s_kappa"">Cohen's kappa</a>(最热门的评分者间一致性信度衡量指标之一)。</p>
"
迭代 (iteration) (Google 的机器学习术语表)|"
<p>模型的权重在训练期间的一次更新。迭代包含计算参数在单<a href=""https://developers.google.com/machine-learning/glossary/#batch""><strong>批次</strong></a>数据上的梯度损失。</p>
"
k-means (Google 的机器学习术语表)|"
<p>一种热门的<a href=""https://developers.google.com/machine-learning/glossary/#clustering""><strong>聚类</strong></a>算法,用于对非监督式学习中的样本进行分组。k-means 算法基本上会执行以下操作:</p>
<ul align=""left"">
<li>以迭代方式确定最佳的 k 中心点(称为<a href=""https://developers.google.com/machine-learning/glossary/#centroid""><strong>形心</strong></a>)。</li>
<li>将每个样本分配到最近的形心。与同一个形心距离最近的样本属于同一个组。</li>
</ul>
<p>k-means 算法会挑选形心位置,以最大限度地减小每个样本与其最接近形心之间的距离的累积平方。<em></em></p>
<p>以下面的小狗高度与小狗宽度的关系图为例:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/DogDimensions.svg"">
</p>
<p>如果 k=3,则 k-means 算法会确定三个形心。每个样本都被分配到与其最接近的形心,最终产生三个组:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/DogDimensionsKMeans.svg"">
</p>
<p>假设制造商想要确定小、中和大号狗毛衣的理想尺寸。在该聚类中,三个形心用于标识每只狗的平均高度和平均宽度。因此,制造商可能应该根据这三个形心确定毛衣尺寸。请注意,聚类的形心通常不是聚类中的样本。<em></em></p>
<p>上图显示了 k-means 应用于仅具有两个特征(高度和宽度)的样本。请注意,k-means 可以跨多个特征为样本分组。</p>
"
k-median (Google 的机器学习术语表)|"
<p>与 <a href=""https://developers.google.com/machine-learning/glossary/#k-means""><strong>k-means</strong></a> 紧密相关的聚类算法。两者的实际区别如下:</p>
<ul align=""left"">
<li>对于 k-means,确定形心的方法是,最大限度地减小候选形心与它的每个样本之间的距离平方和。<em></em></li>
<li>对于 k-median,确定形心的方法是,最大限度地减小候选形心与它的每个样本之间的距离总和。</li>
</ul>
<p>请注意,距离的定义也有所不同:</p>
<ul align=""left"">
<li>k-means 采用从形心到样本的<a href=""https://en.wikipedia.org/wiki/Euclidean_distance"">欧几里得距离</a>。(在二维空间中,欧几里得距离即使用勾股定理来计算斜边。)例如,(2,2) 与 (5,-2) 之间的 k-means 距离为:</li>
</ul>
<div>
[$$]{\text{欧几里德距离}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5[/$$]
</div>
<ul align=""left"">
<li>k-median 采用从形心到样本的<a href=""https://en.wikipedia.org/wiki/Taxicab_geometry"">曼哈顿距离</a>。这个距离是每个维度中绝对差异值的总和。例如,(2,2) 与 (5,-2) 之间的 k-median 距离为:</li>
</ul>
<div>
[$$]{\text{曼哈顿距离}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7[/$$]
</div>
"
Keras (Google 的机器学习术语表)|"
<p>一种热门的 Python 机器学习 API。<a href=""https://keras.io"">Keras</a> 能够在多种深度学习框架上运行,其中包括 TensorFlow(在该框架上,Keras 作为 <a href=""https://www.tensorflow.org/api_docs/python/tf/keras""><strong>tf.keras</strong></a> 提供)。</p>
"
核支持向量机 (KSVM, Kernel Support Vector Machines) (Google 的机器学习术语表)|"
<p>一种分类算法,旨在通过将输入数据向量映射到更高维度的空间,来最大化<a href=""https://developers.google.com/machine-learning/glossary/#positive_class""><strong>正类别</strong></a>和<a href=""https://developers.google.com/machine-learning/glossary/#negative_class""><strong>负类别</strong></a>之间的裕度。以某个输入数据集包含一百个特征的分类问题为例。为了最大化正类别和负类别之间的裕度,KSVM 可以在内部将这些特征映射到百万维度的空间。KSVM 使用<a href=""https://developers.google.com/machine-learning/glossary/#hinge-loss"">合页损失函数</a>。</p>
"
L<sub>1</sub> 损失函数 (L₁ loss) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#loss""><strong>损失</strong></a>函数,基于模型预测的值与<a href=""https://developers.google.com/machine-learning/glossary/#label""><strong>标签</strong></a>的实际值之差的绝对值。与 <a href=""https://developers.google.com/machine-learning/glossary/#squared_loss""><strong>L<sub>2</sub> 损失函数</strong></a>相比,L<sub>1</sub> 损失函数对离群值的敏感性弱一些。</p>
"
L<sub>1</sub> 正则化 (L₁ regularization) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#regularization""><strong>正则化</strong></a>,根据权重的绝对值的总和来惩罚权重。在依赖<a href=""https://developers.google.com/machine-learning/glossary/#sparse_features""><strong>稀疏特征</strong></a>的模型中,L<sub>1</sub> 正则化有助于使不相关或几乎不相关的特征的权重正好为 0,从而将这些特征从模型中移除。与 <a href=""https://developers.google.com/machine-learning/glossary/#L2_regularization""><strong>L<sub>2</sub> 正则化</strong></a>相对。</p>
"
L<sub>2</sub> 损失函数 (L₂ loss) (Google 的机器学习术语表)|"
<p>请参阅<a href=""https://developers.google.com/machine-learning/glossary/#squared_loss""><strong>平方损失函数</strong></a>。</p>
"
L<sub>2</sub> 正则化 (L₂ regularization) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#regularization""><strong>正则化</strong></a>,根据权重的平方和来惩罚权重。<em></em>L<sub>2</sub> 正则化有助于使离群值(具有较大正值或较小负值)权重接近于 0,但又不正好为 0。(与 <a href=""https://developers.google.com/machine-learning/glossary/#L1_regularization""><strong>L1 正则化</strong></a>相对。)在线性模型中,L<sub>2</sub> 正则化始终可以改进泛化。</p>
"
标签 (label) (Google 的机器学习术语表)|"
<p>在监督式学习中,标签指<a href=""https://developers.google.com/machine-learning/glossary/#example""><strong>样本</strong></a>的“答案”或“结果”部分。有标签数据集中的每个样本都包含一个或多个特征以及一个标签。例如,在房屋数据集中,特征可能包括卧室数、卫生间数以及房龄,而标签则可能是房价。在垃圾邮件检测数据集中,特征可能包括主题行、发件人以及电子邮件本身,而标签则可能是“垃圾邮件”或“非垃圾邮件”。</p>
"
有标签样本 (labeled example) (Google 的机器学习术语表)|"
<p>包含<a href=""https://developers.google.com/machine-learning/glossary/#feature""><strong>特征</strong></a>和<a href=""https://developers.google.com/machine-learning/glossary/#label""><strong>标签</strong></a>的样本。在监督式训练中,模型从有标签样本中学习规律。</p>
"
lambda (Google 的机器学习术语表)|"
<p>与<a href=""https://developers.google.com/machine-learning/glossary/#regularization_rate""><strong>正则化率</strong></a>的含义相同。</p>
<p>(多含义术语,我们在此关注的是该术语在<a href=""https://developers.google.com/machine-learning/glossary/#regularization""><strong>正则化</strong></a>中的定义。)</p>
"
层 (layer) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#neural_network""><strong>神经网络</strong></a>中的一组<a href=""https://developers.google.com/machine-learning/glossary/#neuron""><strong>神经元</strong></a>,负责处理一组输入特征,或一组神经元的输出。</p>
<p>此外还指 TensorFlow 中的抽象层。层是 Python 函数,以<a href=""https://developers.google.com/machine-learning/glossary/#tensor""><strong>张量</strong></a>和配置选项作为输入,然后生成其他张量作为输出。当必要的张量组合起来后,用户便可以通过<a href=""https://developers.google.com/machine-learning/glossary/#model_function""><strong>模型函数</strong></a>将结果转换为 <a href=""https://developers.google.com/machine-learning/glossary/#Estimators""><strong>Estimator</strong></a>。</p>
"
Layers API (tf.layers) (Google 的机器学习术语表)|"
<p>一种 TensorFlow API,用于以层组合的方式构建<a href=""https://developers.google.com/machine-learning/glossary/#deep_model""><strong>深度</strong></a>神经网络。通过 Layers API,您可以构建不同类型的<a href=""https://developers.google.com/machine-learning/glossary/#layer""><strong>层</strong></a>,例如:</p>
<ul align=""left"">
<li>通过 <code>tf.layers.Dense</code> 构建<a href=""https://developers.google.com/machine-learning/glossary/#fully_connected_layer""><strong>全连接层</strong></a>。</li>
<li>通过 <code>tf.layers.Conv2D</code> 构建卷积层。</li>
</ul>
<p>在编写<a href=""https://developers.google.com/machine-learning/glossary/#custom_estimator""><strong>自定义 Estimator</strong></a> 时,您可以编写“层”对象来定义所有<a href=""https://developers.google.com/machine-learning/glossary/#hidden_layers""><strong>隐藏层</strong></a>的特征。</p>
<p>Layers API 遵循 <a href=""https://developers.google.com/machine-learning/glossary/#Keras""><strong>Keras</strong></a> layers API 规范。也就是说,除了前缀不同以外,Layers API 中的所有函数均与 Keras layers API 中的对应函数具有相同的名称和签名。</p>
"
学习速率 (learning rate) (Google 的机器学习术语表)|"
<p>在训练模型时用于梯度下降的一个标量。在每次迭代期间,<a href=""https://developers.google.com/machine-learning/glossary/#gradient_descent""><strong>梯度下降法</strong></a>都会将学习速率与梯度相乘。得出的乘积称为<strong>梯度步长</strong>。</p>
<p>学习速率是一个重要的<a href=""https://developers.google.com/machine-learning/glossary/#hyperparameter""><strong>超参数</strong></a>。</p>
"
最小二乘回归 (least squares regression) (Google 的机器学习术语表)|"
<p>一种通过最小化 <a href=""https://developers.google.com/machine-learning/glossary/#L2_loss""><strong>L<sub>2</sub> 损失</strong></a>训练出的线性回归模型。</p>
"
线性回归 (linear regression) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#regression_model""><strong>回归模型</strong></a>,通过将输入特征进行线性组合输出连续值。</p>
"
逻辑回归 (logistic regression) (Google 的机器学习术语表)|"
<p>一种模型,通过将 <a href=""https://developers.google.com/machine-learning/glossary/#sigmoid_function""><strong>S 型函数</strong></a>应用于线性预测,生成分类问题中每个可能的离散标签值的概率。虽然逻辑回归经常用于<a href=""https://developers.google.com/machine-learning/glossary/#binary_classification""><strong>二元分类</strong></a>问题,但也可用于<a href=""https://developers.google.com/machine-learning/glossary/#multi-class""><strong>多类别</strong></a>分类问题(其叫法变为<strong>多类别逻辑回归</strong>或<strong>多项回归</strong>)。</p>
"
对数 (logits) (Google 的机器学习术语表)|"
<p>分类模型生成的原始(非标准化)预测向量,通常会传递给标准化函数。如果模型要解决多类别分类问题,则对数通常变成 <a href=""https://www.tensorflow.org/api_docs/python/tf/nn/softmax_cross_entropy_with_logits_v2"">softmax 函数</a>的输入。之后,softmax 函数会生成一个(标准化)概率向量,对应于每个可能的类别。</p>
<p>此外,对数有时也称为 <a href=""https://developers.google.com/machine-learning/glossary/#sigmoid_function""><strong>S 型函数</strong></a>的元素级反函数。如需了解详细信息,请参阅 <a href=""https://www.tensorflow.org/api_docs/python/tf/nn/sigmoid_cross_entropy_with_logits"">tf.nn.sigmoid_cross_entropy_with_logits</a>。</p>
"
对数损失函数 (Log Loss) (Google 的机器学习术语表)|"
<p>二元<a href=""https://developers.google.com/machine-learning/glossary/#logistic_regression""><strong>逻辑回归</strong></a>中使用的<a href=""https://developers.google.com/machine-learning/glossary/#loss""><strong>损失</strong></a>函数。</p>
"
对数几率 (log-odds) (Google 的机器学习术语表)|"
<p>某个事件几率的对数。</p>
<p>如果事件涉及二元概率,则<strong>几率</strong>指的是成功概率 (p) 与失败概率 (1-p) 之比。例如,假设某个给定事件的成功概率为 90%,失败概率为 10%。在这种情况下,几率的计算公式如下:</p>
<div>
[$$]{\text{几率}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}}[/$$]
</div>
<p>简单来说,对数几率即几率的对数。按照惯例,“对数”指自然对数,但对数的基数其实可以是任何大于 1 的数。若遵循惯例,上述示例的对数几率应为:</p>
<div>
[$$]{\text{对数几率}} = ln(9) ~= 2.2[/$$]
</div>
<p>对数几率是 <a href=""https://developers.google.com/machine-learning/glossary/#sigmoid_function""><strong>S 型函数</strong></a>的反函数。</p>
"
损失 (Loss) (Google 的机器学习术语表)|"
<p>一种衡量指标,用于衡量模型的<a href=""https://developers.google.com/machine-learning/glossary/#prediction""><strong>预测</strong></a>偏离其<a href=""https://developers.google.com/machine-learning/glossary/#label""><strong>标签</strong></a>的程度。或者更悲观地说是衡量模型有多差。要确定此值,模型必须定义损失函数。例如,线性回归模型通常将<a href=""https://developers.google.com/machine-learning/glossary/#MSE""><strong>均方误差</strong></a>用作损失函数,而逻辑回归模型则使用<a href=""https://developers.google.com/machine-learning/glossary/#Log_Loss""><strong>对数损失函数</strong></a>。</p>
"
机器学习 (machine learning) (Google 的机器学习术语表)|"
<p>一种程序或系统,用于根据输入数据构建(训练)预测模型。这种系统会利用学到的模型根据从分布(训练该模型时使用的同一分布)中提取的新数据(以前从未见过的数据)进行实用的预测。机器学习还指与这些程序或系统相关的研究领域。</p>
"
均方误差 (MSE, Mean Squared Error) (Google 的机器学习术语表)|"
<p>每个样本的平均平方损失。MSE 的计算方法是<a href=""https://developers.google.com/machine-learning/glossary/#squared_loss""><strong>平方损失</strong></a>除以<a href=""https://developers.google.com/machine-learning/glossary/#example""><strong>样本</strong></a>数。<a href=""https://developers.google.com/machine-learning/glossary/#TensorFlow_Playground""><strong>TensorFlow Playground</strong></a> 显示的“训练损失”值和“测试损失”值都是 MSE。</p>
"
指标 (metric) (Google 的机器学习术语表)|"
<p>您关心的一个数值。可能可以也可能不可以直接在机器学习系统中得到优化。您的系统尝试优化的指标称为<a href=""https://developers.google.com/machine-learning/glossary/#objective""><strong>目标</strong></a>。</p>
"
Metrics API (tf.metrics) (Google 的机器学习术语表)|"
<p>一种用于评估模型的 TensorFlow API。例如,<code>tf.metrics.accuracy</code> 用于确定模型的预测与标签匹配的频率。在编写<a href=""https://developers.google.com/machine-learning/glossary/#custom_estimator""><strong>自定义 Estimator</strong></a> 时,您可以调用 Metrics API 函数来指定应如何评估您的模型。</p>
"
小批次 (mini-batch) (Google 的机器学习术语表)|"
<p>从整批<a href=""https://developers.google.com/machine-learning/glossary/#example""><strong>样本</strong></a>内随机选择并在训练或推断过程的一次迭代中一起运行的一小部分样本。小批次的<a href=""https://developers.google.com/machine-learning/glossary/#batch_size""><strong>批次大小</strong></a>通常介于 10 到 1000 之间。与基于完整的训练数据计算损失相比,基于小批次数据计算损失要高效得多。</p>
"
小批次随机梯度下降法 (SGD, mini-batch stochastic gradient descent) (Google 的机器学习术语表)|"
<p>一种采用<a href=""https://developers.google.com/machine-learning/glossary/#mini-batch""><strong>小批次</strong></a>样本的<a href=""https://developers.google.com/machine-learning/glossary/#gradient_descent""><strong>梯度下降法</strong></a>。也就是说,小批次 SGD 会根据一小部分训练数据来估算梯度。<a href=""https://developers.google.com/machine-learning/glossary/#SGD""><strong>Vanilla SGD</strong></a> 使用的小批次的大小为 1。</p>
"
ML (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#machine_learning""><strong>机器学习</strong></a>的缩写。</p>
"
模型 (model) (Google 的机器学习术语表)|"
<p>机器学习系统从训练数据学到的内容的表示形式。多含义术语,可以理解为下列两种相关含义之一:</p>
<ul align=""left"">
<li>一种 <a href=""https://developers.google.com/machine-learning/glossary/#TensorFlow""><strong>TensorFlow</strong></a> 图,用于表示预测的计算结构。</li>
<li>该 TensorFlow 图的特定权重和偏差,通过<a href=""https://developers.google.com/machine-learning/glossary/#model_training""><strong>训练</strong></a>决定。</li>
</ul>
"
模型函数 (model function) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#Estimators""><strong>Estimator</strong></a> 中的函数,用于实现机器学习训练、评估和推断。例如,模型函数的训练部分可以处理以下任务:定义深度神经网络的拓扑并确定其<a href=""https://developers.google.com/machine-learning/glossary/#optimizer""><strong>优化器</strong></a>函数。如果使用<a href=""https://developers.google.com/machine-learning/glossary/#pre-made_Estimator""><strong>预创建的 Estimator</strong></a>,则有人已为您编写了模型函数。如果使用<a href=""https://developers.google.com/machine-learning/glossary/#custom_estimator""><strong>自定义 Estimator</strong></a>,则必须自行编写模型函数。</p>
<p>有关编写模型函数的详细信息,请参阅<a href=""https://www.tensorflow.org/get_started/custom_estimators"">创建自定义 Estimator</a>。</p>
"
模型训练 (model training) (Google 的机器学习术语表)|"
<p>确定最佳<a href=""https://developers.google.com/machine-learning/glossary/#model""><strong>模型</strong></a>的过程。</p>
"
动量 (Momentum) (Google 的机器学习术语表)|"
<p>一种先进的梯度下降法,其中学习步长不仅取决于当前步长的导数,还取决于之前一步或多步的步长的导数。动量涉及计算梯度随时间而变化的指数级加权移动平均值,与物理学中的动量类似。动量有时可以防止学习过程被卡在局部最小的情况。</p>
"
多类别分类 (multi-class classification) (Google 的机器学习术语表)|"
<p>区分两种以上类别的分类问题。例如,枫树大约有 128 种,因此,确定枫树种类的模型就属于多类别模型。反之,仅将电子邮件分为两类(“垃圾邮件”和“非垃圾邮件”)的模型属于<a href=""https://developers.google.com/machine-learning/glossary/#binary_classification""><strong>二元分类模型</strong></a>。<em></em><em></em></p>
"
多项分类 (multinomial classification) (Google 的机器学习术语表)|"
<p>与<a href=""https://developers.google.com/machine-learning/glossary/#multi-class""><strong>多类别分类</strong></a>的含义相同。</p>
"
NaN 陷阱 (NaN trap) (Google 的机器学习术语表)|"
<p>模型中的一个数字在训练期间变成 <a href=""https://en.wikipedia.org/wiki/NaN"">NaN</a>,这会导致模型中的很多或所有其他数字最终也会变成 NaN。</p>
<p>NaN 是“非数字”的缩写。</p>
"
负类别 (negative class) (Google 的机器学习术语表)|"
<p>在<a href=""https://developers.google.com/machine-learning/glossary/#binary_classification""><strong>二元分类</strong></a>中,一种类别称为正类别,另一种类别称为负类别。正类别是我们要寻找的类别,负类别则是另一种可能性。例如,在医学检查中,负类别可以是“非肿瘤”。在电子邮件分类器中,负类别可以是“非垃圾邮件”。另请参阅<a href=""https://developers.google.com/machine-learning/glossary/#positive_class""><strong>正类别</strong></a>。</p>
"
神经网络 (neural network) (Google 的机器学习术语表)|"
<p>一种模型,灵感来源于脑部结构,由多个层构成(至少有一个是<a href=""https://developers.google.com/machine-learning/glossary/#hidden_layer""><strong>隐藏层</strong></a>),每个层都包含简单相连的单元或<a href=""https://developers.google.com/machine-learning/glossary/#neuron""><strong>神经元</strong></a>(具有非线性关系)。</p>
"
神经元 (neuron) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#neural_network""><strong>神经网络</strong></a>中的节点,通常会接收多个输入值并生成一个输出值。神经元通过将<a href=""https://developers.google.com/machine-learning/glossary/#activation_function""><strong>激活函数</strong></a>(非线性转换)应用于输入值的加权和来计算输出值。</p>
"
节点 (node) (Google 的机器学习术语表)|"
<p>多含义术语,可以理解为下列两种含义之一:</p>
<ul align=""left"">
<li><a href=""https://developers.google.com/machine-learning/glossary/#hidden_layer""><strong>隐藏层</strong></a>中的神经元。</li>
<li>TensorFlow <a href=""https://developers.google.com/machine-learning/glossary/#graph""><strong>图</strong></a>中的操作。</li>
</ul>
"
标准化 (normalization) (Google 的机器学习术语表)|"
<p>将实际的值区间转换为标准的值区间(通常为 -1 到 +1 或 0 到 1)的过程。例如,假设某个特征的自然区间是 800 到 6000。通过减法和除法运算,您可以将这些值标准化为位于 -1 到 +1 区间内。</p>
<p>另请参阅<a href=""https://developers.google.com/machine-learning/glossary/#scaling""><strong>缩放</strong></a>。</p>
"
数值数据 (numerical data) (Google 的机器学习术语表)|"
<p>用整数或实数表示的<a href=""https://developers.google.com/machine-learning/glossary/#feature""><strong>特征</strong></a>。例如,在房地产模型中,您可能会用数值数据表示房子大小(以平方英尺或平方米为单位)。如果用数值数据表示特征,则可以表明特征的值相互之间具有数学关系,并且与标签可能也有数学关系。<em></em>例如,如果用数值数据表示房子大小,则可以表明面积为 200 平方米的房子是面积为 100 平方米的房子的两倍。此外,房子面积的平方米数可能与房价存在一定的数学关系。</p>
<p>并非所有整数数据都应表示成数值数据。例如,世界上某些地区的邮政编码是整数,但在模型中,不应将整数邮政编码表示成数值数据。这是因为邮政编码 <code>20000</code> 在效力上并不是邮政编码 10000 的两倍(或一半)。此外,虽然不同的邮政编码确实与不同的房地产价值有关,但我们也不能假设邮政编码为 20000 的房地产在价值上是邮政编码为 10000 的房地产的两倍。<em></em>邮政编码应表示成<a href=""https://developers.google.com/machine-learning/glossary/#categorical_data""><strong>分类数据</strong></a>。</p>
<p>数值特征有时称为<a href=""https://developers.google.com/machine-learning/glossary/#continuous_feature""><strong>连续特征</strong></a>。</p>
"
Numpy (Google 的机器学习术语表)|"
<p>一个<a href=""http://www.numpy.org/"">开放源代码数学库</a>,在 Python 中提供高效的数组操作。<a href=""https://developers.google.com/machine-learning/glossary/#pandas""><strong>Pandas</strong></a> 建立在 Numpy 之上。</p>
"
目标 (objective) (Google 的机器学习术语表)|"
<p>算法尝试优化的指标。</p>
"
离线推断 (offline inference) (Google 的机器学习术语表)|"
<p>生成一组<a href=""https://developers.google.com/machine-learning/glossary/#prediction""><strong>预测</strong></a>,存储这些预测,然后根据需求检索这些预测。与<a href=""https://developers.google.com/machine-learning/glossary/#online_inference""><strong>在线推断</strong></a>相对。</p>
"
独热编码 (one-hot encoding) (Google 的机器学习术语表)|"
<p>一种稀疏向量,其中:</p>
<ul align=""left"">
<li>一个元素设为 1。</li>
<li>所有其他元素均设为 0。</li>
</ul>
<p>独热编码常用于表示拥有有限个可能值的字符串或标识符。例如,假设某个指定的植物学数据集记录了 15000 个不同的物种,其中每个物种都用独一无二的字符串标识符来表示。在特征工程过程中,您可能需要将这些字符串标识符编码为独热向量,向量的大小为 15000。</p>
"
单样本学习(one-shot learning,通常用于对象分类) (Google 的机器学习术语表)|"
<p>一种机器学习方法,通常用于对象分类,旨在通过单个训练样本学习有效的分类器。</p>
<p>另请参阅<a href=""https://developers.google.com/machine-learning/glossary/#few-shot_learning""><strong>少量样本学习</strong></a>。</p>
"
一对多 (one-vs.-all) (Google 的机器学习术语表)|"
<p>假设某个分类问题有 N 种可能的解决方案,一对多解决方案将包含 N 个单独的<a href=""https://developers.google.com/machine-learning/glossary/#binary_classification""><strong>二元分类器</strong></a> - 一个二元分类器对应一种可能的结果。例如,假设某个模型用于区分样本属于动物、蔬菜还是矿物,一对多解决方案将提供下列三个单独的二元分类器:</p>
<ul align=""left"">
<li>动物和非动物</li>
<li>蔬菜和非蔬菜</li>
<li>矿物和非矿物</li>
</ul>
"
在线推断 (online inference) (Google 的机器学习术语表)|"
<p>根据需求生成<a href=""https://developers.google.com/machine-learning/glossary/#prediction""><strong>预测</strong></a>。与<a href=""https://developers.google.com/machine-learning/glossary/#offline_inference""><strong>离线推断</strong></a>相对。</p>
"
操作 (op, Operation) (Google 的机器学习术语表)|"
<p>TensorFlow 图中的节点。在 TensorFlow 中,任何创建、操纵或销毁<a href=""https://developers.google.com/machine-learning/glossary/#tensor""><strong>张量</strong></a>的过程都属于操作。例如,矩阵相乘就是一种操作,该操作以两个张量作为输入,并生成一个张量作为输出。</p>
"
优化器 (optimizer) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#gradient_descent""><strong>梯度下降法</strong></a>的一种具体实现。TensorFlow 的优化器基类是 <a href=""https://www.tensorflow.org/api_docs/python/tf/train/Optimizer"">tf.train.Optimizer</a>。不同的优化器可能会利用以下一个或多个概念来增强梯度下降法在指定<a href=""https://developers.google.com/machine-learning/glossary/#training_set""><strong>训练集</strong></a>中的效果:</p>
<ul align=""left"">
<li><a href=""https://www.tensorflow.org/api_docs/python/tf/train/MomentumOptimizer"">动量</a> (Momentum)</li>
<li>更新频率(<a href=""https://www.tensorflow.org/api_docs/python/tf/train/AdagradOptimizer"">AdaGrad</a> = ADAptive GRADient descent;<a href=""https://www.tensorflow.org/api_docs/python/tf/train/AdamOptimizer"">Adam</a> = ADAptive with Momentum;RMSProp)</li>
<li>稀疏性/正则化 (<a href=""https://www.tensorflow.org/api_docs/python/tf/train/FtrlOptimizer"">Ftrl</a>)</li>
<li>更复杂的数学方法(<a href=""https://www.tensorflow.org/api_docs/python/tf/train/ProximalGradientDescentOptimizer"">Proximal</a>,等等)</li>
</ul>
<p>甚至还包括 <a href=""https://arxiv.org/abs/1606.04474"">NN 驱动的优化器</a>。</p>
"
离群值 (outlier) (Google 的机器学习术语表)|"
<p>与大多数其他值差别很大的值。在机器学习中,下列所有值都是离群值。</p>
<ul align=""left"">
<li>绝对值很高的<a href=""https://developers.google.com/machine-learning/glossary/#weight""><strong>权重</strong></a>。</li>
<li>与实际值相差很大的预测值。</li>
<li>值比平均值高大约 3 个标准偏差的输入数据。</li>
</ul>
<p>离群值常常会导致模型训练出现问题。</p>
"
输出层 (output layer) (Google 的机器学习术语表)|"
<p>神经网络的“最后”一层,也是包含答案的层。</p>
"
过拟合 (overfitting) (Google 的机器学习术语表)|"
<p>创建的模型与<a href=""https://developers.google.com/machine-learning/glossary/#training_set""><strong>训练数据</strong></a>过于匹配,以致于模型无法根据新数据做出正确的预测。</p>
"
Pandas (Google 的机器学习术语表)|"
<p>面向列的数据分析 API。很多机器学习框架(包括 TensorFlow)都支持将 Pandas 数据结构作为输入。请参阅 <a href=""http://pandas.pydata.org/"">Pandas 文档</a>。</p>
"
参数 (parameter) (Google 的机器学习术语表)|"
<p>机器学习系统自行训练的模型的变量。例如,<a href=""https://developers.google.com/machine-learning/glossary/#weight""><strong>权重</strong></a>就是一种参数,它们的值是机器学习系统通过连续的训练迭代逐渐学习到的。与<a href=""https://developers.google.com/machine-learning/glossary/#hyperparameter""><strong>超参数</strong></a>相对。</p>
"
参数服务器 (PS, Parameter Server) (Google 的机器学习术语表)|"
<p>一种作业,负责在分布式设置中跟踪模型<a href=""https://developers.google.com/machine-learning/glossary/#parameter""><strong>参数</strong></a>。</p>
"
参数更新 (parameter update) (Google 的机器学习术语表)|"
<p>在训练期间(通常是在<a href=""https://developers.google.com/machine-learning/glossary/#gradient_descent""><strong>梯度下降法</strong></a>的单次迭代中)调整模型<a href=""https://developers.google.com/machine-learning/glossary/#parameter""><strong>参数</strong></a>的操作。</p>
"
偏导数 (partial derivative) (Google 的机器学习术语表)|"
<p>一种导数,除一个变量之外的所有变量都被视为常量。例如,f(x, y) 对 x 的偏导数就是 f(x) 的导数(即,使 y 保持恒定)。<em></em><em></em><em></em><em></em><em></em>f 对 x 的偏导数仅关注 x 如何变化,而忽略公式中的所有其他变量。<em></em><em></em><em></em></p>
"
划分策略 (partitioning strategy) (Google 的机器学习术语表)|"
<p>在<a href=""https://developers.google.com/machine-learning/glossary/#Parameter_Server""><strong>参数服务器</strong></a>间分割变量的算法。</p>
"
性能 (performance) (Google 的机器学习术语表)|"
<p>多含义术语,具有以下含义:</p>
<ul align=""left"">
<li>在软件工程中的传统含义。即:相应软件的运行速度有多快(或有多高效)?</li>
<li>在机器学习中的含义。在机器学习领域,性能旨在回答以下问题:相应<a href=""https://developers.google.com/machine-learning/glossary/#model""><strong>模型</strong></a>的准确度有多高?即模型在预测方面的表现有多好?</li>
</ul>
"
困惑度 (perplexity) (Google 的机器学习术语表)|"
<p>一种衡量指标,用于衡量<a href=""https://developers.google.com/machine-learning/glossary/#model""><strong>模型</strong></a>能够多好地完成任务。例如,假设任务是读取用户使用智能手机键盘输入字词时输入的前几个字母,然后列出一组可能的完整字词。此任务的困惑度 (P) 是:为了使列出的字词中包含用户尝试输入的实际字词,您需要提供的猜测项的个数。</p>
<p>困惑度与<a href=""https://developers.google.com/machine-learning/glossary/#cross-entropy""><strong>交叉熵</strong></a>的关系如下:</p>
<div>
[$$]P= 2^{-\text{cross entropy}}[/$$]
</div>
"
流水线 (pipeline) (Google 的机器学习术语表)|"
<p>机器学习算法的基础架构。流水线包括收集数据、将数据放入训练数据文件、训练一个或多个模型,以及将模型导出到生产环境。</p>
"
池化 (pooling) (Google 的机器学习术语表)|"
<p>将一个或多个由前趋的<a href=""https://developers.google.com/machine-learning/glossary/#convolutional_layer""><strong>卷积层</strong></a>创建的矩阵压缩为较小的矩阵。池化通常是取整个池化区域的最大值或平均值。以下面的 3x3 矩阵为例:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/PoolingStart.svg"">
</p>
<p>池化运算与卷积运算类似:将矩阵分割为多个切片,然后按<a href=""https://developers.google.com/machine-learning/glossary/#stride""><strong>步长</strong></a>逐个运行卷积运算。例如,假设池化运算按 1x1 步长将卷积矩阵分割为 2x2 个切片。如下图所示,进行了四个池化运算。假设每个池化运算都选择该切片中四个值的最大值:</p>
<p>
<img src=""https://developers.google.com/machine-learning/glossary/images/PoolingConvolution.svg"">
</p>
<p>池化有助于在输入矩阵中实现<a href=""https://developers.google.com/machine-learning/glossary/#translational_invariance""><strong>平移不变性</strong></a>。</p>
<p>对于视觉应用来说,池化的更正式名称为<strong>空间池化</strong>。时间序列应用通常将池化称为<strong>时序池化</strong>。按照不太正式的说法,池化通常称为<strong>下采样</strong>或<strong>降采样</strong>。</p>
"
正类别 (positive class) (Google 的机器学习术语表)|"
<p>在<a href=""https://developers.google.com/machine-learning/glossary/#binary_classification""><strong>二元分类</strong></a>中,两种可能的类别分别被标记为正类别和负类别。正类别结果是我们要测试的对象。(不可否认的是,我们会同时测试这两种结果,但只关注正类别结果。)例如,在医学检查中,正类别可以是“肿瘤”。在电子邮件分类器中,正类别可以是“垃圾邮件”。</p>
<p>与<a href=""https://developers.google.com/machine-learning/glossary/#negative_class""><strong>负类别</strong></a>相对。</p>
"
精确率 (precision) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#classification_model""><strong>分类模型</strong></a>指标。精确率指模型正确预测<a href=""https://developers.google.com/machine-learning/glossary/#positive_class""><strong>正类别</strong></a>的频率,即:</p>
<div>
[$$]\text{精确率} = \frac{\text{正例数}} {\text{正例数} + \text{假正例数}}[/$$]
</div>
"
预测 (prediction) (Google 的机器学习术语表)|"
<p>模型在收到输入<a href=""https://developers.google.com/machine-learning/glossary/#example""><strong>样本</strong></a>后的输出。</p>
"
预测偏差 (prediction bias) (Google 的机器学习术语表)|"
<p>一种值,用于表明<a href=""https://developers.google.com/machine-learning/glossary/#prediction""><strong>预测</strong></a>平均值与数据集中<a href=""https://developers.google.com/machine-learning/glossary/#label""><strong>标签</strong></a>的平均值相差有多大。</p>
"
预创建的 Estimator (pre-made Estimator) (Google 的机器学习术语表)|"
<p>其他人已建好的 <a href=""https://developers.google.com/machine-learning/glossary/#Estimator""><strong>Estimator</strong></a>。TensorFlow 提供了一些预创建的 Estimator,包括 <code>DNNClassifier</code>、<code>DNNRegressor</code> 和 <code>LinearClassifier</code>。您可以按照<a href=""https://www.tensorflow.org/extend/estimators"">这些说明</a>构建自己预创建的 Estimator。</p>
"
预训练模型 (pre-trained model) (Google 的机器学习术语表)|"
<p>已经过训练的模型或模型组件(例如<a href=""https://developers.google.com/machine-learning/glossary/#embeddings""><strong>嵌套</strong></a>)。有时,您需要将预训练的嵌套馈送到<a href=""https://developers.google.com/machine-learning/glossary/#neural_network""><strong>神经网络</strong></a>。在其他时候,您的模型将自行训练嵌套,而不依赖于预训练的嵌套。</p>
"
先验信念 (prior belief) (Google 的机器学习术语表)|"
<p>在开始采用相应数据进行训练之前,您对这些数据抱有的信念。例如,<a href=""https://developers.google.com/machine-learning/glossary/#L2_regularization""><strong>L<sub>2</sub> 正则化</strong></a>依赖的先验信念是<a href=""https://developers.google.com/machine-learning/glossary/#weight""><strong>权重</strong></a>应该很小且应以 0 为中心呈正态分布。</p>
"
队列 (queue) (Google 的机器学习术语表)|"
<p>一种 TensorFlow <a href=""https://developers.google.com/machine-learning/glossary/#Operation""><strong>操作</strong></a>,用于实现队列数据结构。通常用于 I/O 中。</p>
"
等级 (rank) (Google 的机器学习术语表)|"
<p>机器学习中的一个多含义术语,可以理解为下列含义之一:</p>
<ul align=""left"">
<li><a href=""https://developers.google.com/machine-learning/glossary/#tensor""><strong>张量</strong></a>中的维数。例如,标量等级为 0,向量等级为 1,矩阵等级为 2。</li>
<li>在将类别从最高到最低进行排序的机器学习问题中,类别的顺序位置。例如,行为排序系统可以将狗狗的奖励从最高(牛排)到最低(枯萎的羽衣甘蓝)进行排序。</li>
</ul>
"
评分者 (rater) (Google 的机器学习术语表)|"
<p>为<a href=""https://developers.google.com/machine-learning/glossary/#example""><strong>样本</strong></a>提供<a href=""https://developers.google.com/machine-learning/glossary/#label""><strong>标签</strong></a>的人。有时称为“注释者”。</p>
"
召回率 (recall) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#classification_model""><strong>分类模型</strong></a>指标,用于回答以下问题:在所有可能的正类别标签中,模型正确地识别出了多少个?即:</p>
<p>[$$]\text{召回率} = \frac{\text{正例数}} {\text{正例数} + \text{假负例数}}[/$$]</p>
"
修正线性单元 (ReLU, Rectified Linear Unit) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#activation_function""><strong>激活函数</strong></a>,其规则如下:</p>
<ul align=""left"">
<li>如果输入为负数或 0,则输出 0。</li>
<li>如果输入为正数,则输出等于输入。</li>
</ul>
"
回归模型 (regression model) (Google 的机器学习术语表)|"
<p>一种模型,能够输出连续的值(通常为浮点值)。请与<a href=""https://developers.google.com/machine-learning/glossary/#classification_model""><strong>分类模型</strong></a>进行比较,分类模型会输出离散值,例如“黄花菜”或“虎皮百合”。</p>
"
正则化 (regularization) (Google 的机器学习术语表)|"
<p>对模型复杂度的惩罚。正则化有助于防止出现<a href=""https://developers.google.com/machine-learning/glossary/#overfitting""><strong>过拟合</strong></a>,包含以下类型:</p>
<ul align=""left"">
<li><a href=""https://developers.google.com/machine-learning/glossary/#L1_regularization""><strong>L<sub>1</sub> 正则化</strong></a></li>
<li><a href=""https://developers.google.com/machine-learning/glossary/#L2_regularization""><strong>L<sub>2</sub> 正则化</strong></a></li>
<li><a href=""https://developers.google.com/machine-learning/glossary/#dropout_regularization""><strong>丢弃正则化</strong></a></li>
<li><a href=""https://developers.google.com/machine-learning/glossary/#early_stopping""><strong>早停法</strong></a>(这不是正式的正则化方法,但可以有效限制过拟合)</li>
</ul>
"
正则化率 (regularization rate) (Google 的机器学习术语表)|"
<p>一种标量值,以 lambda 表示,用于指定正则化函数的相对重要性。从下面简化的<a href=""https://developers.google.com/machine-learning/glossary/#loss""><strong>损失</strong></a>公式中可以看出正则化率的影响:</p>
<div>
[$$]\text{最小化(损失方程 + }\lambda\text{(正则化方程))}[/$$]
</div>
<p>提高正则化率可以减少<a href=""https://developers.google.com/machine-learning/glossary/#overfitting""><strong>过拟合</strong></a>,但可能会使模型的<a href=""https://developers.google.com/machine-learning/glossary/#accuracy""><strong>准确率</strong></a>降低。</p>
"
表示法 (representation) (Google 的机器学习术语表)|"
<p>将数据映射到实用<a href=""https://developers.google.com/machine-learning/glossary/#feature""><strong>特征</strong></a>的过程。</p>
"
受试者工作特征曲线(receiver operating characteristic,简称 ROC 曲线) (Google 的机器学习术语表)|"
<p>不同<a href=""https://developers.google.com/machine-learning/glossary/#classification_threshold""><strong>分类阈值</strong></a>下的<a href=""https://developers.google.com/machine-learning/glossary/#TP_rate""><strong>正例率</strong></a>和<a href=""https://developers.google.com/machine-learning/glossary/#FP_rate""><strong>假正例率</strong></a>构成的曲线。另请参阅<a href=""https://developers.google.com/machine-learning/glossary/#AUC""><strong>曲线下面积</strong></a>。</p>
"
根目录 (root directory) (Google 的机器学习术语表)|"
<p>您指定的目录,用于托管多个模型的 TensorFlow 检查点和事件文件的子目录。</p>
"
均方根误差 (RMSE, Root Mean Squared Error) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#MSE""><strong>均方误差</strong></a>的平方根。</p>
"
旋转不变性 (rotational invariance) (Google 的机器学习术语表)|"
<p>在图像分类问题中,即使图像的方向发生变化,算法也能成功地对图像进行分类。例如,无论网球拍朝上、侧向还是朝下放置,该算法仍然可以识别它。请注意,并非总是希望旋转不变;例如,倒置的“9”不应分类为“9”。</p>
<p>另请参阅<a href=""https://developers.google.com/machine-learning/glossary/#translational_invariance""><strong>平移不变性</strong></a>和<a href=""https://developers.google.com/machine-learning/glossary/#size_invariance""><strong>大小不变性</strong></a>。</p>
"
SavedModel (Google 的机器学习术语表)|"
<p>保存和恢复 TensorFlow 模型时建议使用的格式。SavedModel 是一种独立于语言且可恢复的序列化格式,使较高级别的系统和工具可以创建、使用和转换 TensorFlow 模型。</p>
<p>如需完整的详细信息,请参阅《TensorFlow 编程人员指南》中的<a href=""https://www.tensorflow.org/programmers_guide/saved_model"">保存和恢复</a>。</p>
"
Saver (Google 的机器学习术语表)|"
<p>一种 <a href=""https://www.tensorflow.org/api_docs/python/tf/train/Saver"">TensorFlow 对象</a>,负责保存模型检查点。</p>
"
缩放 (scaling) (Google 的机器学习术语表)|"
<p><a href=""https://developers.google.com/machine-learning/glossary/#feature_engineering""><strong>特征工程</strong></a>中的一种常用做法,是指对某个特征的值区间进行调整,使之与数据集中其他特征的值区间一致。例如,假设您希望数据集中所有浮点特征的值都位于 0 到 1 区间内,如果某个特征的值位于 0 到 500 区间内,您就可以通过将每个值除以 500 来缩放该特征。</p>
<p>另请参阅<a href=""https://developers.google.com/machine-learning/glossary/#normalization""><strong>标准化</strong></a>。</p>
"
scikit-learn (Google 的机器学习术语表)|"
<p>一个热门的开放源代码机器学习平台。请访问 <a href=""http://www.scikit-learn.org/"">www.scikit-learn.org</a>。</p>
"
半监督式学习 (semi-supervised learning) (Google 的机器学习术语表)|"
<p>训练模型时采用的数据中,某些训练样本有标签,而其他样本则没有标签。半监督式学习采用的一种技术是推断无标签样本的标签,然后使用推断出的标签进行训练,以创建新模型。如果获得有标签样本需要高昂的成本,而无标签样本则有很多,那么半监督式学习将非常有用。</p>
"
序列模型 (sequence model) (Google 的机器学习术语表)|"
<p>一种模型,其输入具有序列依赖性。例如,根据之前观看过的一系列视频对观看的下一个视频进行预测。</p>
"
会话 (tf.session) (Google 的机器学习术语表)|"
<p>封装了 TensorFlow 运行时状态的对象,用于运行全部或部分<a href=""https://developers.google.com/machine-learning/glossary/#graph""><strong>图</strong></a>。在使用底层 TensorFlow API 时,您可以直接创建并管理一个或多个 <code>tf.session</code> 对象。在使用 Estimator API 时,Estimator 会为您创建会话对象。</p>
"
S 型函数 (sigmoid function) (Google 的机器学习术语表)|"
<p>一种函数,可将逻辑回归输出或多项回归输出(对数几率)映射到概率,以返回介于 0 到 1 之间的值。S 型函数的公式如下:</p>
<div>
[$$]y = \frac{1}{1 + e^{-\sigma}}[/$$]
</div>
<p>在<a href=""https://developers.google.com/machine-learning/glossary/#logistic_regression""><strong>逻辑回归</strong></a>问题中,\(\sigma\) 非常简单:</p>
<div>
[$$]\sigma = b + w_1x_1 + w_2x_2 + … w_nx_n[/$$]
</div>
<p>换句话说,S 型函数可将 \(\sigma\) 转换为介于 0 到 1 之间的概率。</p>
<p>在某些<a href=""https://developers.google.com/machine-learning/glossary/#neural_network""><strong>神经网络</strong></a>中,S 型函数可作为<a href=""https://developers.google.com/machine-learning/glossary/#activation_function""><strong>激活函数</strong></a>使用。</p>
"
大小不变性 (size invariance) (Google 的机器学习术语表)|"
<p>在图像分类问题中,即使图像的大小发生变化,算法也能成功地对图像进行分类。例如,无论一只猫以 200 万像素还是 20 万像素呈现,该算法仍然可以识别它。请注意,即使是最好的图像分类算法,在大小不变性方面仍然会存在切实的限制。例如,对于仅以 20 像素呈现的猫图像,算法(或人)不可能正确对其进行分类。</p>
<p>另请参阅<a href=""https://developers.google.com/machine-learning/glossary/#translational_invariance""><strong>平移不变性</strong></a>和<a href=""https://developers.google.com/machine-learning/glossary/#rotational_invariance""><strong>旋转不变性</strong></a>。</p>
"
softmax (Google 的机器学习术语表)|"
<p>一种函数,可提供<a href=""https://developers.google.com/machine-learning/glossary/#multi-class""><strong>多类别分类模型</strong></a>中每个可能类别的概率。这些概率的总和正好为 1.0。例如,softmax 可能会得出某个图像是狗、猫和马的概率分别是 0.9、0.08 和 0.02。(也称为<strong>完整 softmax</strong>。)</p>
<p>与<a href=""https://developers.google.com/machine-learning/glossary/#candidate_sampling""><strong>候选采样</strong></a>相对。</p>
"
稀疏特征 (sparse feature) (Google 的机器学习术语表)|"
<p>一种<a href=""https://developers.google.com/machine-learning/glossary/#feature""><strong>特征</strong></a>向量,其中的大多数值都为 0 或为空。例如,某个向量包含一个为 1 的值和一百万个为 0 的值,则该向量就属于稀疏向量。再举一个例子,搜索查询中的单词也可能属于稀疏特征 - 在某种指定语言中有很多可能的单词,但在某个指定的查询中仅包含其中几个。</p>
<p>与<a href=""https://developers.google.com/machine-learning/glossary/#dense_feature""><strong>密集特征</strong></a>相对。</p>
"
稀疏表示法 (sparse representation) (Google 的机器学习术语表)|"
<p>一种张量<a href=""https://developers.google.com/machine-learning/glossary/#representation""><strong>表示法</strong></a>,仅存储非零元素。</p>
<p>例如,英语中包含约一百万个单词。表示一个英语句子中所用单词的数量,考虑以下两种方式:</p>
<ul align=""left"">
<li>要采用<strong>密集表示法</strong>来表示此句子,则必须为所有一百万个单元格设置一个整数,然后在大部分单元格中放入 0,在少数单元格中放入一个非常小的整数。</li>
<li>要采用稀疏表示法来表示此句子,则仅存储象征句子中实际存在的单词的单元格。因此,如果句子只包含 20 个独一无二的单词,那么该句子的稀疏表示法将仅在 20 个单元格中存储一个整数。</li>
</ul>
<p>例如,假设以两种方式来表示句子“Dogs wag tails.”。如下表所示,密集表示法将使用约一百万个单元格;稀疏表示法则只使用 3 个单元格:</p>
<div id=""sparse-dense-tables"">
<table id=""sparse-table"">
<caption>密集表示法</caption>
<thead>
<tr>
<th>单元格编号</th>
<th>单词</th>
<th>出现次数</th>
</tr>
</thead>
<tbody>
<tr>
<td>0</td>
<td>a</td>
<td>0</td>
</tr>
<tr>
<td>1</td>
<td>aardvark</td>
<td>0</td>
</tr>
<tr>
<td>2</td>
<td>aargh</td>
<td>0</td>
</tr>
<tr>
<td>3</td>
<td>aarti</td>
<td>0</td>
</tr>
<tr class=""elided-rows"">
<td colspan=""3""><strong>… 出现次数为 0 的另外 140391 个单词</strong></td>
</tr>
<tr>
<td>140395</td>
<td>dogs</td>
<td>1</td>
</tr>
<tr class=""elided-rows"">
<td colspan=""3""><strong>… 出现次数为 0 的 633062 个单词</strong></td>
</tr>
<tr>
<td>773458</td>
<td>tails</td>
<td>1</td>
</tr>
<tr class=""elided-rows"">
<td colspan=""3""><strong>… 出现次数为 0 的 189136 个单词</strong></td>
</tr>
<tr>
<td>962594</td>
<td>wag</td>
<td>1</td>
</tr>
<tr class=""elided-rows"">
<td colspan=""3""><strong>… 出现次数为 0 的很多其他单词</strong></td>
</tr>
</tbody>
</table>
<table id=""dense-table"">
<caption>稀疏表示法</caption>
<thead>
<tr>
<th>单元格编号</th>
<th>单词</th>
<th>出现次数</th>
</tr>
</thead>
<tbody>
<tr>
<td>140395</td>
<td>dogs</td>
<td>1</td>
</tr>
<tr>
<td>773458</td>
<td>tails</td>
<td>1</td>
</tr>
<tr>
<td>962594</td>