编辑实验 创建词条
人大经济论坛-经管百科

数据集 发表评论(0) 编辑词条

目录

定义 编辑本段回目录

数据集:数据的集合,由样本(行)和变量(列)组成,表1.1
数据集数据集
即一个数据集。

分类编辑本段回目录

这三个名词在机器学习领域的文章中极其常见,但很多人对他们的概念并不是特别清楚,尤其是后两个经常被人混用。Ripley, B.D(1996)在他的经典专著Pattern Recognition and Neural Networks中给出了这三个词的定义。
Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier.
Validation set: A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network.
Test set: A set of examples used only to assess the performance [generalization] of a fully specified classifier.
显然,training set是用来训练模型或确定模型参数的,如ANN中权值等; validation set是用来做模型选择(model selection),即做模型的最终优化及确定的,如ANN的结构;而 test set则纯粹是为了测试已经训练好的模型的推广能力。当然,test set这并不能保证模型的正确性,他只是说相似的数据用此模型会得出相似的结果。但实际应用中,一般只将数据集分成两类,即training set 和test set,大多数文章并不涉及validation set。
Ripley还谈到了Why separate test and validation sets?
1. The error rate estimate of the final model on validation data will be biased (smaller than the true error rate) since the validation set is used to select the final model.
2. After assessing the final model with the test set, YOU MUST NOT tune the model any further.

创建随机数据集的方法编辑本段回目录

excel

 用rand函数 举例:=CONCATENATE(CHAR(RAND()*26+65),INT(RAND()*899999999+100000001))生成大写字母开头连上9个数字的字符串

sql语句方法


同样生成字母加数字可以用以下代码

declare @id

declare @i int
SET @i=0

WHILE @i<100
begin

Set @id=char(CONVERT(CHAR,CONVERT(INT,26*rand())+65))+RIGHT(1000000000+CONVERT(bigint, ABS(CHECKSUM(NEWID()))), 9)

print @id
select @i = @i +1
end

其他统计软件可以设定按照分布函数创建随机数集 用到seed相关语句 数据挖掘老师让我们自己创建数据进行挖掘 而网上很难找到完全的相关资料 所以根据自己搜集的发到这里方便需要的人

经管百科已经为您找到更多关于“数据集”的相关信息,点击查看>>

本词条由以下会员参与贡献

附件列表

→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
1

收藏到: Favorites  

同义词: 暂无同义词

关于本词条的评论 (共0条)发表评论>>