我正在处理数据,每个患者都可以有不同数量的训练样例.当运行Xgboost CV时,我想确保同一患者的数据仅限于同一个折叠,因此我需要使用折叠,其中可能有不同数量的索引.
在使用xgb.cv函数中的’fold’参数传递包含索引的numpy数组列表时,我得到:
dtrain = dall.slice(np.concatenate([idset [i] for i in range(nfold)if k!= i]))
ValueError:无法连接零维数组
我已经在R中实现了相同的过程,没有任何问题,我将自定义折叠作为列表传递,其中每个元素都是测试折叠索引的向量.
你能否告诉我们将自定义索引传递给Python XGBoost CV函数的正确方法.谢谢!
解决方法:
这已经很老了,但是当我遇到类似的问题时,我正在为谷歌搜索找到答案.
我想将TimeSeriesSplit与xgboost cv一起使用但不能直接执行,因为folds参数需要KFold或StratifiedKFold,但是,您可以将自己的索引列表作为元组列表给出,如下所示
train1 = [0, 1, 2, 3, 4]
test1 = [4, 5, 6, 7, 8]
train2 = [9 ,10 ,11 ,12 ,13]
test2 = [14, 15, 16, 17, 18]
train3= [19, 20, 21, 22, 23, 24]
test3 = [25, 26, 27, 28, 29, 30]
tsFolds = [(train1, test1), (train2, test2), (train3, test3)]
xgbCV = xgb.cv(
params = parameters,
dtrain = trainDMat,
num_boost_round = num_boost_round,
nfold = len(tsFolds),
folds = tsFolds,
metrics = {'rmse'},
early_stopping_rounds = early_stopping_rounds,
verbose_eval = True,
seed = seed
)