python – 可以从pandas dataframe迭代

我需要创建一个可迭代的表单(id,{feature name:features weight})来使用python包.

我的数据存储在一个pandas数据帧中,这里有一个例子:

data = pd.DataFrame({"id":[1,2,3],
                    "gender":[1,0,1],
                    "age":[25,23,40]})

对于{feature name:features weight})部分,我知道我可以使用这个:

fe = data.to_dict(orient='records')
Out[28]: 
[{'age': 25, 'gender': 1, 'id': 1},
 {'age': 23, 'gender': 0, 'id': 2},
 {'age': 40, 'gender': 1, 'id': 3}]

我知道我也可以迭代数据框来获取id,如下所示:

(row[1] for row in data.itertuples())

但我可以将这两个一起得到一个可迭代的(生成器对象)
我试过了 :

((row[1] for row in data.itertuples()),fe[i] for i in range(len(data)))

但语法错了.
你们知道怎么做吗?

解决方法:

pd.DataFrame.itertuples返回命名元组.您可以通过专用方法_asdict迭代并将每行转换为字典.您可以将其包装在生成器函数中以创建惰性读取器:

data = pd.DataFrame({"id":[1,2,3],
                    "gender":[1,0,1],
                    "age":[25,23,40]})

def gen_rows(df):
    for row in df.itertuples(index=False):
        yield row._asdict()

G = gen_rows(data)

print(next(G))  # OrderedDict([('age', 25), ('gender', 1), ('id', 1)])
print(next(G))  # OrderedDict([('age', 23), ('gender', 0), ('id', 2)])
print(next(G))  # OrderedDict([('age', 40), ('gender', 1), ('id', 3)])

请注意,结果将是OrderedDict个对象.作为dict的子类,在大多数情况下,这应该足够了.

上一篇:在Python中,如何确定对象是否可迭代?


下一篇:如何测试X是否像列表/元组一样嘎嘎叫