(1)keras
数据集来自 IMDB 的 25,000 条电影评论,以情绪(正面/负面)标记。评论已经过预处理,并编码为词索引(整数)的序列表示。为了方便起见,将词按数据集中出现的频率进行索引,例如整数 3 编码数据中第三个最频繁的词。这允许快速筛选 *** 作,例如:「只考虑前 10,000 个最常用的词,但排除前 20 个最常见的词」。(引用keras中文文档)
作为惯例,0 不代表特定的单词,而是被用于编码任何未知单词。
from keras.datasets import imdb (x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz", num_words=None, skip_top=0, maxlen=None, seed=113, start_char=1, oov_char=2, index_from=3)
numpy.ndarray格式
>>> x_train.shape (25000,) >>> x_test.shape (25000,) >>> type(x_train) numpy.ndarray
(2)datasets
from datasets import load_dataset raw_datasets = load_dataset("imdb")
DatasetDict({ train: Dataset({ features: ['text', 'label'], num_rows: 25000 }) test: Dataset({ features: ['text', 'label'], num_rows: 25000 }) unsupervised: Dataset({ features: ['text', 'label'], num_rows: 50000 }) })
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)