IMDB 电影评论情感分类数据集_随笔

IMDB 电影评论情感分类数据集官网下载地址

（1）keras

数据集来自 IMDB 的 25,000 条电影评论，以情绪（正面/负面）标记。评论已经过预处理，并编码为词索引（整数）的序列表示。为了方便起见，将词按数据集中出现的频率进行索引，例如整数 3 编码数据中第三个最频繁的词。这允许快速筛选 *** 作，例如：「只考虑前 10,000 个最常用的词，但排除前 20 个最常见的词」。（引用keras中文文档）

作为惯例，0 不代表特定的单词，而是被用于编码任何未知单词。

from keras.datasets import imdb

(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
                                                      num_words=None,
                                                      skip_top=0,
                                                      maxlen=None,
                                                      seed=113,
                                                      start_char=1,
                                                      oov_char=2,
                                                      index_from=3)

numpy.ndarray格式

>>> x_train.shape
(25000,)
>>> x_test.shape
(25000,)
>>> type(x_train)
numpy.ndarray

（2）datasets

from datasets import load_dataset

raw_datasets = load_dataset("imdb")

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    unsupervised: Dataset({
        features: ['text', 'label'],
        num_rows: 50000
    })
})

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5680431.html

IMDB 电影评论情感分类数据集

发表评论

评论列表（0条）