【TensorFlow 2.0教程】对影视评论进行文本分类

  • A+
所属分类:TensorFlow 2.0

本文将对电影评论文本进行分类,分为正面影评和负面影评,这是一个在机器学习问题中非常重要且常见的二分类问题。

本文演示使用TensorFlow Hub和Keras进行转移学习的基本应用。

我们将使用IMDB数据集,其中包含了来自互联网电影数据库的50,000篇电影评论的文本,它们被分成25000个训练评论文本和25000个测试评论文本。训练集和测试集中的评论类型是比较平衡的,这意味着它们包含相同数量的正面和负面评论。

我们同样使用keras高级API,用于在TensorFlow中构建和训练模型。TensorFlow Hub是一个用于转移学习的库和平台,我们将使用其中已经训练好的文本嵌入模型。

首先,导入本文将用到的python库:

下载IMDB数据集

TensorFlow datasets库提供了IMDB数据集,下面的代码使用datasets库下载该数据集:

输出如下:

展开

探索数据

首先,让我们花点时间来看看数据集的数据格式。每个样本都包含一段电影评论文本,以及相应的标签。电影评论文本没有经过任何预处理,标签为0或1的整数值,其中0表示负面评论,1表示正面评论。

让我们打印头10个样本看看:

展开