使用TensorFlow生成诗歌文本实验-尧图网站建设

📅 发布时间：2026/6/19 21:49:05

使用TensorFlow生成诗歌文本实验

在智能写作逐渐走入日常的今天，你是否曾好奇：机器真的能写出“春风又绿江南岸”这样的诗句吗？随着深度学习的发展，AI 创作已不再是科幻桥段。尤其是在中文诗歌这种高度凝练、讲究韵律与意境的语言形式中，基于神经网络的文本生成技术正展现出令人惊喜的表现。

本文不从理论堆砌开始，而是直接切入实战——我们以TensorFlow为工具，构建一个能够自动生成古典诗词的模型。整个过程不仅涵盖数据处理、模型搭建和训练推理，更会深入探讨如何让机器“学会”诗意，以及如何将这一能力真正落地到实际应用中。

为什么选择 TensorFlow？

尽管 PyTorch 因其灵活的动态图机制在研究领域广受欢迎，但在工业级部署场景下，TensorFlow 依然是不可忽视的选择。它不仅仅是一个训练框架，更是一整套从开发到上线的完整生态。

比如，在本次实验中，我们将使用tf.keras快速搭建 LSTM 模型，利用TensorBoard实时监控训练状态，并最终通过SavedModel格式导出模型，支持 Web 服务甚至移动端调用。这种端到端的能力，正是许多企业项目所依赖的核心优势。

更重要的是，TensorFlow 对 GPU 和 TPU 的原生优化，使得即使面对大规模文本序列训练，也能保持高效稳定。对于需要长期运行、高并发响应的实际系统来说，这份“生产级”的稳健性尤为关键。

模型设计：让机器理解诗的节奏

中文诗歌的魅力在于其结构之美——五言、七言、押韵、对仗……虽然我们不会在这里实现严格的格律控制，但可以通过合理的模型设计，让生成结果自然贴近这些特征。

架构选型：LSTM 还是 Transformer？

虽然 Transformer 在现代 NLP 中占据主导地位，但对于小规模、风格化强的任务（如古诗生成），双层堆叠的 LSTM 模型反而更具性价比。原因如下：

训练数据有限（通常几千到几万首诗），Transformer 容易过拟合；
LSTM 能很好地捕捉字符间的时序依赖，适合处理短序列、高节奏感的诗句；
参数量更少，推理速度快，便于后续部署。

当然，这并不意味着不能用 Transformer。如果你有足够的算力和数据，尝试基于 GPT 结构的轻量版模型也未尝不可。但在本实验中，我们聚焦实用性和可复现性，选择经典的 LSTM 方案。

模型结构一览

import tensorflow as tf from tensorflow.keras import layers, models vocab_size = 3000 # 经验值：覆盖常见汉字足矣 embedding_dim = 256 lstm_units = 512 sequence_length = 64 # 可容纳多句五/七言诗 model = models.Sequential([ layers.Embedding(vocab_size, embedding_dim, input_length=sequence_length), layers.LSTM(lstm_units, return_sequences=True, dropout=0.3), layers.LSTM(lstm_units, return_sequences=True, dropout=0.3), layers.Dense(vocab_size, activation='softmax') ]) model.compile( optimizer=tf.keras.optimizers.Adam(learning_rate=1e-3), loss='sparse_categorical_crossentropy', metrics=['accuracy'] )

这里有几个值得注意的设计细节：

Embedding 层将每个汉字映射为 256 维向量，使模型能在语义空间中捕捉“春”与“冬”、“山”与“水”之间的关系；
两个 LSTM 层堆叠使用，增强记忆能力，尤其有助于跨句呼应（如“孤帆远影碧空尽”之后接“唯见长江天际流”）；
return_sequences=True确保每一时间步都有输出，从而实现逐字预测；
Dropout 设置为 0.3 是为了避免在较小数据集上过拟合；
输出层采用softmax，输出下一个字符在整个词表中的概率分布。

整个模型约有 400 万参数，在现代 GPU 上训练数十分钟即可收敛。

数据怎么处理？中文文本的独特挑战

不同于英文有天然的空格分隔，中文是以单字或词语为单位连续书写的。因此，在预处理阶段我们必须做出一个重要决策：按字切分还是按词切分？

对于古典诗歌而言，按字处理往往是更优选择。原因很简单：

古诗讲求音节整齐，“一”字一拍，五言即五拍，七言即七拍；
分词容易出错，尤其是文言虚词（如“之乎者也”）常被误判；
字级模型虽词汇表达能力弱一些，但结构清晰、泛化能力强。

具体流程如下：

读取原始文本（如《全唐诗》清洗后版本）；
去除标点、注释、作者信息等非诗句内容；
将每首诗拼接成字符串，按字符切分；
构建char2idx和idx2char映射表；
使用滑动窗口截取长度为sequence_length的子序列作为输入，标签为其后一个字符。

例如：

输入序列："床前明月光疑是地上霜" 标签序列： "前明月光疑是地上霜举"

这样就构成了一个典型的自回归语言建模任务：给定前文，预测下一个字。

如何让生成结果更有“诗意”？

很多人试过文本生成模型，结果却总是“不知所云”。问题往往不在模型本身，而在推理策略的设计。

温度调节：控制创造力的旋钮

最简单的做法是贪婪搜索——每次都选概率最高的那个字。但这会导致重复套路：“春风拂面 → 春风拂面 → 春风拂面”。

更好的方式是引入温度参数（temperature）来调整输出分布的平滑程度：

predictions = model(input_eval) predictions = tf.squeeze(predictions, 0) / temperature predicted_id = tf.random.categorical(predictions, num_samples=1)[-1, 0].numpy()

当temperature = 0.5：分布更尖锐，倾向于选择高概率词，生成更保守、流畅；
当temperature = 1.0：保持原始分布，平衡合理与多样；
当temperature = 1.5以上：低概率词也有机会被选中，可能产生惊艳但也荒诞的结果。

你可以把它想象成一个“灵感开关”：调高一点，说不定就蹦出一句“星垂平野阔”。

其他采样技巧

除了温度调节，还可以结合以下方法进一步提升质量：

Top-k 采样：只从概率最高的 k 个候选中抽样，避免极低概率噪声干扰；
Top-p（核采样）：动态选择累计概率达到 p 的最小词集，适应不同不确定性情境；
重复惩罚：降低已出现词汇的概率，防止无限循环。

不过在本实验中，仅使用温度调节已足够获得不错的效果。

实际生成效果示例

假设我们用《全唐诗》前一万首进行训练，经过 30 个 epoch 后，模型开始展现出一定的“文学素养”。

以起始词“夜雨”为例，设置temperature=0.8，生成结果如下：

夜雨落花深，孤灯照影沉。
江风催客梦，山月伴琴心。
酒尽愁难断，书残泪欲禁。
何当共携手，归去卧松林。

你看，虽未必出自名家之手，但基本符合五言律诗格式，意境连贯，押韵自然。个别句子如“山月伴琴心”，甚至颇有韵味。

再试一次，换temperature=1.2：

夜雨洗秋尘，寒鸦啼远津。
云开见江树，风起动渔人。
孤舟随浪转，残梦与谁亲？
忽闻笛声起，飘然天上身。

这次多了几分飘逸之气，最后一句“飘然天上身”颇具仙意。虽然逻辑略显跳跃，但正因如此，反而更像某种超现实的诗意表达。

这正是神经网络生成的魅力所在：它不是复制，而是模仿基础上的再创造。

能否投入真实应用？系统架构思考

实验室里的 demo 很美，但能不能变成一款可用的产品？答案是肯定的，只要做好工程衔接。

典型部署架构

[用户输入] ↓ [Flask/FastAPI 后端] ↓ [加载 SavedModel 模型] ↓ [执行 generate_text()] ↓ [返回生成诗句] ↑ [前端页面 or 移动App]

关键环节说明：

模型导出：使用tf.saved_model.save(model, 'poem_generator/')导出标准格式；
服务封装：通过 Flask 提供/generate接口，接收 prompt 和 temperature 参数；
性能优化：若需更高并发，可用 TensorFlow Serving 实现批量推理与自动缩放；
移动端适配：借助 TensorFlow Lite 将模型压缩并部署至手机 App，实现离线生成。

此外，还可以加入一些增强功能：

用户可指定诗题、体裁（五绝、七律）、情感基调（豪放、婉约）；
加入关键词约束机制，确保生成内容围绕主题展开；
提供多轮交互式创作，类似“续写”模式。

遇到的问题与应对策略

在真实实践中，你会发现很多教科书没提的小坑。以下是几个常见问题及解决方案：

1. 生成内容重复严重

现象：模型陷入“秋风秋月秋思愁”这类无限循环。

对策：
- 提高 dropout；
- 引入重复惩罚项（repetition penalty）；
- 使用 beam search 替代随机采样（但会牺牲多样性）。

2. 训练初期 loss 下降慢

原因：初始权重不合理或学习率过高/过低。

建议：
- 使用 Adam 优化器，默认学习率1e-3起步；
- 观察 TensorBoard 曲线，适时启用学习率衰减；
- 若梯度爆炸，添加梯度裁剪：optimizer = tf.keras.optimizers.Adam(clipnorm=1.0)。

3. 模型体积过大，难以部署

典型情况：嵌入层占内存大，不适合移动端。

压缩方案：
- 减小vocab_size至 2000 左右，保留高频字；
- 降低embedding_dim到 128；
- 使用知识蒸馏训练小型学生模型；
- 应用权重量化（int8）转换为 TFLite 模型。

可视化与调试：别忘了 TensorBoard

一个优秀的工程师不会盲目训练。TensorFlow 提供了强大的可视化工具TensorBoard，帮助你实时掌握模型状态。

只需在训练时添加回调：

tensorboard_callback = tf.keras.callbacks.TensorBoard(log_dir="./logs", histogram_freq=1) model.fit(dataset, epochs=50, callbacks=[tensorboard_callback])

然后运行：

tensorboard --logdir=./logs

你就能看到：

损失曲线是否平稳下降；
准确率是否有提升空间；
各层权重分布是否异常；
是否存在梯度消失或爆炸。

这些信息对于判断模型是否“学到了东西”至关重要。

最终价值：不止于写诗

这个实验表面上是在教 AI 写诗，实则是一次完整的深度学习工程实践。它涵盖了：

数据清洗与编码
模型设计与调参
训练监控与评估
推理生成与采样策略
模型导出与部署路径

更重要的是，它展示了人工智能如何介入文化创意领域。未来，类似的模型可以扩展到：

教育辅助：帮助学生理解诗歌结构与修辞手法；
写作助手：为作家提供灵感启发；
数字人文研究：分析不同时期诗歌语言演变趋势；
文化传播：将古典美学以新颖方式呈现给年轻一代。

而这一切的背后，都离不开像 TensorFlow 这样兼具灵活性与稳定性的工具支撑。

这种将古老诗意与现代算法融合的探索，或许正是技术最有温度的一面。当机器写下“明月照松林”的那一刻，我们看到的不仅是代码的胜利，更是人类文化在数字时代的延续。