广西民族大学高级人工智能课程—头歌实践教学实践平台

这篇具有很好参考价值的文章主要介绍了广西民族大学高级人工智能课程—头歌实践教学实践平台—机器翻译--English to Chinese。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

第1关：迈出第一步----数据预处理

代码文件

import numpy as np

test_point = input()

with open('cmn.txt', 'r', encoding='utf-8') as f:
    data = f.read()
data = data.split('\n')
data = data[:100]

#########begin#########
en_data = [line.split('\t')[0] for line in data]
ch_data = ['\t' + line.split('\t')[1] + '\n' for line in data]

#########end#########

print('英文数据:\n', en_data[:5])
print('\n中文数据:\n', ch_data[:5])

print('数据读取完成')

# 分别生成中英文字典

#########begin#########
en_vocab = set(''.join(en_data))
en_vocab = sorted(en_vocab)
id2en = {i: char for i, char in enumerate(en_vocab)}
en2id = {char: i for i, char in enumerate(en_vocab)}

ch_vocab = set(''.join(ch_data))
ch_vocab = sorted(ch_vocab)
id2ch = {i: char for i, char in enumerate(ch_vocab)}
ch2id = {char: i for i, char in enumerate(ch_vocab)}


#########end#########

print('\n英文字典:\n', en2id)
print('\n中文字典\n:', ch2id)
print('字典构建完成')
en_num_data = [[en2id[en] for en in line] for line in en_data]
ch_num_data = [[ch2id[ch] for ch in line] for line in ch_data]
de_num_data = [[ch2id[ch] for ch in line][1:] for line in ch_data]



import numpy as np

# 获取输入输出端的最大长度
max_encoder_seq_length = max([len(txt) for txt in en_num_data])
max_decoder_seq_length = max([len(txt) for txt in ch_num_data])

#########begin#########
# 将数据进行onehot处理
# 将数据进行onehot处理
encoder_input_data = np.zeros(
    (len(en_num_data), max_encoder_seq_length, len(en2id)), dtype='float32')
decoder_input_data = np.zeros(
    (len(ch_num_data), max_decoder_seq_length, len(ch2id)), dtype='float32')
decoder_target_data = np.zeros(
    (len(ch_num_data), max_decoder_seq_length, len(ch2id)), dtype='float32')

for i, (input_text, target_text) in enumerate(zip(en_num_data, ch_num_data)):
    for t, char in enumerate(input_text):
        encoder_input_data[i, t, char] = 1.
    for t, char in enumerate(target_text):
        decoder_input_data[i, t, char] = 1.
        # 注意：target_text是从索引1开始，因为索引0是'\t'开始标记
        if t > 0:
            # decoder_target_data是从索引0开始，结束标记是'\n'
            decoder_target_data[i, t - 1, char] = 1.



#########end#########
print(encoder_input_data[int(test_point)])
print(decoder_input_data[int(test_point)])
print(decoder_target_data[int(test_point)])

print('向量化完成')

题目描述

任务描述

本关任务：基于机器学习的思想，是一种数据驱动的研究思想，因此首先要对准备研究的数据进行处理。对于机器翻译模型，数据预处理主要分为两个方面：

标准化自然语言语句的格式
构建训练所用的语言词典
将语词转化为向量

编程要求

根据提示，在右侧编辑器补充代码。完成数据的标准化处理、构建训练所用的语言词典并将语词转化为向量。

测试说明

平台会对你编写的代码进行测试：测试输入: 1 预期输出（会输出对应测试输入的向量化数据）：

英文数据:
['Hi.', 'Hi.', 'Run.', 'Wait!', 'Hello!']
中文数据:
['\t嗨。\n', '\t你好。\n', '\t你用跑的。\n', '\t等等！\n', '\t你好。\n']
数据读取完成
英文字典:
{' ': 0, '!': 1, "'": 2, '.': 3, '?': 4,...
中文字典:
{'\t': 0, '\n': 1, '!': 2, '。':...
字典构建完成
[[0. 0. 0. 0.....
向量化完成

开始你的任务吧，祝你成功！文章来源地址https://www.toymoban.com/news/detail-827131.html

第2关：模型训练----搭建seq2seq训练模型

代码文件

import data_prepare
from keras.models import Model
from keras.layers import Input, LSTM, Dense, Embedding,concatenate,TimeDistributed,RepeatVector,Bidirectional
from keras.optimizers import Adam


EN_VOCAB_SIZE = 47
CH_VOCAB_SIZE = 147
HIDDEN_SIZE = 256

LEARNING_RATE = 0.003
BATCH_SIZE = 100
EPOCHS = 200

encoder_input_data, decoder_input_data,decoder_target_data,_,_,_ = data_prepare.getdata()
# ==============encoder=============
#########begin#########

# Encoder
encoder_inputs = Input(shape=(None, EN_VOCAB_SIZE))
encoder_LSTM = LSTM(HIDDEN_SIZE, return_sequences=True, return_state=True, name='encoder')
encoder_outputs, state_h, state_c = encoder_LSTM(encoder_inputs)
encoder_states = [state_h, state_c]


#########end#########
# # ==============decoder=============

#########begin#########

# Decoder
decoder_inputs = Input(shape=(None, CH_VOCAB_SIZE))
decoder_LSTM = LSTM(HIDDEN_SIZE, return_sequences=True, return_state=True, name='decoder')
decoder_outputs, _, _ = decoder_LSTM(decoder_inputs, initial_state=encoder_states)
decoder_dense = Dense(CH_VOCAB_SIZE, activation='softmax', name='dense')
decoder_outputs = decoder_dense(decoder_outputs)


#########end#########

#
#
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
opt = Adam(lr=LEARNING_RATE, beta_1=0.9, beta_2=0.999, epsilon=1e-08)
model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])
model.summary()

# model.fit([encoder_input_data, decoder_input_data], decoder_target_data,
#           batch_size=BATCH_SIZE,
#           epochs=EPOCHS,
#           validation_split=0.2)

题目描述

任务描述

本关任务：准备好数据后，就要着手搭建训练模型了。本关将完成seq2seq模型的搭建和模型的训练。

测试说明

平台会对你编写的代码进行测试：

模型结构与要求相符即可通过本关。

开始你的任务吧，祝你成功！

第3关：模型实践----搭建seq2seq推断模型

代码文件

import data_prepare
from keras.models import Model
from keras.layers import Input, LSTM, Dense, Embedding, concatenate, TimeDistributed, RepeatVector, Bidirectional
from keras.optimizers import Adam
import numpy as np

# Existing code for setting up the model
EN_VOCAB_SIZE = 47
CH_VOCAB_SIZE = 147
HIDDEN_SIZE = 256
LEARNING_RATE = 0.003
BATCH_SIZE = 100
EPOCHS = 100
encoder_input_data, decoder_input_data, decoder_target_data, ch2id, id2ch, en_data = data_prepare.getdata()

# ==============encoder=============
encoder_inputs = Input(shape=(None, EN_VOCAB_SIZE))
encoder_h, encoder_state_h, encoder_state_c = LSTM(HIDDEN_SIZE, return_sequences=True, return_state=True, name='encoder')(encoder_inputs)

# ==============decoder=============
decoder_inputs = Input(shape=(None, CH_VOCAB_SIZE))
decoder = LSTM(HIDDEN_SIZE, return_sequences=True, return_state=True, name='decoder')
decoder_dense = Dense(CH_VOCAB_SIZE, activation='softmax', name='dense')
decoder_h, _, _ = decoder(decoder_inputs, initial_state=[encoder_state_h, encoder_state_c])
decoder_outputs = decoder_dense(decoder_h)
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
opt = Adam(lr=LEARNING_RATE, beta_1=0.9, beta_2=0.999, epsilon=1e-08)
model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])
model.fit([encoder_input_data, decoder_input_data], decoder_target_data, batch_size=BATCH_SIZE, epochs=EPOCHS, validation_split=0.2, verbose=0)

# Encoder Inference Model
encoder_model = Model(encoder_inputs, [encoder_state_h, encoder_state_c])

# Decoder Inference Model
decoder_state_input_h = Input(shape=(HIDDEN_SIZE,))
decoder_state_input_c = Input(shape=(HIDDEN_SIZE,))
decoder_h, state_h, state_c = decoder(decoder_inputs, initial_state=[decoder_state_input_h, decoder_state_input_c])
decoder_outputs = decoder_dense(decoder_h)
decoder_model = Model([decoder_inputs, decoder_state_input_h, decoder_state_input_c], [decoder_outputs, state_h, state_c])

for k in range(40, 50):
    test_data = encoder_input_data[k:k + 1]
    h, c = encoder_model.predict(test_data)
    target_seq = np.zeros((1, 1, CH_VOCAB_SIZE))
    target_seq[0, 0, ch2id['\t']] = 1
    outputs = []

    while True:
        output_tokens, h, c = decoder_model.predict([target_seq, h, c])
        sampled_token_index = np.argmax(output_tokens[0, -1, :])
        outputs.append(sampled_token_index)
        if sampled_token_index == ch2id['\n'] or len(outputs) > 20:
            break
        target_seq = np.zeros((1, 1, CH_VOCAB_SIZE))
        target_seq[0, 0, sampled_token_index] = 1

    print(en_data[k])
    print(''.join([id2ch[i] for i in outputs if i not in [ch2id['\t'], ch2id['\n']]])+'\n')

题目描述

任务描述

本关任务：本关将使用训练好的翻译模型，对英文句子进行翻译。

编程要求

根据提示，在右侧编辑器补充代码，搭建推断模型，完成英语到法语的翻译模型。 ####测试说明

平台会对你编写的代码进行测试：输入英文，输出相应的中文语句。 注意：本关需要运行模型，因此评测可能较慢，请耐心等待1-2分钟。

开始你的任务吧，祝你成功！

到了这里，关于广西民族大学高级人工智能课程—头歌实践教学实践平台—机器翻译--English to Chinese的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

广西民族大学高级人工智能课程—头歌实践教学实践平台—机器翻译--English to Chinese

第1关：迈出第一步----数据预处理

代码文件

题目描述

任务描述

相关知识

数据整理

构建词典

自然语言向量化

编程要求

测试说明

第2关：模型训练----搭建seq2seq训练模型

代码文件

题目描述

任务描述

相关知识

seq2seq模型基本原理

搭建seq2seq模型

Encoder模型

Decoder模型

训练seq2seq模型

测试说明

第3关：模型实践----搭建seq2seq推断模型

代码文件

题目描述

任务描述

相关知识

建立推断模型

输出整理

编程要求

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

广西民族大学高级人工智能课程—头歌实践教学实践平台—机器翻译--English to Chinese

第1关：迈出第一步----数据预处理

代码文件

题目描述

任务描述

相关知识

数据整理

构建词典

自然语言向量化

编程要求

测试说明

第2关： 模型训练----搭建seq2seq训练模型

代码文件

题目描述

任务描述

相关知识

seq2seq模型基本原理

搭建seq2seq模型

Encoder模型

Decoder模型

训练seq2seq模型

测试说明

第3关：模型实践----搭建seq2seq推断模型

代码文件

题目描述

任务描述

相关知识

建立推断模型

输出整理

编程要求

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

第2关：模型训练----搭建seq2seq训练模型