数据加载、切词
按照链接https://blog.csdn.net/m0_60688978/article/details/137538274操作后,可以获得的数据如下文章来源地址https://www.toymoban.com/news/detail-853742.html
- wordList 文本中所有的分词,放入这个数组中
- raw_text 这个可以忽略,相当于wordlist的备份,防止数据污染了
- vocab 将wordList转变为set,即set(wordList)
- vocab_size 所有分词的个数
- word_to_idx 字典格式,汉字对应索引
- idx_to_word 字典格式,索引对应汉字
准备训练数据
data3 = []
window_size1=2
for i,word in enumerate(raw_text):
target = raw_text[i]
contexts=raw_text[max(i - window_size1, 0): min(i + window_size1 + 1, len(raw_text))]
for context in contexts:
if target!=context:
data3.append((context,target))
data3,len(data3)
准备模型和参数
# 超参数
learning_rate = 0.003
device = torch.device('cpu')
embedding_dim = 100
epoch = 10
class SkipGramModel(nn.Module):
def __init__(self, vocab_size, embedding_dim):
super(SkipGramModel, self).__init__()
self.embedding = nn.Embedding
文章来源:https://www.toymoban.com/news/detail-853742.html
到了这里,关于python-pytorch实现skip-gram 0.5.001的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!