gensim中的Doc2vec模型参数调整


最近在用Doc2vec训练模型,现在现在需要做一些参数调整来提高准确率。这边记录一些参数的调整和效果。

Doc2Vec(documents=None, 
        #输入语料库
        corpus_file=None, 
        #LineSentence格式的语料库文件的路径。
        alpha = float,
        #初始学习率
        seed = 5;
        #随机种子
        negative = 5,
        #如果数值大于零,则加入负面采样。数值多大就加入多少个“noise word” 
        dm_mean=None, 
        #当使用DM训练算法时,对上下文向量相加(默认0);若设为1,则求均值
        dm=1,  
        #默认值为1,表示使用DM模型,否则使用DBOW模型
        dbow_words=0, 
        #当设为1时,则在训练doc_vector(DBOW)的同时训练Word_vector(Skip-gram);默认为0,          只训练doc_vector,速度更快。
        dm_concat=0, 
        #默认为0,当设为1时,在使用DM训练算法时,直接将上下文向量和Doc向量拼接。
        dm_tag_count=1, 
        #使用dm_concat模式时,每个文档的预期文档标签数。
        sammple = 1e-5,
        #用于配置随机采样哪些高频词的阈值,有用范围是(0,1e-5)。
        min_count = 5,
        #忽略所有词频少于一定数值的单词
        docvecs=None, 
        docvecs_mapfile=None, 
        comment=None, 
        trim_rule=None, 
        #词汇修剪原则,指定某些单词应保留在词汇中
        callbacks=(), 
        #回调列表
        **kwargs)

文章作者: Hank
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Hank !
评论
  目录