Discussion

Home     Discussion Board      Chinese Idiom Understanding Contest      数据问题

shiya_liu

数据问题

posted in   Chinese Idiom Understanding Contest

July 10, 2019, 9:11 a.m.

23  comments

chujie

July 11, 2019, 4:30 a.m.

Reply

0
<p>您好。这两个文件用来保存一般词表与成语词表的词向量文件。</p> <ul> <li>您可以修改对应代码,并且下载开源的预训练词向量来读取词向量。例如,原论文中采用的预训练词向量来自<a href="https://ai.tencent.com/ailab/nlp/embedding.html">Tencent AI Lab Embedding Corpus for Chinese Words and Phrases</a></li><li>您也可以利用<code>wordList.txt</code>(或您自行划定的词表)和<code>idiomList.txt</code>给出的词表,将开源词向量中对应的词向量保存为单独的文件。由于开源词向量的词条数比实验中的词表大小要大得多,因此只保留所需的词向量能够减小时间开销</li></ul>