随笔 | 2645 实验室

#面试问题小结（菜不成声
列举一些使用过的预训练模型的大小？
Word2Vec 如何训练？输入是什么？输出是什么？
分类问题常用的 Loss function 是什么？
交叉熵的含义？值域？
LSTM 和 GRU 的比较？各自的应用场景？
LSTM 中梯度消失问题产生的原因？那么在多层神经网络中有没有梯度消失问题？
在计算和分析 LSTM 反向传播的时候，一般需要展开多少次？
batch size 取 1 和取最大（等于训练数据集大小）时分别代表什么？理论上什么时候收敛最快？为何实际并不能那样做？
相比于其他神经网络，RNN在算法设计上有什么需要注意的地方？