随笔

#面试问题小结 (菜不成声
列举一些使用过的预训练模型的大小?
Word2Vec 如何训练?输入是什么?输出是什么?
分类问题常用的 Loss function 是什么?
交叉熵的含义?值域?
LSTM GRU 的比较?各自的应用场景?
LSTM 中梯度消失问题产生的原因?那么在多层神经网络中有没有梯度消失问题?
在计算和分析 LSTM 反向传播的时候,一般需要展开多少次?
batch size 1 和取最大(等于训练数据集大小)时分别代表什么?理论上什么时候收敛最快?为何实际并不能那样做?
相比于其他神经网络,RNN在算法设计上有什么需要注意的地方?