NLP暑期实习面试记录

code • 2022-4-28 • java • 阅读 65

面经字节一面凉经：

二分类的损失函数是什么，怎么算？
多分类的损失函数怎么算？
如果文本分类的标签有多个，比如一个文本同时属于多个label那怎么办？
如果文本分类里面的有的数据就是错的，label标注就是错的，应该怎么clean
简述一下lstm的结构
lstm的每个cell之间怎么传的，是怎么算的
Layer norm怎么做的？详细说一下，可以举例子
Layer norm和Batch norm的区别
multi-head多头的作用是什么？
multi-head与单头相比，哪个参数会更多
加入一个全连接神经网络，权重参数初始化全部为1的话，会怎么样，最开始的输入层会有什么问题吗，隐层呢？
BERT的输入输出
假如让你做一个开放式的文本分类任务，你应该从特征工程，模型构建，预测各个阶段具体怎么做？
介绍自己做的工作
算法题，

两数之和，返回列表中所有满足和为target的下标二元组，输入数据会有重复数字
正则表达式，匹配【space】【char】*3之后的数字
如’ abc1236 abcd124 abn12368‘ 返回[1236，12368]
已凉

百度一面

malloc和new的区别?
lamda和map
合并两个python数组，有几种方法，从内存的角度说
linux基本命令，把一整个目录的文件复制到其他目录下
shell基本命令，如果一个文件，有很多行，选出出现abc的所有行
transformer的优缺点？对比CNN和RNN

算法题：

旋转数组中查找一个数字target（二分）
二叉树后序遍历

百度二面

先算法题：

最长公共子序列，返回序列
问答：发报器敲击发出0和1的概率不同，请问怎么封装使得可以出现0和1的概率相同？
做完开始问
transformer的优点缺点？
场景题：如果让你对40亿url中选择出现重复次数最高的10条，要怎么做？
url数据太大，怎么解决内存问题。
介绍工作
BERT的预训练任务，输入输出
self-attention怎么算的，后面具体细节

百度三面

自我介绍
介绍项目
遇到过最难的问题，怎么解决的？
场景题：比如现在有微博的评论，问你怎么检测其中违规的不良言论。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/736867.html

自然语言处理

打赏

微信扫一扫

支付宝扫一扫

code 管理员组

数据结构二叉树代码（先序，中序，后序以及通过先中后序读取二叉树） python

上一篇 2022-04-28

【原创】Python读取EXEL文件，POST、GET和中文解码

下一篇 2022-04-28

发表评论

登录后才能评论

评论列表（0条）