2.(对数据工程师)给定一个列表:123, 345234, 678345, 123…其中第一列是粉丝的 ID,第二列是被粉者的 ID。查找所有相互后续对(上面的示例中的对是 123,345)。当列表超出内存时,如何使用 Map / Reduce 来解决问题? Captial One 1.(对数据工程师)什么是 Hadoop 序列化(serialization)? 2. 解释一个简单的 Map / Reduce 问题。 Hive 领英 1.(对数据工程师)请编写返回情感分数的 Hive UDF。例如,假如好=1,坏=-1,平均数=0,那么对餐厅做评价时因为「食物好,服务差」,你的分数可能为 1 - 1 = 0 Spark Captial One 1.(对数据工程师)用 Scala 语言,开奖,RDD 在 Spark 中是如何工作的? 统计和概率问题 谷歌 1. 假设我是一名非技术人员,请向我解释一下交叉验证(Cross-validation)。 2. 请描述一下非正态概率分布,随后告诉我们它该如何应用? 微软 1.(对数据挖掘)请解释异方差(heteroskedasticity)是什么,以及如何解决它。 1. 在给定 Twitter 用户数据的情况下,你该如何衡量参与度? Uber 1. 时间序列预测技术有什么不同? 2. 解释原理组件分析(Principle Component Analysis,PCA)和 PCA 使用的方程。 3. 如何解决多重共线性(Multicollinearity)? 4.(对分析师)请写一个方程,优化我们在 Twitter 和 Facebook 上的广告费用支出。 1. 在一副牌中抽取两张,出现同一花色的概率是多少? IBM 1. 什么是 p-value 和置信区间? Capital One 1.(对数据分析师)如果你有 70 个红色弹珠,绿色和红色弹珠的比例是 2 比 7,有多少绿色弹珠? 2. 纽约市的通勤数据看起来应该遵从什么分布? 3. 一个骰子,在扔 6 次的情况下出现 1 个 6 的几率,与扔 12 次的情况下出现至少两个 6 的几率,和扔 600 次出现至少 100 次 6 的几率相比哪个大? Paypal 1. 什么是中心极限定理(Central Limit Theorem),如何证明它?它的应用方向是什么? 编程和算法 谷歌 1.(对数据分析师)请写一个程序可以判定二叉树的高度。 微软 1. 请创建一个函数检查一个词是否具有回文结构。 1. 请构建一个幂集(power set)。 2. 请问如何在一个巨大的数据集中找到中值? Uber 1.(对数据工程师)编写一个函数用来计算给定数字的平方根(2 个小数点精度)。随后:避免冗余计算,现在使用缓存机制优化你的功能。 1. 假设给定两个二进制字符串,写一个函数将它们添加在一起,而不使用任何内置的字符串到 int 转换或解析工具。例如:如果给函数二进制字符串 100 和 111,它应该返回 1011。你的解决方案的空间和时间复杂性如何? 2. 编写一个函数,它接受两个已排序的列表,并在排序列表中返回它们的并集。 领英 1.(对数据工程师)请编写一些代码来确定字符串中的左右括号是否是平衡的? 2. 如何找到二叉搜索树中第二大的元素? 3. 请编写一个函数,它接受两个排序的向量,并返回一个排序的向量。 4. 如果你有一个输入的数字流,如何在运行过程中找到最频繁出现的数字? 5. 编写一个函数,将一个数字增加到另一个数字,就像 pow()函数一样。 6. 将大字符串拆分成有效字段并将它们存储在 dictionary 中。如果字符串不能拆分,返回 false。你的解决方案的复杂性如何? Captial One 1.(对数据工程师)如何「拆散」两个数列(就像 SQL 中的 JOIN 反过来)? 2. 请创建一个用于添加的函数,数字表示为两个链表。 3. 请创建一个计算矩阵的函数。 4. 如何使用 Python 读取一个非常大的制表符分隔的数字文件,来计算每个数字出现的频率? Paypal 1. 请编写一个函数,让它能在 O(n)的时间内取一个句子并逆向打印出来。 2. 请编写一个函数,从一个数组中拾取,将它们分成两个可能的数组,然后打印两个数组之间的最大差值(在 O(n) 时间内)。 3. 请编写一个执行合并排序的程序。 SQL 问题 微软 1.(对数据分析师)定义和解释聚簇索引和非聚簇索引之间的差异。 2.(对数据分析师)返回表的行计数有哪些不同的方法? 1.(对数据工程师)如果给定一个原始数据表,如何使用 SQL 执行 ETL(提取,转换,加载)以获取所需格式的数据? (责任编辑:本港台直播) |