https://maimai.cn/web/feed_detaild=1699171070&efid=Re5wP9K4Ixu-Q0ABjKQ_UA&share_channel=2&webid=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ1IjoxNzg3MTM2MzYsImZpZCI6MTY5OTE3MTA3MH0.XSTNpELbKrIebgkf-Yf4gfooIzIsNwcSX7xKfrWDeD8&use_rn=1
双map ,滑动窗口 ,count是负数时 ,-2表示连续2,-3表示连续3
没说文件规模一律认为耍流氓
你可以考虑文件大的情况,也可以考虑文件小和情况
用快慢指针
离线的用sparksql一把撸转成全量的rdd,再用分割flatmap 过滤算count大于阈值输出ip
这不就是字符串分割,统计单词出现次数p>
得物App员工:是的,你说的没错,然后怎么做呢
如果是sql,用lag可以实现吧
map里套一个map,外层map的key用ip,里层的map的key用时间,value记录出现次数,然后判断次数是否大于一千以及时间是否有连续超过五次的
用Redis的hash数据结构不就好了。时间+IP作为field
玩awk啊,我敢说就一个分组统计就没几个会的
现在还有这么拉的运维用日志分析有没有被攻击吗p>
求教高端运维用啥。
负载均衡按IP怎么做的,等分析日志再做负载黄花菜不都凉了么
map 多线程 极致压榨CPU
不会,p几的题
陈雨:P6-7
小文件的话直接构造arraylist,转成lambda表达式经过若干算子collect一下就可以了
awk sort grep 一把梭,一行命令的事…
小米员工:性能太挫。没这么简单
tail -n 100000 access.txt|awk -F”,” ‘{print $1,$2}’|sort -n |uniq -c|sort -nr |head
陈雨:要出结果,还要连续5秒
|
用flink cep
文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树首页概览93586 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!