数仓学习日志(数据建模篇)
1. 模拟数据准备 1.1 生成模拟数据 先将HDFS上/origin_data路径下之前的数据删除 1hadoop fs -rm -r /origin_data/* 启动采集通道 1cluster.sh start 停止Maxwell 1mxw.sh stop 修改虚拟机①的/opt/module/applog/application.yml文件,将mock.date,mock.clear,mock.clear.user,mock.new.user,mock.log.db.enable五个参数调整为如下的值(以"2022-06-04"为例) 12345678910#业务日期mock.date: "2022-06-04"#是否重置业务数据mock.clear.busi: 1#是否重置用户数据mock.clear.user: 1## 批量生成新用户数量mock.new.user: 100## 日志是否写入数据库一份 写入z_log表中mock.log.db.enable: 0 执行数据生成脚本,生成第一天2022-06-04的历史数据 1l...
R语言学习记录
更完了,累似了! 一、基本数学运算 1.%% 计算余数 2.%/%计算所得的整数部分 3.**或^次方根 4.abs() 绝对值 5.exp() e的x次 5.round() 四舍五入函数 round(98.562,digits=2)=98.56 round(1234,digits=-2)=1200 round(1778,digits=-3)=2000 6.signif(x,digits=k) 四舍五入,x为要处理的实数,k为有效数字个数 signif(79843.597,digits=6)=79843.6 signif(79843.597,6)=79843.6 signif(79843.597,digits=3)=79800 signif(79843.597,3)=79800 7.floor(x) 小于等于x的最近整数 8.ceiling(x) 大于等于x的最近整数 9.trunc(x) 直接取整数,抹去小数 10.factorial(x) 返回x的阶乘 11.Inf 无限大 12.is.infinite(x) 判断是否无限大,如果是则TRUE,不是则FALSE 13.N...
数仓期末复习
脑子里有答案,不就是作弊吗?
Flume学习记录
1.Flume的下载与安装 本次学习在Ubuntu的Linux操作系统下进行,首先进入Ubuntu,输入指令 1wget https://archive.apache.org/dist/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz 下载完成后,在目录下输入指令进行解压 1tar -zxvf 压缩包的名称 2.netcat日志采集 2.1 配置文件 进入目录下的conf文件中,创建example.conf文件,输入以下内容: 123456789101112131415161718192021## 设置Agent上的各个组件名称a1.sources = r1 #可以定义多个,r1 r2 r3 …a1.sinks = k1a1.channels = c1 ## 配置Sourcea1.sources.r1.type = netcata1.sources.r1.bind = localhosta1.sources.r1.port = 44444 ## 配置Sinka1.sinks.k1.type = logger ## 配置Channela1.ch...
Kafka学习记录
环境配置 前言 本文记录本人学习kafka的流程,采用的系统环境为Ubuntu. (一)安装Java 配置Kafka前,首先配置Java环境,输入以下命令: 12sudo apt-get updatesudo apt-get install default-jdk 其中,第一行指令是指更新Ubuntu系统中的本地软件包索引,这个命令的作用是从互联网上的软件仓库(即存储软件包的服务器)下载最新的软件包信息,并将这些信息更新到本地系统的数据库中。这个命令执行后,你的系统会知道有哪些软件包可以安装或更新,以及它们的最新版本是什么。这是在进行软件安装或更新之前应该执行的操作,因为它确保了你能够访问到最新的软件版本和依赖关系信息。 (二)安装kafka 由于直接下载官方软件包太慢了,因此用清华镜像网站进行下载,此次下载的版本是3.7.0,这是下载命令,可根据想要下载的版本进行链接选择。 1wget https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/3.7.0/ 下载完成后,对压缩包进行解压,并进入该目录下: 12tar -xzf kafka...
Hexo Butterfly 微博热搜侧边栏(无需搭建热搜api)教程
Hexo Butterfly 微博热搜侧边栏教程,无需自己搭建API,直接引用即可~
爬虫学习:爬取城市公交信息
Python教程:使用BeautifulSoup爬取城市公交信息 在这个Python教程中,我们将学习如何使用BeautifulSoup库爬取城市公交信息。我们将以杭州为例,但你可以将代码应用于其他城市。如果有什么错误或者值得改进的地方,欢迎大家在评论区指出! 首先,确保你已经安装了以下库: BeautifulSoup requests pandas 如果没有,请使用以下命令安装: 1pip install beautifulsoup4 requests pandas 接下来,我们将编写代码。 1.导入所需的库: 123from bs4 import BeautifulSoup as BSimport requestsimport pandas as pd 2.设置城市名称和需要的参数: 3.创建一个空的DataFrame来存储公交信息: 1df = pd.DataFrame(columns=['线路名称', '运行时间', '参考票价', '出发线路', '总站数', ...
Json数据的抓取和分析
1.关键库及函数 (1)关键库 12345import urllib.requestimport urllib.errorimport urllib.parseimport requestsimport json (2)关键函数 通过url 获取信息:requests.get(GET模式)/request.post(POST模式) 结果转化为python的json对象:json.loads( ) Json对象的格式化输出:json.dumps(json对象, sort_keys=True, indent=2) 文件读写: 1234with open("data.txt","w") as f: f.writelines(data) 格式化输出:"{0:^6}{1:^10}{2:^10}{3}".format('序号','歌曲名','唱片集','播放连接...
爬虫:访问热搜榜并发送邮件
内容 访问微博热搜榜(https://s.weibo.com/top/summary) 获取微博热搜榜前50条热搜名称、链接及其实时热度,并将获取到的数据通过邮件的形式,每20秒发送一次到个人邮箱中。 导入库 123456import requestsfrom bs4 import BeautifulSoup as BSimport smtplibfrom email.mime.multipart import MIMEMultipartfrom email.mime.text import MIMETextimport time 定义获取微博热搜的函数 1234567891011121314def get_line(): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36", ...
爬虫:爬取影片详细信息
内容 访问豆瓣电影Top250(https://movie.douban.com/top250?start=0) 获取每部电影的导演、编剧、主演、类型、上映时间、片长、评分人数以及剧情简介等信息,并将获取到的信息保存至本地文件中。 导入库 12from bs4 import BeautifulSoup as BSimport requests 打开文件和设置请求头 1234fs = open("豆瓣.txt", 'w', encoding='utf-8')headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"} fs:打开(或创建)一个名为“豆瓣.txt”的文件,用于写入数据,文件编码设置为utf-8。 headers:设置HTTP请求...

翻转卡片~
查看我的联系方式
如有事情
请扫一扫🔎
添加微信好友

数据加载中