爬虫:古诗爬取
内容 访问古诗文网站名句主页(https://so.gushiwen.cn/mingjus/) 爬取里面的名句和出处(包括链接)保存到一个文本文件poems.txt中去。每个名句占用一行,内容格式如下: 编号(从1开始,占3位做对齐):名句--出处(全诗链接) 空两格(诗句的译文注释和赏析) 环境准备 确保已经安装了以下Python库: requests beautifulsoup4 可以使用以下命令安装: 1pip install requests beautifulsoup4 代码 1234567891011121314151617181920212223242526272829303132333435363738394041from bs4 import BeautifulSoup as BSimport requests# 变量rank = 0temp_line2 = ''fs = open("诗词.txt", 'w', encoding='utf-8')# 获取名句页面内容soup =...
Flink学习笔记
一、Flink的安装与配置 1.1 Flink的下载 到清华镜像源选择合适的版本 进入目录 1cd ~/software 下载 1wget https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.17.2/flink-1.17.2-bin-scala_2.12.tgz 解压 1tar -zxvf flink-1.17.2-bin-scala_2.12.tgz 二、Flink的集群配置 2.1 flink-conf.yaml文件配置 打开Flink/conf/flink-conf.yaml文件 1vim ~/software/flink-1.17.2/conf/flink-conf.yaml 配置以下内容 12345678910111213141516171819202122232425jobmanager: bind-host: 0.0.0.0 rpc: address: Node01 port: 6123 memory: process: size: 1600m exe...
期末考试算法笔记
用于期末考试的临时抱佛脚= w = 算法的基本概念 算法是求解问题的一系列计算步骤,用来将输入转换成输出结果。 算法的时间复杂度 算法所耗费的时间应是算法中每条语句的执行时间之和,而每条语句的执行时间就是该语句的执行次数(频度)与该语句执行一次所需时间的乘积。 渐进符号 O符号:渐进上界(最坏情况)。用O(g(n))表示,其中g(n)是算法运行时间的一个上界。例如,如果一个算法的时间复杂度是O(n),那么它的运行时间不会超过n的线性函数。 Ω符号:渐进下界。用Ω(g(n))表示,其中g(n)是算法运行时间的一个下界。如果一个算法的时间复杂度是Ω(n),那么它的运行时间至少是n的线性函数。 Θ符号:同阶。表示算法的平均情况时间复杂度。用Θ(g(n))表示,其中g(n)是算法运行时间的紧确界。如果一个算法的时间复杂度是Θ(n),那么它的运行时间在最坏情况和最好情况下都是n的线性函数。 Master方法 分而治之 (1)该问题的规模缩小到一定程度就可以解决。 (2)该问题可以分为若干个规模较小的相同问题,即该问题具有最优子结构性质。 (3)利用该问题分解出的子问题的解可...
Hadoop基础理论问题
建议电脑端阅读 这是手机阅读教程 公告 1、集群部署规划主要修改那几个配置文件? core-site.xml:指定NameNode的地址、指定Hadoop的存储目录、配置HDFS网页登录的静态用户名 hdfs-site.xml: nn Web访问地址、2nn Web访问地址 yarn-site.xml: 指定shuffle、指定ResourceManager的地址、继承环境变量 mapred-site.xml: 指定MapReduce程序运行在Yarn上、历史服务器端地址、历史服务器web端地址 2、集群部署规划有哪些注意事项? NameNode和SecondaryNameNode不要安装在同一台服务器 ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。 3、集群配置常见错误及解决方案有哪些? 1)防火墙没关闭、或者没有启动YARN INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032 2)...
关于Hexo博客文件从GitHub转移部署到腾讯云的方式
前言 本文的教程是关于如何把Hexo博客文件从GitHub服务器转移到腾讯云服务器。由于一些众所周知的原因,GitHub服务器架设在海外,因此如果你将hexo部署在GitHub时,没有CDN的加速,你的网站访问速度完全看脸qwq。所以,将你的hexo文件部署在国内服务器,能够大幅度提高你的网站速度。 前期准备 由于你已经在看这篇文章了,因此笔者在此默认你的本地hexo文件已经部署好了,如果尚未部署,可以参考Hexo-零基础搭建个人博客(详解),当然,如果你比较嫌麻烦,可以直接参考腾讯云自身的文档搭建 Hexo(萌新推荐)。 同时,因为是利用腾讯云部署博客,你还需要一个腾讯云账号,这通常微信即可登录。 申请腾讯云 当你登录腾讯云完成后,你可以来到腾讯云学生页面来获取相关服务器。在这里笔者以学生免费申请的6个月校园云开发为例。 当你白嫖后,来到个人控制台的环境总览页面,这个时候,请你记下你的环境ID 安装 CloudBase CLI 在Windows下打开命令提示符,输入命令安装CloudBase CLI 1sudo npm i -g @cloudbase/cli 提交Hexo文件...
拾光诗囊
以此记录闲暇时曾背的古诗 浪淘沙·北戴河 毛泽东 大雨落幽燕,白浪滔天,秦皇岛外打鱼船。 一片汪洋都不见,知向谁边? 往事越千年,魏武挥鞭,东临碣石有遗篇。 萧瑟秋风今又是,换了人间。 将进酒 [唐]李白 君不见黄河之水天上来,奔流到海不复回。 君不见高堂明镜悲白发,朝如青丝暮成雪。 人生得意须尽欢,莫使金樽空对月。 天生我材必有用,千金散尽还复来。 烹羊宰牛且为乐,会须一饮三百杯。 岑夫子,丹丘生,将进酒,杯莫停。 与君歌一曲,请君为我倾耳听。 钟鼓馔玉不足贵,但愿长醉不愿醒。 古来圣贤皆寂寞,惟有饮者留其名。 陈王昔时宴平乐,斗酒十千恣欢谑。 主人何为言少钱,径须沽取对君酌。 五花马、千金裘,呼儿将出换美酒,与尔同销万古愁。 长相思·其一 [唐]李白 长相思,在长安。 络纬秋啼金井阑, 微霜凄凄簟色寒。 孤灯不明思欲绝, 卷帷望月空长叹。 美人如花隔云端。 上有青冥之高天, 下有渌水之波澜。 天长路远魂飞苦, 梦魂不到关山难。 长相思,摧心肝。 山中与幽人对酌 [唐代]李白 两人对酌山花开,一杯一杯复一杯。 我醉欲眠卿且去,明朝有意抱琴来。 长恨歌 [唐...
Hadoop安装步骤
1. 前期准备 1.1 安装Ubuntu 在VM导入Ubuntu的镜像源 1.2 导入必要的包 因为新安装的Ubuntu缺少很多组件,在这里先安装必要的包 1、更新软件源 1sudo apt-get update 2、安装Vim 1sudo apt-get install vim 3、安装ssh 123sudo apt-get install openssh-clientsudo apt-get install openssh-serversudo /etc/init.d/ssh restart 4、安装git 1sudo apt-get install git 5、安装zlib 123sudo apt-get install zlib1g-devsudo apt-get install libx32z1-devsudo apt-get install lib32z1 6、安装网络工具 1sudo apt install net-tools 1.3 配置网络 首先输入,查看目前的Gateway 1route -n 输入(Ubuntu22版本) 1sudo vim /etc/n...
Python学习:2016年美国大选数据分析(附源文件)
下载地址 文件下载地址:2016 Election Polls | Kaggle(需要谷歌账号) 1.需求描述 利用2016年美国总统大选数据,选择克林顿和特朗普的数据进行分析,根据每月的平均预测数据与真实数据的平均值之差的绝对值生成热力图,并比较二人的预测偏差大小。 2.源码及注释语句 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748import pandas as pdimport matplotlib.pyplot as pltimport numpy as np #读取我的CSV文件df = pd.read_csv('C:/Users/94152/Desktop/presidential_polls.csv') #将精确到日的日期转化为精确到月的日期df['enddate'] = pd.to_datetime(df['enddate']).dt.to_period('M'...
Python学习:创建文件、写入文件、读取文件
内容 文章展示如何使用Python的os模块创建目录、改变工作目录、写入文本到文件。通过示例代码,解释如何运用os.mkdir(),os.chdir(),open()等函数进行文件和目录的管理,并将一首古诗写入到创建的txt文件中。 1.首先引入os模块 1import os Python 的 os 模块提供了一些函数,用于与操作系统进行交互。这个模块包含了很多实用的函数,用于管理文件和目录、获取系统信息、运行命令等。下面是 os 模块中一些常用的函数: os.getcwd():获取当前工作目录。 os.chdir(path):改变当前工作目录。 os.listdir(path):列出指定目录中的文件和子目录。 os.mkdir(path):创建一个目录。 os.makedirs(path):递归地创建目录。 os.rmdir(path):删除一个目录。 os.removedirs(path):递归地删除目录。 os.rename(src, dst):将文件或目录从 src 改名为 dst。 os.remove(path):删除一个文件。 os.path.exists(path)...
通过txt文件生成词云
1.调入jieba库(“结巴”) jieba(结巴)是一款基于 Python 的中文分词库,可以将中文文本分割成一个个独立的词语。 中文文本的分词是自然语言处理中的一个重要任务。相比于英文等语言,中文的词汇是由汉字构成的,汉字之间没有空格或其他明显的分隔符,因此需要特殊的分词技术来进行分割。 jieba 库提供了多种分词模式,包括精确模式、全模式、搜索引擎模式等,可以满足不同应用场景的需求。除了分词功能外,jieba 还支持关键词提取、词性标注等功能,可以帮助用户更好地处理中文文本。 2.调入wordcloud库 一个简单易用的词云库,支持多种图形、颜色和字体。可以从文本中提取关键词,并根据词频生成词云。 12import jiebaimport wordcloud 如果你之前没用过这两个库,别忘了在终端输入指令载入库!!! 12pip install jiebapip install wordcloud 3.读取你本地保存的txt文件 记住,别忘了加入encoding=“utf-8”,因为如果你的文本有中文的话,需要使用utf-8模式 123#打开文件(只读模式),注意,由于文...

翻转卡片~
查看我的联系方式
如有事情
请扫一扫🔎
添加微信好友

数据加载中