#初始化依赖包
sudo apt-get install -y zlib1g-dev libbz2-dev libssl-dev libncurses5-dev libsqlite3-dev libreadline-dev tk-dev libgdbm-dev libdb-dev libpcap-dev xz-utils libexpat1-dev liblzma-dev libffi-dev libc6-dev
#安装python
sudo apt-get install -y python3
#属于第三方库 朋友话筒 不会自带 需要手动安装
pip3 install requests
#这是一个自动化测试工具 可以驱动浏览器执行特定的动作 现版本已经 不支持PhantomJS(无界面式浏览器)
pip3 install selenium
这是一个阻塞式请求的HTTP请求库
pip3 install aiohttp
#lxml是Python的一个解析库支持xml html解析 支持xpath
pip3 install lxml
#Beautiful Soup 是python的一个xml html解析库
pip3 install beautifulsoup4
#安装完成测试Demo
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>','lxml')
print(soup.p.string)
#这是一个网页解析工具
pip3 install pyquery
#这是一个图形验证码的OCR识别库
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev
#安装python链接mysql工具
pip3 install pymysql
#python链接MongoDB的工具
pip3 install pymongo
#安装pyhon链接redis数据库的工具
pip3 install redis
#安装RedisDump 用于Redis数据导出 导入 基于Ruby实现
#安装Ruby
sudo apt-get install ruby-full
#安装RedisDump
gem install redis-dump
#验证命令
redis-dump
redis-load
#安装Web库
#Flask 轻量级Web服务程序
pip3 install flask
#Tornado 支持异步的Web框架
pip3 install tornado
#安装app爬去相关库
×××××××安装各种证书××××××××××
#Charles 一个网络抓包工具跨平台 收费 可使用三十天 之后每次试用不超过三十分钟
https://www.charlesproxy.com/latest-release/download.do
https://blog.csdn.net/time_future/article/details/82935375
#mitmproxy一个支持http https 的抓包程序 控制台式的操作
pip3 install mitmproxy
#appium移动端的自动化测试工具
https://pan.baidu.com/s/1jGvAISu#list/path=%2F
#安装爬虫框架
#pyspider 国人 binux编写的强大网络爬虫框架 带webui 脚本编辑器 任务控制器 项目管理器 结果处理器(吹爆)基于javascript 需要安装Phantomjs(以上)
pip3 install pyspider
#err 报错Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-wz733wu8/pycurl/
#解决方法安装PyCurl库
sudo apt-get install libcurl4-gnutls-dev
sudo apt-get install libghc-gnutls-dev
#最后通过pip进行安装:
pip3 install pycurl
#err 报错ValueError: Invalid configuration:
- Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.
#解决
pip uninstall wsgidav
python -m pip install wsgidav==2.4.1
#Scrapy强大的爬虫框架 依赖的库比较多
#安装依赖库
sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
pip3 install Scrapy
#验证安装
scrapy
#Scrapy_Splash 在Scrapy中支持js渲染的工具
安装过程
先安装Docker
然后执行
docker run -p 8050:8050 scrapinghub/splash
守护姿态运行 关掉窗口依然运行
docker run -d -p 8050:8050 scrapinghub/splash
安装phthon库
pip3 install scrapy-splash
#scrapy-Redis 分布式扩展模块 实现Scrapy分布式爬虫搭建
pip3 install scrapy-redis
//*****注意 这个一定要使用root权限 不然会报一个 “段错误 (核心已转储)” 这个错 第一次见到 哈hahah ******\\
#部署相关库安装
//分布式爬虫 docker集群
#Scrapyd 是一个部署和运行Scrapy的工具 可以将写好的Scrapy项目上传到云主机
pip3 install scrapyd
然后需要配置一个文件 /etc/scrapyd/scrapyd.conf
#Scraprd-Clinent 打包部署
pip3 install scrapyd-client
#Scrapyd API 对Scraypd的封装
pip3 install python-scrapyd-api
#Scrapyrt 为scrapy提供了一个调度的http接口
pip3 install scrapyrt
#Gerapy scrapy分布式管理模块
pip3 install gerapy
//**************** 安装环境end *****************