#初始化依赖包
sudo apt-get install -y zlib1g-dev libbz2-dev libssl-dev libncurses5-dev libsqlite3-dev libreadline-dev tk-dev libgdbm-dev libdb-dev libpcap-dev xz-utils libexpat1-dev liblzma-dev libffi-dev libc6-dev

#安装python
sudo apt-get install -y python3

#属于第三方库朋友话筒不会自带需要手动安装
pip3 install requests

#这是一个自动化测试工具可以驱动浏览器执行特定的动作现版本已经不支持PhantomJS（无界面式浏览器）
pip3 install selenium

这是一个阻塞式请求的HTTP请求库

pip3 install aiohttp

#lxml是Python的一个解析库支持xml html解析支持xpath
pip3 install lxml

#Beautiful Soup 是python的一个xml html解析库
pip3 install beautifulsoup4

#安装完成测试Demo
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>','lxml')
print(soup.p.string)

#这是一个网页解析工具
pip3 install pyquery

#这是一个图形验证码的OCR识别库
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

#安装python链接mysql工具
pip3 install pymysql

#python链接MongoDB的工具
pip3 install pymongo

#安装pyhon链接redis数据库的工具
pip3 install redis

#安装RedisDump 用于Redis数据导出导入基于Ruby实现

#安装Ruby
sudo apt-get install ruby-full

#安装RedisDump
gem install redis-dump

#验证命令
redis-dump
redis-load

#安装Web库

#Flask 轻量级Web服务程序
pip3 install flask

#Tornado 支持异步的Web框架
pip3 install tornado

#安装app爬去相关库
×××××××安装各种证书××××××××××
#Charles 一个网络抓包工具跨平台收费可使用三十天之后每次试用不超过三十分钟
https://www.charlesproxy.com/latest-release/download.do
https://blog.csdn.net/time_future/article/details/82935375

#mitmproxy一个支持http https 的抓包程序 控制台式的操作
pip3 install mitmproxy

#appium移动端的自动化测试工具
https://pan.baidu.com/s/1jGvAISu#list/path=%2F

#安装爬虫框架

#pyspider 国人 binux编写的强大网络爬虫框架 带webui 脚本编辑器 任务控制器 项目管理器 结果处理器（吹爆）基于javascript 需要安装Phantomjs（以上）
pip3 install pyspider
    #err 报错Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-wz733wu8/pycurl/
       #解决方法安装PyCurl库
            sudo apt-get install libcurl4-gnutls-dev
            sudo apt-get install libghc-gnutls-dev
       #最后通过pip进行安装：
       pip3 install pycurl
    #err 报错ValueError: Invalid configuration:
                  - Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.
        #解决
        pip uninstall wsgidav
        python -m pip install wsgidav==2.4.1
#Scrapy强大的爬虫框架 依赖的库比较多
    #安装依赖库
    sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
    pip3 install Scrapy
    #验证安装
    scrapy
#Scrapy_Splash 在Scrapy中支持js渲染的工具
    安装过程
    先安装Docker
    然后执行
    docker run -p 8050:8050 scrapinghub/splash
    守护姿态运行 关掉窗口依然运行
    docker run -d -p 8050:8050 scrapinghub/splash
    安装phthon库
    pip3 install scrapy-splash
#scrapy-Redis 分布式扩展模块 实现Scrapy分布式爬虫搭建
    pip3 install scrapy-redis
    //*****注意 这个一定要使用root权限 不然会报一个 “段错误 (核心已转储)”  这个错 第一次见到 哈hahah ******\\
#部署相关库安装
    //分布式爬虫 docker集群
#Scrapyd 是一个部署和运行Scrapy的工具 可以将写好的Scrapy项目上传到云主机
    pip3 install scrapyd
    然后需要配置一个文件 /etc/scrapyd/scrapyd.conf
#Scraprd-Clinent 打包部署
    pip3 install scrapyd-client
#Scrapyd API 对Scraypd的封装
    pip3 install python-scrapyd-api
#Scrapyrt 为scrapy提供了一个调度的http接口
    pip3 install scrapyrt

#Gerapy scrapy分布式管理模块
     pip3 install gerapy

     //**************** 安装环境end *****************

近期文章

归档

这是一个阻塞式请求的HTTP请求库

发送评论编辑评论

这是一个阻塞式请求的HTTP请求库

发送评论 编辑评论

发送评论编辑评论