原创 spark 基礎操作

dataframespark dataframe派生於RDD類,但是提供了非常強大的數據操作功能。主要對類SQL的支持。DataFrame是一種以RDD爲基礎的分佈式數據集,類似於傳統數據塊中的表,它與RDD最主要的區別在於:DataFr

原创 Scala 泛型

Scala在方法定義的時候可以指定泛型def startServiceOnPort[T]( startPort: Int, startService: Int => (T, Int), conf: SparkCon

原创 Spark 源碼閱讀(5)——Spark-submit任務提交流程

任務提交後執行前的邏輯:client端:1、spark-submit腳本提交任務,會通過反射的方式調用到我們自己提交的類的main方法2、執行我們自己代碼中的new SparkContext    2.1、創建actorSystem   

原创 python爬蟲案例——東方財富股票數據採集

通過python爬取東方財富的股票信息。獲取每隻股票的:總市值 淨資產 淨利潤 市盈率 市淨率 毛利率 淨利率 ROE東方財富網址:http://quote.eastmoney.com/stocklist.html先爬取股票匯總頁面。 在

原创 Java多線程增強+反射+代理

Ø java多線程增強1. java多線程基本知識1.1進程介紹 不管是我們開發的應用程序,還是我們運行的其他的應用程序,都需要先把程序安裝在本地的硬盤上。然後找到這個程序的啓動文件,啓動程序的時候,其實是電腦把當前的這個程序加載到內存中

原创 Scrapy爬蟲框架教程-- 抓取AJAX異步加載網頁

Scrapy爬蟲框架教程(一)– Scrapy入門Scrapy爬蟲框架教程(二)– 爬取豆瓣電影TOP250Scrapy爬蟲框架教程(三)– 調試(Debugging)Spiders前言前一段時間工作太忙一直沒有時間繼續更新這個教程,最近

原创 linux基礎

3.2 Linux常用命令3.1.1 基本日常操作命令  1、查看當前所在的工作目錄的全路徑 pwd[test@hdp-node-01 ~]$ pwd/home/test 2、查看當前系統的時間 date[test@hdp-node-01

原创 Scala 方法返回值

Scala 方法的最後一句代碼就是該方法的返回值,返回值可以是一個元組Tuple,如:def createActorSystem( name: String, host: String, port: Int,