原创 MLlib數據統計基本概念

備註:kimi.txt中的內容如下: 1 2 3 4 5一.求數據的均值和標準差import org.apache.spark.mllib.linalg.Vectorsimport org

原创 支持向量機

一、支持向量機使用示例 數據: 1|2 1|3 1|4 1|5 1|6 0|7 0|8 0|9 0|10 0|11 程序: import org.apache.spark.mllib.linalg.Vectors import or

原创 爲鏈接爬蟲添加抓取回調

#-*- coding:UTF-8 -*- import re import urlparse import urllib2 import time from datetime import datetime import robotpa

原创 計算迴歸曲線的MSE

import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionWi

原创 分層抽樣

1.sampleByKey import org.apache.spark.{SparkConf, SparkContext} object testVector { def main(args: Array[String]): U

原创 隨機梯度下降算法

一、算法思想 隨機梯度下降算法就是不停地尋找某個節點中下降幅度最大的那個趨勢進行迭代計算,直到將數據收縮到符合要求的範圍之內。 誤差公式: 關鍵的一點是如何調整theta值,使誤差函數J最小化。J函數構成一個曲面或者曲線,我們的目的是

原创 協同過濾算法+相似度度量+交替最小二乘法

一.協同過濾算法(Collaborative Filtering) 1.簡介 協同過濾算法:是一種基於羣體用戶或者物品的經典推薦算法。分兩種:         (1).通過考察具有相同愛好的用戶對相同物品的評分標準進行計算。       

原创 三種網頁抓取方法

#-*- coding:UTF-8 -*- #1正則表達式 import re import urllib2 url = 'http://example.webscraping.com/places/view/United-Kingdom

原创 三種網頁抓取方法性能對比

import re from bs4 import BeautifulSoup import lxml.html import urllib2 import time FIELDS = ('area', 'population', 'i

原创 隨機數

import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.random.RandomRDDs._ object testVector {

原创 MLlib線性迴歸實戰

一、數據 5,1 1 7,2 1 9,3 2 11,4 1 19,5 3 18,6 2二、程序import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mlli

原创 python01

import re import urlparse import urllib2 import time from datetime import datetime import robotparser import Queue #鏈接

原创 串行爬蟲sequentipl

from link_crawler import link_crawler from mongo_cache import MongoCache from alexa_cb import AlexaCallback def main()

原创 多進程爬蟲

1. mongoqueue.py from datetime import datetime, timedelta from pymongo import MongoClient, errors class MongoQueue:

原创 把信息保存在html文件中的代碼

# -*- coding: utf-8 -*- import scrapy class CrawlSpider(scrapy.Spider): name = 'crawl' allowed_domains = ['ww