tensorflow學習筆記：tf.data.Dataset，from_tensor_slices(),shuffle()，batch()的用法

tf.data.Dataset.from_tensor_slices:

它的作用是切分傳入Tensor的第一個維度，生成相應的dataset。

例1：

dataset = tf.data.Dataset.from_tensor_slices(np.random.uniform(size=(5, 2)))
傳入的數值是一個矩陣，它的形狀爲(5, 2)，tf.data.Dataset.from_tensor_slices就會切分它形狀上的第一個維度，最後生成的dataset中一個含有5個元素，每個元素的形狀是(2, )，即每個元素是矩陣的一行。

例2：

對於更復雜的情形，比如元素是一個python中的元組或者字典：在圖像識別中一個元素可以是｛”image”:image_tensor,”label”:label_tensor｝的形式。
dataset = tf.data.Dataset.from_tensor_slices ( { “a”:np.array([1.0,2.0,3.0,4.0,5.0]), “b”:np.random.uniform(size=(5,2) ) } )
這時，函數會分別切分”a”中的數值以及”b”中的數值，最後總dataset中的一個元素就是類似於{ “a”:1.0, “b”:[0.9,0.1] }的形式。

shuffle(
    buffer_size,
    seed=None,
    reshuffle_each_iteration=None
)

batch很好理解，就是batch size。注意在一個epoch中最後一個batch大小可能小於等於batch size
dataset.repeat就是俗稱epoch，但在tf中與dataset.shuffle的使用順序可能會導致個epoch的混合
dataset.shuffle就是說維持一個buffer_size 大小的 shuffle buffer，圖中所需的每個樣本從shuffle buffer中獲取，取得一個樣本後，就從源數據集中加入一個樣本到shuffle buffer中。對於完美的洗牌，需要大於或等於數據集的完整大小的緩衝區大小。

tf.slice:

tf.slice(
    input_,
    begin,
    size,
    name=None
)

函數參數

input_：一個Tensor.
begin：一個int32或int64類型的Tensor.
size：一個int32或int64類型的Tensor.
name：操作的名稱(可選).

函數返回

tf.slice函數返回與input具有相同類型的Tensor.

此操作從由begin指定位置開始的張量input中提取一個尺寸size的切片.切片size被表示爲張量形狀,其中size[i]是你想要分割的input的第i維的元素的數量.切片的起始位置(begin)表示爲每個input維度的偏移量.換句話說,begin[i]是你想從中分割出來的input的“第i個維度”的偏移量.


input = [[[1, 1, 1], [2, 2, 2]],
         [[3, 3, 3], [4, 4, 4]],
         [[5, 5, 5], [6, 6, 6]]]
tf.slice(input, [1, 0, 0], [1, 1, 3]) ==> [[[3, 3, 3]]]
tf.slice(input, [1, 0, 0], [1, 2, 3]) ==> [[[3, 3, 3],
                                            [4, 4, 4]]]
tf.slice(input, [1, 0, 0], [2, 1, 3]) ==> [[[3, 3, 3]],
                                           [[5, 5, 5]]]
                                           
tf.gather(input, [0, 2]) ==> [[[1, 1, 1], [2, 2, 2]],
                              [[5, 5, 5], [6, 6, 6]]]

假設我們要從input中抽取[[[3, 3, 3]]]，這個輸出在inputaxis=0的下標是1，axis=1的下標是0，axis=2的下標是0-2，所以begin=[1,0,0]，size=[1,1,3]。
 
假設我們要從input中抽取[[[3, 3, 3], [4, 4, 4]]]，這個輸出在inputaxis=0的下標是1，axis=1的下標是0-1，axis=2的下標是0-2，所以begin=[1,0,0]，size=[1,2,3]。
 
假設我們要從input中抽取[[[3, 3, 3], [5, 5, 5]]]，這個輸出在inputaxis=0的下標是1-2，axis=1的下標是0，axis=2的下標是0-2，所以begin=[1,0,0]，size=[2,1,3]。
 
假設我們要從input中抽取[[[1, 1, 1], [2, 2, 2]],[[5, 5, 5], [6, 6, 6]]]，這個輸出在input的axis=0的下標是[0, 2]，不連續，可以用tf.gather抽取。input[0]和input[2]

tf.identity

tf.sequence_mask：

tf.sequence_mask(
    lengths,
    maxlen=None,
    dtype=tf.dtypes.bool,
    name=None
)

函數參數

lengths：整數張量,其所有值小於等於maxlen.
maxlen：標量整數張量,返回張量的最後維度的大小；默認值是lengths中的最大值.
dtype：結果張量的輸出類型.
name：操作的名字.

函數返回值

形狀爲lengths.shape + (maxlen,)的mask張量,投射到指定的dtype.

tf.sequence_mask([1, 3, 2], 5)  # [[True, False, False, False, False],
                                #  [True, True, True, False, False],
                                #  [True, True, False, False, False]]

tf.sequence_mask([[1, 3],[2,0]])  # [[[True, False, False],
                                  #   [True, True, True]],
                                  #  [[True, True, False],
                                  #   [False, False, False]]]

tf.boolean_mask：

tf.boolean_mask(
    tensor,
    mask,
    name='boolean_mask',
    axis=None
)

一般情況下,0 < dim(mask) = K <= dim(tensor) 並且 mask 的形狀必須與張量形狀的第一 K 維度匹配.然後我們就有：(tensor, mask)[i, j1,...,jd] = tensor[i1,...,iK,j1,...,jd] 當(i1,...,iK) 是 mask (row-major order) 的第 i 個真輸入.

ARGS：

tensor：N -D 張量.
mask：K - D 布爾張量,K <= N 和 K 必須是靜態已知的.
name：此操作的名稱(可選).

返回(N-K + 1)維張量由條目中填充的 tensor 對應於 mask 中的 True 值.

注意：

ValueError：如果形狀不符合時.

＃1-D 示例 
tensor =  [ 0 , 1 , 2 , 3 ] 
mask = np.array([True,False,True,False] ) 
boolean_mask (tensor,mask) == >  [ 0 , 2 ]
＃2-D示例 
tensor =  [ [ 1 , 2 ] , [ 3 , 4 ] , [ 5 , 6 ] ] 
mask = np.array([True,False,True] ) 
boolean_mask (tensor,mask) == >  [ [ 1 , 2 ] , [ 5 , 6 ] ]

tensorflow學習筆記：tf.data.Dataset，from_tensor_slices(),shuffle()，batch()的用法

例1：

例2：

函數參數

函數返回

函數參數

函數返回值

TDengine docker安裝方法

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Navicat安裝與激活教程

機器學習性能度量(1)：P-R曲線與ROC曲線，python sklearn實現

pandas:數據規範化方法與python實現

pandas: DataFrame在數據處理時一些常用的操作彙總

數據結構與算法：已知二叉樹兩種遍歷序列，求第三種遍歷序列

python：else與循環語句聯合用法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結