威斯康星乳腺癌数据集下载哪一个_工具

10个经典的公开数据集+免费下载链接

TYYQ

来自专栏公开数据集

1、帕尔默企鹅数据集

背景描述

由Kristen Gorman博士和南极洲LTER的帕尔默科考站共同创建，包含344只企鹅的数据。

数据说明

species: 三个企鹅种类：阿德利巴布亚帽带

culmen_length_mm: 鸟的嘴峰长度

culmen_depth_mm: 鸟的嘴峰深度

flipper_length_mm: 脚掌长度

body_mass_g: 体重

island: 岛屿的名字

sex: 企鹅的性别

下载链接：帕尔默企鹅数据集

2、MNIST数据集

经典的手写数字数据集，用于图像分类和识别练习。

21 中文数字MNIST

背景描述

由100名中国人亲自用黑笔手写的15个数字

数据说明

15000张 300x300分辨率 64x64大小的

下载链接：中文数字MNIST

22 Fashion MNIST

背景描述

用于代替原始的MNIST数据

数据说明

包含 60,000 个样本的训练集和一个 10,000 个服装图像的测试集，所有图像都经过尺寸归一化和居中，图像的大小也固定为 28×28

下载链接：Fashion MNIST

3、共享单车

21 国内共享单车数据集

背景描述

共享单车数据集

数据说明

训练集（traincsv）和测试集共近500万条出行记录：

orderid 订单号 userid 用户ID bikeid 车辆ID biketype 车辆类型 starttime 骑行起始日期时间 geohashed_start_loc 骑行起始区块位置 geohashed_end_loc 骑行目的地区块位置

注意：地理位置通过Geohash加密，可以通过开源的方法获得经纬度数据（testcsv）

下载链接：国内共享单车数据集

22 共享单车需求

背景描述

华盛顿特区“首都自行车共享计划”，根据自行车共享和租赁系统获取的数据

数据说明

骑行信息：时间、出发地点、到达地点、经过时间、租借总长；

天气信息：当天温度（摄氏度）、风速、湿度；

时间信息：季节、工作日、周末、假期；

下载链接：共享单车需求

4、猫狗

包含2千张（猫与狗各1千张），用于机器学习

下载链接：猫狗训练集共2000张

5、威斯康星州乳腺癌（诊断）数据集

背景描述

数据通过处理乳房肿块的细针穿刺（FNA）的数字化图像提取出来

数据说明

由 569 个样本组成，包括 357 个良性样本和 212 个恶性样本。这个数据集中有三类特征，其中实值特征最有趣。它们是从数字化图像中计算出来的，包含有关区域、细胞半径、纹理等信息

下载链接：威斯康星州乳腺癌（诊断）数据集

6、葡萄酒数据集

61 红葡萄酒

背景描述

数据取自葡萄牙一种红酒品类：Vinho Verde

数据说明

包含11种特征与最终质量评分

下载链接：红酒质量数据

62 白葡萄酒

背景描述

来自葡萄牙Vinho Verde产地的白葡萄酒

数据说明

包含葡萄酒的氯化物、柠檬酸、硫酸盐、酒精度、残留糖份等其他属性数据

下载链接：白葡萄酒质量

7、Twitter推文的情绪分析

背景描述

情绪分析用于监控和了解客户反馈

数据说明

包含了使用 Twitter API 提取的 1,600,000 条推文

下载链接：Twitter推文的情绪分析数据集

其实就是python怎么读取binnary file

mnist的结构如下，选取train-images

TRAINING SET IMAGE FILE (train-images-idx3-ubyte):

[offset] [type] [value] [description]

0000 32 bit integer 0x00000803(2051) magic number

0004 32 bit integer 60000 number of images

0008 32 bit integer 28 number of rows

0012 32 bit integer 28 number of columns

0016 unsigned byte pixel

0017 unsigned byte pixel

xxxx unsigned byte pixel

也就是之前我们要读取4个 32 bit integer

试过很多方法，觉得最方便的，至少对我来说还是使用

structunpack_from()

filename = 'train-imagesidx3-ubyte'

binfile = open(filename , 'rb')

buf = binfileread()

先使用二进制方式把文件都读进来

index = 0

magic, numImages , numRows , numColumns = structunpack_from('>IIII' , buf , index)

index += structcalcsize('>IIII')

然后使用strucunpack_from

'>IIII'是说使用大端法读取4个unsinged int32

然后读取一个测试是否读取成功

im = structunpack_from('>784B' ,buf, index)

index += structcalcsize('>784B')

im = nparray(im)

im = imreshape(28,28)

fig = pltfigure()

plotwindow = figadd_subplot(111)

pltimshow(im , cmap='gray')

pltshow()

'>784B'的意思就是用大端法读取784个unsigned byte

完整代码如下

import numpy as np

import struct

import matplotlibpyplot as plt

filename = 'train-imagesidx3-ubyte'

binfile = open(filename , 'rb')

buf = binfileread()

index = 0

magic, numImages , numRows , numColumns = structunpack_from('>IIII' , buf , index)

index += structcalcsize('>IIII')

im = structunpack_from('>784B' ,buf, index)

index += structcalcsize('>784B')

im = nparray(im)

im = imreshape(28,28)

fig = pltfigure()

plotwindow = figadd_subplot(111)

pltimshow(im , cmap='gray')

pltshow()

只是为了测试是否成功所以只读了一张

分别是训练至一半和训练最终完成后的模型。接下来可以用这模型对mnist的测试集和自己手写的数字进行测试(见下篇教程)。

caffe-windows的配置教程。由于博主自己也只是个在校学生，目前也写不了太深入的东西，所以准备从最基础的开始一步步来。个人的计划是分成配置和运行官方教程，利用自己的数据集进行训练和利用caffe来实现别人论文中的模型(目前在尝试的是轻量级的SqueezeNet)三步走。不求深度，但求详细。因为说实话caffe-windows的配置当初花了挺多时间的，目前貌似还真没有从头开始一步步讲起的教程，所以博主就争取试着每一步都讲清楚吧。

之所以选择SqueezeNet是因为相比于目前互联网行业深度学习应用的火热，移动设备端的深度学习应用实在少得可怜。如果我没记错地话，苹果在2016年9月7日发布会中提到了机器学习两次，其中ios10的一个亮点就是利用深度学习技术实现照片中人脸的自动识别归类，私下里测试了下效果很不错。当然缺点也显而易见，由于需要大量的计算，目前只在用户接通电源的情况下才会去识别。我的师兄们也尝试过用深度学习做移动设备端应用的开发，不过最后由于花费时间太长改成了上传到服务器端完成。所以计算量大应该算是深度学习应用向移动设备端转移的一个很大问题。不过，有理由相信今后移动设备端的深度学习应用会变得越来越多，也会是一个前景广阔的市场。

以上就是关于威斯康星乳腺癌数据集下载哪一个全部的内容，包括:威斯康星乳腺癌数据集下载哪一个、数据量太大，怎样用python一次读取一个手写体mnist、mnist数据集可以用电脑cpu跑吗等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9490126.html

威斯康星乳腺癌数据集下载哪一个

发表评论

评论列表（0条）